主分量分析的数学模型当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机变量,是很必要的。首先我们看一个例子。几个数据集1、身材情况能否用单个指标刻画男女身材之间有什么异同chestwaisthipsgenderchestwaisthipsgender343032male362435female373237male362537female383036male342437female363339male332234female382933male362638female433238male372637female403342male342538female383040male362637female403037male382840female413239male352335female2、subjectmathsenglishhistorygeographychemistryphysics160707558534228065667570763536050484543485797177687954580808444463、:SO2:SO2contentofairinmicrogramspercubicmetre;temp:averageannualtemperatureindegreesFahrenheit;manu:numberofmanufacturingenterprisesemploying20ormoreworkers;popul:populationsize(1970census)inthousands;wind:averageannualwindspeedinmilesperhour;precip:averageannualprecipitationininches;predays:,可以测量他们的身高()、体重()、胸围()和坐高()。可是用这4个指标表达学生身材状况不方便。但若用=+++;用=-++-。则这两个指标(,)很好概括了4个指标(-)。例中,学生不同,身高()、体重()、胸围()和坐高()不同;(,,,)是4维随机向量;,是他们的2个线性组合,,能很好表示,,,的特性。类似的问题在许多地方出现:可观测的随机变量很多,需要选出所有所有随机变量的少数线性组合,使之尽可能刻划全部随机变量的特性,选出的线性组合就是诸多随机变量的主成分,又称为主分量。寻求随机向量主成分,并加以解释,称为主成分分析,又称为主分量分析。主成分分析在许多学科中都有应用,细节可参看张尧廷(1991)、Richard(2003),主成分分析在气象等科学中称为PCA方法,见吴洪宝(2005)。主成分分析的数学模型是:对于随机向量X,想选一些常数向量,用尽可能多反映随机向量X的主要信息,也即尽量大。但是的模可以无限增大,从而使无限变大,这是我们不希望的;于是限定模的大小,而改变各分量的比例,使最大;通常取的模为1最方便。,若常数向量,在条件=1下使最大,则称是X的第一主成分或第一主分量。由定义可见,尽可能多地反映原来p个随机变量变化的信息。但是一个主成分往往不能完全反映随机向量特色,必须建立其它主成分,它们也应当最能反映随机向量变化,而且他们应当与第一主成分不相关(不包含的信息)。=在条件=l,下,使最大,则称是X的第二主成分;若常数向量c=在条件=l,,下,使最大,则称是X的第三主成分;…。当随机向量方差已知时,。。特征值从大到小为,对应的彼此正交单位特征向量为。则X的第j个主成分为与X的内积,即()且证明:任取p维单位向量c,必有。于是,而在条件下,当,即时,最大,所以X的第一主成分是与X的内积。由条件,可得,于是,从而;所以在条件=1、下,当时,最大,所以X的第2个主成分为与X的内积。对第三,第四……主成分同样可证。,且则=,=[,-,-]=,=[,-,]=,=[,,-]所以第一主成分就是=-
第五章 主成分分析(1)(主成分模型) 来自淘豆网m.daumloan.com转载请标明出处.