09主成分分析.doc主成分分析变量之间存在一定的相关性,因此,多变量可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。主成分分析也称主分量分析。由于多个变量之间往往存在一定的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般来说,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维德随机向量;因此,通过主成分既可以降低“维数”。又保留了原数据的大部分信息。信息用什么表示呢?当一个变量只取一个数据时,这个变量(数据)提供的信息是非常有限的,当变量取一系列不同数息。变量的变异越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。据时,可以从中读出最大值、最小值、平均值等信Nd主成分分析中的信息,就是指标的变异性,用标准差或方差表示。主成分分析的数学模型是,设P个变量构成的P维随机向量为X=(X”...,X丿。对X作正交变换,令Y=T'X,其中卩为正交阵,要求丫的各分量是不相关的,并且丫的第一个分量的方差是最大的,第二个分量的方差次之,……。为了保持信息不丢失,丫得各分量方差和与x的各分量方差和相等。主成分的几何意义及数学推导主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转。因此主成分分析在二维空间有明显的几何意义。(看书上的例子P139)主成分的数学推导设X=(X「…,X丿为一个P维随机向量,并假定存在二阶矩,其均值向量与协方差分别记为〃=E(X),£=D(X)考虑如下的线性变换\Yp=tplX^tp2X2+^+tppXp=TpX用矩阵表示为 Y^rx其中丫=厲,丫2,…,丫丿;八⑺込,…兀)。我们希望寻找一组新的变量人,均,…,舄⑷S#),这组新的变量要求充分地反应原变量X1,%2,…,Xp的信息,而且相互不相关。这里我们应该注意到,对于乙,丫2,…,S有砒)=D(T-X)=TUX)7;=何i=吆••期Co^Yk)=Cog^X)=T^Tk i,k=d・・・,m这样,我们所要解决的问题转化为,在新的变量Y^Y2^Ym(m<p)相互不相关的条件下,求Z使得D(Y^=Ei=1,2,…,加达到最大。首先注意到,使达到最大的线性组合,显然用常数乘以3后,0乙)也随之增大,为了消除这种不确定性,不妨假设久满足T:—这样问题可以更加明确:第一主成分,满足V.=b使得》厲)=T/ETj达到最大的rn第二主成分为,满足T2T2=1,且Cov(Y2,Y1)=Cov(T2X,T2X)=09使得D(y2)=T2ET2达到最大的丫2=T?X°一般情形,第£主成分为,满足TZ,且6讯血必)=Coy⑴X,T;X)=O(i<k),使得Dg=TNk达到最大的h=TkXo主成分的应用:
09主成分分析 来自淘豆网m.daumloan.com转载请标明出处.