主成分分析变量之间存在一定的相关性, 因此, 多变量可能存在信息的重叠。人们自然希望通过克服相关性、重叠性, 用较少的变量来代替原来较多的变量, 而这种代替可以反映原来多个变量的大部分信息, 这实际上是一种“降维”的思想。主成分分析也称主分量分析。由于多个变量之间往往存在一定的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时, 再考虑用第二个线性组合继续这个快速提取的过程, 直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般来说, 在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量, 就得到一个更低维德随机向量;因此,通过主成分既可以降低“维数”。又保留了原数据的大部分信息。信息用什么表示呢? 当一个变量只取一个数据时, 这个变量( 数据) 提供的信息是非常有限的,当变量取一系列不同数据时, 可以从中读出最大值、最小值、平均值等信息。变量的变异越大, 说明它对各种场景的“遍历性”越强, 提供的信息就更加充分, 信息量就越大。主成分分析中的信息, 就是指标的变异性,用标准差或方差表示。主成分分析的数学模型是,设 p 个变量构成的 p 维随机向量为)',,( 1pXXX??。对 X 作正交变换,令 XTY'?,其中 T 为正交阵,要求 Y 的各分量是不相关的,并且 Y 的第一个分量的方差是最大的,第二个分量的方差次之, ……。为了保持信息不丢失, Y 得各分量方差和与 X 的各分量方差和相等。主成分的几何意义及数学推导主成分分析数学模型中的正交变换, 在几何上就是作一个坐标旋转。因此主成分分析在二维空间有明显的几何意义。(看书上的例子 P139 ) 主成分的数学推导设)',,( 1pXXX??为一个 p 维随机向量, 并假定存在二阶矩,其均值向量与协方差分别记为)(XE??, )(XD??考虑如下的线性变换??????????????????????XTXtXtXtY XTXtXtXtY XTXtXtXtY pp pp ppp pp pp'2211 '222 22 1 21 2 '112 12 1 11 1????用矩阵表示为 XTY'?其中)',,,( 21pYYYY??; ),,,( 21pTTTT??。我们希望寻找一组新的变量)(,,, 21pmYYY m??,这组新的变量要求充分地反应原变量 pXXX,,, 21?的信息,而且相互不相关。这里我们应该注意到,对于)(,,, 21pmYYY m??有 miTTTXDTXTDYD iiiiii,,2,1)()()( '''??????mkiTTXTXT Cov YY Cov kikiki,,2,1,),(),( '''?????这样, 我们所要解决的问题转化为, 在新的变量)(,,, 21pmYYY m??相互不相关的条件下,求 iT 使得 miTTYD iii,,2,1)( '????达到最大。首先注意到,使)( iYD 达到最大的线性组合,显然用常数乘以 iT后, )( iYD 也随之增大, 为了消除这种不确定性,不妨假设 iT 满足 1 '? iiTT 。这样问题可以更加明确: 第一主成分, 满足 1 1 '1?TT, 使得 1 '11)(TTYD??达到最大的 XTY '11?。第二主成
09主成分析 来自淘豆网m.daumloan.com转载请标明出处.