第4章主成分分析
引言
在实际中,往往涉及众多变量,但变量太多不仅增加计算的复杂性,且也给分析和解释问题带来困难。一般来说,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用较少的互不相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析便是在这种降维的思想下产生的处理高维数据的方法。
Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法
通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目
可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析
成分的保留:Kaiser主张(1960)将特征值小于1的成分放弃,只保留特征值大于1的成分
如果能用不超过3-5个成分就能解释变异的80%,就算是成功
主成分分析
主成分分析
通过对原始变量进行线性组合,得到优化的指标
把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额)
基本思想:设法将原先众多具有一定相关性的指标,重新组合为一组新的互相独立的综合指标,并代替原先的指标
主成分分析的直观几何意义
总体主成分
总体主成分的定义
设X1,X2,…,Xp为某实际问题所涉及的p个随机变量。记X=(X1,X2,…,Xp)T, 其协方差矩阵为
它是一个p阶非负定矩阵。设li=(li1,li2,…,lip)T (i=1,2,…,p)为p个常数向量,考虑如下线性组合:
=(ij)pp=E[(X-E(X))(X-E(X))T]
易知有
如果我们希望用Y1代替原来 p个变量X1,X2,…Xp,这就要求Y1尽可能地反映原 p个变量的信息。这里“信息”用Y1的方差来度量,即要求
达到最大。
若l1不加限制,则Var(Y1)无界。在约束条件l1Tl1=1之下,求 l1使Var(Y1)达到最大,由此l1所确定的随机变量
称为 X1,X2,…,Xp的第一主成分。
如果第一主成分Y1还不足以反映原变量的信息,进一步求Y2。为了使Y1和Y2反映原变量的信息不相重叠,要求Y1与Y2不相关,即
于是,在约束条件l2Tl2 =1及l1Tl2 =0之下,求l2 使Var(Y2)达到最大,由此l2 所确定的随机变量Y2=l2TX 称为X1, X2, …, Xp的第二主成分。
一般地,在约束条件及
下,求li 使Var(Yi) 达到最大,由此li所确定的
称为X1,X2,…,Xp的第i个主成分。
总体主成分的求法
关于总体主成分有如下结论:
设是X=(X1,X2,…Xp)T 的协方差矩阵,的特征值及相应的正交单位化特征向量分别为1≥2≥...≥p 及e1,e2,…ep,则X的第i 主成分为
其中ei=(ei1,ei2,…,eip)T. 这时易见:
证明从略。
以上结果告诉我们,求 X 的各主成分,等价于求它的协方差矩阵的各特征值及相应的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征向量为组合系数的X1,X2,…,Xp 的线性组合分别为X 的第一、第二、直至第 p 个主成分,而各主成分的方差等于相应的特征值。
总体主成分的性质
1. 主成分的协方差矩阵及总方差
记Y=(Y1,Y2,…Yp)T为主成分向量,则Y=PTX ,其中P=(e1,e2,…,ep),且
由此立得主成分的总方差为
即主成分分析是把p个原变量X1,X2,…,Xp的总方差分解成p个不相关变量Y1,Y2,…,Yp 的方差之和。
第六讲 主成分分析 来自淘豆网m.daumloan.com转载请标明出处.