下载此文档

第六讲 主成分分析.ppt


文档分类:高等教育 | 页数:约48页 举报非法文档有奖
1/48
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/48 下载此文档
文档列表 文档介绍
第4章主成分分析
引言
在实际中,往往涉及众多变量,但变量太多不仅增加计算的复杂性,且也给分析和解释问题带来困难。一般来说,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用较少的互不相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析便是在这种降维的思想下产生的处理高维数据的方法。
Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法
通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目
可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析
成分的保留:Kaiser主张(1960)将特征值小于1的成分放弃,只保留特征值大于1的成分
如果能用不超过3-5个成分就能解释变异的80%,就算是成功
主成分分析
主成分分析
通过对原始变量进行线性组合,得到优化的指标
把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额)
基本思想:设法将原先众多具有一定相关性的指标,重新组合为一组新的互相独立的综合指标,并代替原先的指标
主成分分析的直观几何意义
总体主成分
总体主成分的定义
设X1,X2,…,Xp为某实际问题所涉及的p个随机变量。记X=(X1,X2,…,Xp)T, 其协方差矩阵为
它是一个p阶非负定矩阵。设li=(li1,li2,…,lip)T (i=1,2,…,p)为p个常数向量,考虑如下线性组合:
=(ij)pp=E[(X-E(X))(X-E(X))T]
易知有
如果我们希望用Y1代替原来 p个变量X1,X2,…Xp,这就要求Y1尽可能地反映原 p个变量的信息。这里“信息”用Y1的方差来度量,即要求
达到最大。
若l1不加限制,则Var(Y1)无界。在约束条件l1Tl1=1之下,求 l1使Var(Y1)达到最大,由此l1所确定的随机变量
称为 X1,X2,…,Xp的第一主成分。
如果第一主成分Y1还不足以反映原变量的信息,进一步求Y2。为了使Y1和Y2反映原变量的信息不相重叠,要求Y1与Y2不相关,即
于是,在约束条件l2Tl2 =1及l1Tl2 =0之下,求l2 使Var(Y2)达到最大,由此l2 所确定的随机变量Y2=l2TX 称为X1, X2, …, Xp的第二主成分。
一般地,在约束条件及
下,求li 使Var(Yi) 达到最大,由此li所确定的
称为X1,X2,…,Xp的第i个主成分。
总体主成分的求法
关于总体主成分有如下结论:
设是X=(X1,X2,…Xp)T 的协方差矩阵,的特征值及相应的正交单位化特征向量分别为1≥2≥...≥p 及e1,e2,…ep,则X的第i 主成分为
其中ei=(ei1,ei2,…,eip)T. 这时易见:
证明从略。
以上结果告诉我们,求 X 的各主成分,等价于求它的协方差矩阵的各特征值及相应的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征向量为组合系数的X1,X2,…,Xp 的线性组合分别为X 的第一、第二、直至第 p 个主成分,而各主成分的方差等于相应的特征值。
总体主成分的性质
1. 主成分的协方差矩阵及总方差
记Y=(Y1,Y2,…Yp)T为主成分向量,则Y=PTX ,其中P=(e1,e2,…,ep),且
由此立得主成分的总方差为
即主成分分析是把p个原变量X1,X2,…,Xp的总方差分解成p个不相关变量Y1,Y2,…,Yp 的方差之和。

第六讲 主成分分析 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数48
  • 收藏数0 收藏
  • 顶次数0
  • 上传人yzhluyin9
  • 文件大小1.67 MB
  • 时间2017-10-12
最近更新