主编:费宇中国人民大学出版社2016-11-26主编:费宇1第6章主成分分析2016-11-26主编:费宇2?主成分分析:也称主分量分析,是由Hotelling于1933年提出的一种常用的多元统计方法.?基本思想:用个数较少,但是保留了原始变量的大部分信息几个不相关的综合变量(即主成分)来代替原来较多的变量,从而可以简化数据,对原来复杂的数据关系进行简明有效的统计分析.?主成分分析的本质就是“降维”,、计算、主要性质;;主成分分析的步骤和相关R 案例:主成分综合分析2016-11-26主编:-11-26主编:费宇4?实际统计分析中,经常处理多变量、大维数数据分析问题,分析过程较复杂,难度较大.?,希望用个数较少,但是保留了原始变量的大部分信息几个不相关的综合变量(即主成分)来代替原来较多的变量,达到降维的目的, 从而进行简明有效的统计分析.?主成分分析中的信息,就是指变量的变异性,常用标准差或方差来表示它. ?以二维正态分布样本点来直观说明:如图,设有n个样品点大致分布在平面上一个椭圆内:2016-11-26主编:费宇5二维情形主成分的解释样本点之间的差异是由x1和x2的变化引起的,两者变动的相差不大,但如果用新坐标y1和y2来代替,易见,这些样本点的差异主要体现在y1轴上,n个点在y1轴方向上的方差达到最大,,如果y1轴方向的差异占了全部样本点差异的绝大部分,那么将y2忽略是合理的,这样就把两个变量简化为一个,显然这里的y1轴代表了数据变化最大的方向,,并要求已经包含在y1中的信息不出现在y2中,即2016-11-26主编:费宇61 1cov( , ) y?二维情形主成分的解释(续)注意两个主成分y1和y2都是x1和x2的线性组合:其中P为旋转变换矩阵,:椭圆变成圆,第一主成分y1只体现了约一半的信息,若此时将y2忽略,则将损失约50%的信息,:椭圆扁平到了极限, 变成y1轴上一条线段,第一主成分y1几乎包含有二维样品点的全部信息, 仅用y1代替原始数据几乎不会有任何的信息损失, -11-26主编:费宇71 1T2 2cos sinsin cosy xy x? ?? ?? ? ??? ?? ??? ? ??? ??? ?? ? ??P X一般, 总体的p个主成分为:第i个主成分yi 的方差为?y1是X 的一切线性组合中方差最大者;?y2是与y1不相关是X 的一切线性组合中方差最大者;?······2016-11-26主编:费宇8T1( , , ) ~( , )px x?X???T( ) 1, , .i i iVar y i p? ?a a??T1 11 1 12 2 1 1T2 21 1 22 2 2 2T1 1 2 2,,.p pp pp p p pp p py a x a x a xy a x a x a xy a x a x a x?? ?????? ????????? ?????a Xa Xa X??????? 主成分的计算2016-11-26主编: 主成分的主要性质2016-11-26主编:费宇10X 的p个主成分所成向量为:性质1:性质2:性质3:1 2( ) ( , , , ).pVar diag? ? ?? ??yΛ( , )( , ) .( ) ( )kk ik i kik i iiCov y xy x eVar y Var x????
第6章-主成分分析 来自淘豆网m.daumloan.com转载请标明出处.