关于主分量分析
第一页,讲稿共五十二页哦
第一节 主分量分析
概 述
主分量分析的基本原理
主分量分析的计算步骤
主分量分析主要的作用
主分量分析方法应用实例
第二页,讲稿共五十二页哦
许多系统是多要素的复杂系统的分布比较长,方差大,而在短轴上的分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分性比x,y轴的方法要好!
所以我们的做法就是求得一个k维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交,特征向量都是正交的。通过求样本矩阵的协方差矩阵,然后求出协方差矩阵的特征向量,这些特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小。
第十一页,讲稿共五十二页哦
举一个例子:
对于一个训练集,100个样本,特征是10维,那么它可以建立一个100*10的矩阵,作为样本。求这个样本的协方差矩阵,得到一个10*10的协方差矩阵,然后求出这个协方差矩阵的特征值和特征向量,应该有10个特征值和特征向量,我们根据特征值的大小,取前四个特征值所对应的特征向量,构成一个10*4的矩阵,这个矩阵就是我们要求的特征矩阵,100*10的样本矩阵乘以这个10*4的特征矩阵,就得到了一个100*4的新的降维之后的样本矩阵,每个样本的维数下降了。
第十二页,讲稿共五十二页哦
二、主分量分析的基本原理
假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵
()
第十三页,讲稿共五十二页哦
当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。
第十四页,讲稿共五十二页哦
定义:记x1,x2,…,x P为原变量指标,z1,z2,…,z m(m≤p)为新变量指标
()
系数lij的确定原则:
① z i与zj(i≠j;i,j=1,2,…,m)相互无关;
第十五页,讲稿共五十二页哦
② z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;…; zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP, 的所有线性组合中方差最大者。
则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第1,第2,…,第m主成分。
第十六页,讲稿共五十二页哦
从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2 ,…, p)在诸主成分zi(i=1,2,…,m)上的荷载 lij( i=1,2,…,m; j=1,2 ,…,p)。
从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。
第十七页,讲稿共五十二页哦
三、主分量分析的计算步骤
(一)计算相关系数矩阵
rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为
()
()
第十八页,讲稿共五十二页哦
(二)计算特征值与特征向量
① 解特征方程 ,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列 ;
② 分别求出对应于特征值 的特征向量
,要求 =1,即 ,其中 表示向量 的第j个分量。
第十九页,讲稿共五十二页哦
③ 计算主成分贡献率及累计贡献率
贡献率
累计贡献率
一般取累计贡献率达85%~95%的特征值
所对应的第1、第2、…、第m(m≤p)个主成分。
第二十页,讲稿共五十二页哦
④ 计算主成分载荷
⑤主成分计算概括以下几点:
()
()
第二十一页,讲稿共五十二页哦
三、主分量分析主要作用
1.主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Y1(即 m=1)时,这个Y1仍是使用全部X变量(p个)得到的。例如要计算Y1的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数
主分量分析 来自淘豆网m.daumloan.com转载请标明出处.