主成分分析(ponentanalysis,PCA)是一种最古老的多元统计分析技术。Pearcon[1]于1901年首次引入主成分分析的概念,Hotelling[2]在30年代对主成分分析进行了发展。主成分分析是数理统计学中多元分析中的一个常用方法。所谓多元分析就是统计中讨论多元随机变量统计方法的总称。多元分析在地质、生物、医学、气象等方面资料分析以及计算机模式识别方面有广泛的应用,已成为数理统计学中的一个重要方面。主成分分析实质上是研究多指标怎样用较少的指标去近似描述它或者给多个指标进行重要程度的排队。,以排除众多信息共存中相互重叠的信息。它是将原变量进行转换,使少数几个新变量是原变量的线性组合,同时,这些变量要尽可能多地表征原变量的数据结构特征而不丢失信息。新变量互不相关,即正交。在文献中有许多种叫法,如本征矢量投影(eigenvectorprojection),奇异值分解(position),KarhunenLoéve展开(expandion)和K-L投影(K-Lprojection)等等,实际上均为主成分分析。,如图1所示。这组数据在二维平面上的分布大致为一椭圆形。若拟将二维降为一维,实际上就是将二维空间上的点投影到一维空间中的一条线上。假若没有约束条件,其投影方向将有无穷个。如何得到最佳投影,在数学上,主成分分析为我们提供了一条途径。,在一维空间中的这条线必须包含原数据的最大方差。更准确些说,沿着这条线,使方差达到最大;而其他方向,使方差达到最小。从几何学观点看,这条线的方向应沿着椭圆的主轴。从代数学的观点看,。现在引入一直线L,6个数据点在L上的投影分别为1’,2’,…,6’,那么可按下式分解:即其中,第一部分即为沿直线方向的方差,必须使之达到最大;第二部分即为沿其他方向的方差,必须使之达到最小。,新变量,表达为:…………其系数矩阵为:新变量和老变量x的列矢量分别为:由此,转换可写为:=Vx同样,在m维主成分的系数也必须满足:(1)对于每两两主成分k和rvk1vr1+vk2vr2+…+vkmvrm=0此点意味着两个矢量正交。(2)对于每一个主成分r此点意味着每一矢量必须是单位长度。综合上述两点,我们有:式中为V的转置矩阵;I为单位阵类似于二维空间,在m维空间同样可将新变量ur的方差-协方差阵(以后简称为协方差阵)表达为原变量x的协方差阵的函数:式中Cu和Cx分别为新变量ur和原变量x的协方差阵。前边已经提及,我们称新变量为主成分,它们是原变量的线性组和,且彼此正交。对于某一主成分,原变量的系数是相应本征矢量的坐标。某一变量的载荷(loading)定义为该变量在组合式中的系数乘以相应于该主成分本征值的平方根。但实际中,也常称系数本身为载荷。载荷越大,说明此变量与那个主成分越“相同”。因而,载荷可视为变量与主成分的相关性。取协方差阵Cx的第二个最大本征值所相应的本征矢量v2,它和1不相关,,,可得m个主成分。在实际应用中一般可取前边几个对偏差量贡献大的主成分,这样可使高维空间的数据降到低维如二维或三维空间,非常益于数据的观察,同时损失的信息量还不会太大。取前P个主成分的数据为一般推荐比率%≥80%。另外,当数据的来源不一,不同变量间数值差异较大时应作标准化处理。即变量与均值之差被标准偏差来除。
主成分分析讲07 来自淘豆网m.daumloan.com转载请标明出处.