主成分分析
主成分分析(ponents Analysis)是将研究对象的多个相关变量(指标)化为少数几个不相关的变量的一种多元统计方法。。
§1 主成分分析的基本思想
在多变量分析中,为了尽可能完整地搜集信息,对每个样品往往要测量许多项指标,以避免重要信息的遗漏。然而,以变量形式体现的诸多指标很可能存在着很强的相关性,如此,则信息可能重叠,问题也变得较为复杂。因此,自然想到用少数几个不相关的综合变量来代替原来较多的相关变量进行研究,如果这些不相关的综合变量能够反映原变量提供的大部分信息。从数学的角度来看,这就是降维的思想。
那么,如何寻找这些不相关的综合变量呢?
每个综合变量能由原变量表出,且表达式尽可能简单,如线性表出。
每个综合变量有具体的实际意义。
我们将主成分分析的基本思想叙述如下:设研究某个问题涉及p个指标,这p个指标构成的p维随机向量为,对作正交变换,令,其中为正交矩阵,使得,的各分量不相关,且有具体的解释。从这些分量中选择包含了所研究问题的绝大部分信息的少数几个分量构成综合变量(所谓主成分),通过这些综合变量对问题进行研究。
【例】在企业经济效益评价中,涉及多项指标,包括百元固定资产原值实现产值、百元固定资产原值实现利税、百元资金实现利税、百元工业产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值、每千瓦时电力实现工业产值、全员劳动生产率、百元流动资金实现产值等九项指标。实际上,通过主成分分析这些变量可以综合成为两个主成分:投入产出效果、产出对国家的贡献。
§2 主成分的几何意义与一般数学模型
一、主成分的几何意义
设有n个样品,每个样品有两个观测变量和,在由和所确定的二维平面中,n个样本点所散布的情况如下图。
每个变量所包含的(区分样本点的)信息的多少由其方差的大小所决定,方差越大,所含信息越多。
如果我们只用描述所研究的问题,则样本点反映的在变量上的差异就不能体现,会损失将近一半的信息;如果我们只用描述所研究的问题,则样本点反映的在变量上的差异就不能体现,也会损失将近一半的信息。
如果我们作如下的坐标变换
则样品的大部分信息就体现在上(见下图),于是,我们可选择作为主成分对问题进行研究。
二、主成分分析的一般数学模型
一般地,n个样品的p 个指标的数据可由如下矩阵描述,
通常,一些经济指标具有不同的量纲,有的指标之间有数量级的差异,在应用主成分分析研究经济问题时,这些差异会引出新的问题。所以,我们在进行主成分分析之前,都要将数据标准化,使得每个变量的均值为0,方差为1. 对标准化后的数据,我们仍用上面的矩阵记之。
主成分分析就是要寻找这样的和正交矩阵
使得,即,
且:
1)与相互无关;
2)是满足上述条件的的所有线性组合中方差最大者;是与不相关且满足上述条件的的所有线性组合中方差最大者;依此类推。
然后,选择适当个数的主成分研究问题。
§3主成分的求法
三、样本主成分的导出
对
,
记,其中;
,其中,
称为样本协方差矩阵,为样本相关矩阵。
注意:对于标准化数据,变量的样本协方差阵和样本相关阵是相同的。
方差贡献率体现该主成分对整组数据变异的解释程度,方差贡献率越大,该主成分对整组数据变异的解释程度就越强。
求的
主成分分析02887 来自淘豆网m.daumloan.com转载请标明出处.