第二节主成分分析(ponent analysis)
多元分析处理的是多指标问题。由于指标太多,使得分析的复杂性增加。众多的要素常常给模型的构造带来很大困难。
观察指标的增加本来是为了使研究过程趋于完整,但反过来说,为使研究结果清晰明了而一味增加观察指标又让人陷入混乱不清。
由于在实际工作中,指标间经常具备一定的相关性,故人们希望用较少的指标代替原来较多的指标,但依然能反映原有的全部信息,于是产生了主成分分析、对应分析、典型相关分析和因子分析等方法。
主成分分析
主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中选取几个较少的综合指标尽可能多地反映原始指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。
该方法也是数学上处理降维的一种方法。
一、主成分分析的基本思想
主成分分析就是设法将原来众多且具有一定相关性的指标(比如p个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。
通常数学上的处理就是将原来n个指标作线性组合,作为新的综合指标。但这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?
如果将选取的第一个线性组合即第一个综合指标记为F1 ,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用F1的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合。为了有效地反映原来信息, F1 已有的信息就不需要再出现在F2 中,用数学语言表达就是要求Cov(F1 , F2 )=0,称F2 为第二主成分,依此类推可以造出第三、四……,第P个主成分。
不难想像这些主成分之间不仅不相关,而且它们的方差依次递减。因此在实际工作中,就挑选前几个最大主成分,虽然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息,因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的简化和有效处理。
二、主成分分析的数学模型
设有n个样本,每个样本有p个指标(变量): X1,X2,…,Xp ,得到原始数据资料矩阵:
主成分分析的数学模型
用矩阵X的p个向量Xl,X2,…,Xp 作线性组合,发现具有正交特征,综合成p个指标,即
F1=a11X1+a12X2+...+a1pXp F2=a21X1+a22X2+...+a2pXp .................. Fp=ap1X1+ap2X2+...+appXp
这样决定的综合指标F1,F2,…,Fp分别称做原始指标的第一,第二,…,第p主成分,且
F1,F2,…,Fp 在总方差中占的比例依次递减
3.2-主成分分析 来自淘豆网m.daumloan.com转载请标明出处.