一、方法介绍基本思路:主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。主成分分析的基本思想就是,设法将原来众多具有一定相关性的指标(比如P个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。最经典的方法就是用F1的方差来表达,即Var(F1)越大,表示F1包含的信息越多。理论模型:设有n个样品,每个样品观测p项指标(变量):X1,X2,...,Xp,得到原始数据资料阵:(1)其中,i=1,...,p用数据矩阵X的p个向量(即p个指标向量)X1,...,Xp作线形组合(即综合指标向量)为:(2)简写成i=1,...,p(3)(注意:Xi是n维向量,所以Fi也是n维向量。)上述方程要求:i=1,...,p(4)且系数aij由下列原则决定:(1)Fi与Fj(i≠j,i,j=1,…,p)不相关;(2)F1是X1,...,Xp的一切线性组合(系数满足上述方程组)中方差最大的,F2是与F1不相关的X1,...,Xp的一切线性组合中方差最大的,…,Fp是与其他都不相关的X1,...,Xp的一切线性组合中方差最大的。二、实证模型实证模型中,我们运用主成分分析的方法,建立我国蔬菜总产的主成分回归预测模型。我们确立了以下13个因素:蔬菜种植面积(103hm2),记为X1;物质费用(元/hm2),以每公顷每年投入物质费用总金额表示,记为X2;劳动投入(日/hm2),以每hm2每年投入劳动标准工作日表示,记为X3;蔬菜零售物价指数(1990年=100),记为X4;成本纯收益率(%),记为X5;市场化程度(元/人),以人均年社会消费品零售额表示,记为X6;城市化水平1(%),用城市人口所占全2(%),用全为X8;交通(t/人),用每年人均货物运输量表示,记为X9,城镇居民人均可支配收入(元),记为X10,农村居民人均纯收入(元),记为X11,农业劳动力受教育程度(年),用农民家庭劳动力的平均文化程度表示,记为X12;气候条件(%),用每年成灾面积占农作物播种面积比重表示,记为X13。使用软件:、、、。三、一个简单的例证:我国蔬菜总产的主成分回归模型为了弄清13个因素之间的相关关系,。我们发现,从第5维开始条件指数开始超过30,第14维条件指数竟达到3680430,这表示13个影响因素之间存在着严重的多重共线性,而且X1与X6、X7、X10、X12,X2以及X4与X8、X11等有很强的相关性。由于讨论的是多个因素对蔬菜总产的影响,多个因素之间相关系数又是错综复杂的,任何两个因素之间都有简单的线性关系,而这种相关关系还夹杂了其它变量所带来的影响。因此,现在就需要有一种进行简化的方法,可以在不损失或很少损失原有信息的前提下,将上述若干个个数较多而且彼此相关的因素转化为新的且个数较少并且彼此独立或不相关的综合因素,然后将这些因素作为解释变量,与
19主成分分析法 来自淘豆网m.daumloan.com转载请标明出处.