第七章主成分分析与
因子分析
ponent Analysis
Factory Analysis
本章介绍两种把变量维数降低以便于对问题的描述、理解和分析的方法:主成分分析(PCA)和因子分析(FA)。实际上主成分分析可以说是因子分析的一个特例。
如何概括多指标?综合指标问题
问题:假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,如:固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、分工和教育程度等等。如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?
:
某人要做一件上衣要测量很多尺寸,如身长、袖长等十几项指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多,而是从多种指标中综合成几个少数的综合指标,作为分类的型号,如下图:
§1 主成分分析
1 数学模型
2 主成分的计算方法
3 主成分解释
4 举例
在实际问题中,研究多变量问题是经常遇到的,然而在多数情况下,,再加上指标之间有一定的相关性,,.
主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列互不相关的新信息,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量.
如图, 设二维样本集呈现扁椭圆分布.
x1
x2
u
将二维样本Xi向长轴方向投影,可得到一维样本yi
设u为长轴方向的单位向量,则有
Xi
yi
一般如何求“最好”的方向 u
?
1 数学模型
设X1,X2,…,=(X1,X2,…,Xp)T,其协方差矩阵为
设li=(l1i, l2i ,…, lpi )T(i=1,2,…,p)为p个常数向量,考虑如下线性组合:
易知有:
我们希望用Y1代替原来p个变量,这就要求Y1尽可能的反映原p个变量的信息,即Var(Y1),我们对li做如下限制,否则Var(Y1)无界,即:
因此,我们希望在约束条件l1Tl1=1之下,求l1使达到最大,由此l1所确定的随机变量Y1=l1TX称为X的第一主成分.
如果第一主成分Y1还不足以反映原变量的信息,,即
求l2 使Var(Y2)达到最大,由此l2所确定的随机变量Y2=l2TX称为X的第二主成分.
于是,在约束条件
及
之下
一般,由优化问题
的l解得的Y=lTX称为X的第k主成分.
7a主成分分析 来自淘豆网m.daumloan.com转载请标明出处.