第七章主成分分析
§ 什么是主成分分析及基本思想
1 什么是主成分分析
主成分概念首先由Karl parson在1901年引进,不过当时只对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机向量。
在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。也是数学上处理降维的一种方法,例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多,而是从多种指标中综合成几个少数的综合指标,做为分类的型号,如利用主成分分析将十几项指标综合成3项指标,一项是反映长度的指标,一项是反映胖瘦的指标,一项是反映特体的指标。在商业经济中用主成分分析可将复杂的一些数据综合成几个商业指数形式,如物价指数、生活费用指数,商业活动指数等等。
主成分分析除了可以单独用来处理上面所讨论的这一类问题外,还可以与其它方法结合起来使用,例如与回归分析结合起来就是主成分回归,它可以克服回归问题中由于自变量之间的高度相关而产生的分析困难。
2 基本思想
主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用F1的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求=0,称F2为第二主成分,依此类推可以构造出第三,四,……,第p个主成分。不难想像这些主成分之间不仅不相关,而且它们的方差依次递减。因此在实际工作中,就挑选前几个最大主成分,虽然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息。因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。
§ 主成分分析的数学模型及几何解释
1 数学模型
设有n个样品,每个样品观测p项指标(变量);,得到原始数据资料阵:
其中
用数据矩阵X的p个向量(即p个指标向量)X1,…,Xp作线性组合?
(即综合指标向量)为:
简写成
(注意:是维向量,所以也是维向量。)
上述方程组要求:
且系数由下列原则决定:
(1)与不相关;
(2)是的一切线性组合(系数满足上述方程组)中方差最大的,F2与F1不相关的一切线性组合中方差最大的,是与都不相关的X1,…,Xp的一切线性组合中方差最大的。
如何求满足上述要求的方程组的系数呢?下一节将会看到每个方程式中的系数向量不是别的而恰好是X的协差阵的特征值所对应的特征向量,也就是说,数学上可以证明使达到最大,这个最大值是在的第一个特征值所对应特征向量处达到。依此类推使达到最大值是在的第p个特征值所对应特征向量处达到。
2 主成分的几何意义
从代数学观点看主成分就是p个变量的一些特殊的线性组合,而在几何上这些线性组合正是把构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样品变差最大的方向(或说具有最大的样品方差)。下面以最简单的二元正态变量来说明主成分的几何意义。
设有n个样品,每个样品有p个变量记为,它们的综合变量记为。当p=2时,原变量是,设,它们有下图的相关关系:
对于二元正态分布变量,n个点的散分大致为一个椭园,若在椭园长轴方向取坐标轴F1,在短轴方向聚F2,这相当于在平面上作一个坐标变换,即按逆时针方向旋转角度,根据旋转轴变换公式新老坐标之间有关系:
我们看到F1, F2是原变量X1和X2的线性组合,用矩阵表示是
显然且是正交矩阵,即。
从上图还容易看出二维平面上的n个点的波动(可用方差表示)大部分可以归结为在F1轴上的波动,而在F2轴上的波动是较小的。如果上图的椭圆是相当扁平的,那么我们可以只考虑F1方向上的波动,忽略F
Chapter7主成分分析 来自淘豆网m.daumloan.com转载请标明出处.