第十一章主成分分析第一节主成分分析及其基本思想地理系统是多要素的复杂系统,在地理学研究中,经常会遇到多变量问题。变量太多,会增加分析问题的难度与复杂性,而在许多实际问题中,多个变量之间是具有一定的相关关系的。能否在相关分析的基础上,通过某些线性组合使原始变量减少为有代表意义的少数几个新的变量,而且这些较少的新变量尽可能多地保留原来变量所反映的信息?解决这个问题的数学方法就是主成分分析。主成分分析的数学原理简单易懂,在地理学研究中应用较为广泛。主成分分析(ponents Analysis , PCA) 也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量(指标)化为少数几个综合变量(综合指标) ,而这几个综合变量可以反映原来多个变量的大部分信息。为了使这些综合变量所含的信息互不重叠,应要求它们之间互不相关。一、主成分分析的基本思想主成分分析在数学上就是将原来 m 个指标作线性组合,求得新的综合指标,并选取几个具有代表性的综合指标(原指标的线性组合)。下面介绍这种选择的方法原理和实现过程。如果将选取的第一个线性组合即第一个综合指标记为 z1,自然希望 z1尽可能多地反映原来的指标信息,这里的“信息”用什么来表示呢?最经典的方法就是用 z1的方差来表示, z1的方差越大,表示 z1包含的信息越多。因此,在所有的线性组合中,选取的 z1 应该是方差最大的,称 z1 为第一主成分。如果 z1没有包含原来 m 个指标的绝大部分信息,则需要考虑选取第二个线性组合 z2,且希望 z1 中已有的信息不出现在 z2中,即 z1与 z2的协方差 Cov(z1 , z2) = 0。那么 z2 就是第二主成分,依此可以建立第三、第四等主成分,要求这些主成分互不相关,且方差依次减小。二、主成分分析的几何意义和数学模型为了方便,下面通过一个例子在二维空间中讨论主成分的几何意义。图 17-115 主成分的几何意义设有 n个样品,每个样品测量了两个变量 x1和 x2,在由 x1和 x2确定的样品空间中, n个样品点的分布如图所示。从图可以看到,变量 x1和 x2都有较大的波动(方差较大),而且二者具有明显的相关性。如果作一坐标旋转,取 z1和 z2为新坐标轴。在新坐标系中, n个样品点的新坐标的相关性很小,几乎为 0; n个点的方差大部分归结为 z1的方差,而 z2 的方差很小,故用 z1 就可以反映变量的大部分信息; z1和 z2与 x1和 x2之间的关系为: 1 11 1 12 2 2 21 1 22 2 z l x l x z l x l x ? ???? ??将以上结果推广到 m 维的情况,设有 n 个样品,每个样品有 m 个变量,经过适当的线性组合,可以得到 m个新变量: 1 11 1 12 2 1 2 21 1 22 2 2 1 1 2 2 m m m m m m m mm m z l x l x l x z l x l x l x z l x l x l x ? ?????? ???????? ????????系数 ijl 由下列原则决定(1) iz 与jz ( , , 1, 2, , i j i j m ? ??) 互相无关; (2)z1 是原始变量 1 2 , , , m x x x ?的一切线性组合中方差最大的; z2与 z1不相关且除 z1 外在原始变量 1 2 , , , m x x x ?的一切线性组合中方差最大; ……; zm 与 1 2 1 , , , m z z z ??不相关且除 1 2 1 , , , m z z z ??外在原始变量 1 2 , , , m x x x ?的一切线性组合中方差最大。这样确定的新变量 1 2 , , , m z z z ?称为原始变量的第一,第二,……,第m主成分,其中 z1 在总的方差中占的比例最大,其余的 2 3 , , , m z z z ?的方差依次递减, 其重要性也依次减小,这样就可以取前面少数几个主成分对样本数据的主要性质进行分析。第二节主成分分析的计算步骤找主成分就是确定原始变量 1 2 , , , m x x x ?在诸主成分 1 2 , , , m z z z ?上的载荷 ijl 。从数学上可以得到证明,它们分别是 1 2 , , , m x x x ?的相关矩阵中较大特征值所对应的特征向量。根据主成分分析的基本思想和基本原理,可以把主成分分析的计算步骤归纳如下: 1 、对地理数据进行标准化处理。由于变量的量纲的数值的差别,
K主成分分析. 来自淘豆网m.daumloan.com转载请标明出处.