华东理工大学 East China University of Science And Technology 主成分分析简介 ponent Analysis ( PCA ) 什么是主成分分析? 我们来看一个例子:小学各科成绩的评估可以用下面的综合成绩来体现: a1×語文+ a2×数学+ a3×自然+ a4×社会科学确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成绩总和就相对于新的综合变量——主成分什么是主成分分析? 推而广之, 当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合起来处理,这就是 PCA 。这样综合处理的原则是使新的综合变量能够解释大部分原始数据方差。什么是主成分分析? 由于各种量测到数据通常是以矩阵的形式记录、表达和存储的,实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看,就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。主成分分析( ponent Analysis, 简称 PCA) 是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。为什么要根据方差确定主成分? 情形 II下总分的方差为 0,显然不能反映三个学生各科成绩各有所长的实际情形,而红色标记的变量对应的方差最大,可反映原始数据的大部分信息对主成分的要求上例可见,用总分有时可以反映原分数表的情况,保留原有信息,有时则把信息丢尽,不能反映原理的情况和差异。根据总分所对应的方差可以确定其代表了多大比例的原始数据(分数)信息。一般来说,我们希望能用一个或少数几个综合指标(分数)来代替原来分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具有最大的方差。主成分分析的目的压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量, 也就是所谓的主成分。这样就可以消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题。主成分得分(潜变量- latent variable ) PC(1) = a11X1 + a12X2 + …+ a1pXp PC(2) = a21X1 + a22X2 + …+ a2pXp . . .PC(m) = am1X1 + am2X2 + …+ ampXp 选择加权系数 a11 …,a1p 时要能使 PC(1) 得到最大解释方差的能力,而PC(2) 则是能对原始数据中尚未被PC(1) 解释的差异部分拥有有最大解释能力,若以此类推,我们可以找出 m个PC出來(m≦p) 主成分轴、载荷向量原始数据前的加权系数决定了新的综合变量主成分(得分)的大小和性质,通常称为主成分轴或者载荷向量(载荷轴、载荷系数)。主成分分析的关键就是确定这些系数, 这些系数构成了新的坐标系,将原始变量在新的坐标系下投影就可求得新坐标系下的变量值(主成分得分) 。三变量主成分分析示意图 PC1=a 1x i1 +a 2x i2 +a 3x i3 PC2= b 1x i1 +b 2x i2 +b 3x i3
主成分分析简介 来自淘豆网m.daumloan.com转载请标明出处.