第七章主成分分析
第七章主成分分析第七章主成分分析主成分分析每个人都会遇到有很多变量的数据。
这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。
本章就介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。实际上主成分分析可以说是因子分析的一个特例。
主成分分析
每个人都会遇到有很多变量的数据。
这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。
本章就介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。实际上主成分分析可以说是因子分析的一个特例。
主成分分析(Principal Components Analysis ,PCA)也称为主分量分析,是一种通过降维来简化数据结构的方法,即如何把多个变量(变量)转化为少数几个综合变量(综合变量),而这几个综合变量可以反映原来多个变量的大部分信息。
什么是主成分分析
主成分分析
主成分分析就是设法将原来众多具有一定相关性的变量(如p个变量),重新组合成一组新的相互无关的综合变量来代替原来变量。怎么处理?
通常数学上的处理就是将原来p个变量作线性组合作为新的综合变量。如何选择?
如果将选取的第一个线性组合即第一个综合变量记为F1,自然希望F1尽可能多的反映原来变量的信息。怎样反映?
基本思想
最经典的方法就是用方差来表达,即var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称之为第一主成分(principal component I)。
如果第一主成分不足以代表原来p个变量的信息,再考虑选取F2即第二个线性组合。F2称为第二主成分(principal component II)。F1和F2的关系?
基本思想
为了有效地反映原来信息,F1已有的信息就不再出现在F2中,即cov(F1,F2)=0。依此类推,可以获得p个主成分。因此,这些主成分之间是互不相关的,而且方差依次递减。在实际中,挑选前几个最大主成分来表征。标准?
各主成分的累积方差贡献率>80%或85%(根据实验结果和要求可以自己调整)或特征根>1。
基本思想
第七章主成分分析 来自淘豆网m.daumloan.com转载请标明出处.