word
word
1 / 27
word
SAS主成分分析
分类: 数据之美 2013-07-28 20:18 2343人阅读 评论(0) 收藏举报
目录(?)[-]
主成分分析流程
SAS主成分分析示例
。
word
word
6 / 27
word
程序运行后,输出界面显示如图2。
图2
word
word
7 / 27
word
、p2、p3和p4,分别代表第1至第4主成分,它们对原始变量的解释力度依次减少。
图3
:
word
word
8 / 27
word
图4
现在,我先假设你是个急性子,你可能会对我说:“不必告诉我这些输出结果的含义,我给了你四个变量,你只要返回给我较少的可用的字段就可以了。〞那么我会回答你,新的变量p1和p2就可以替代原来的四个变量var1、var2、var3和var4,%的信息,能够满足要求。
何以见得?请看图2的第4局部输出Eigenvalues of the Correlation Matrix,第四列Cumulative显示,〔%〕,第1、%>85%,因此新变量p1和p2已经足以替代原有四个变量,它们是源数据集的主成分。
word
word
9 / 27
word
没错,在SAS上进展主成分分析,就是这么简单,结果的使用也不复杂,大多数情况下到此也就足够了。不过出于对科学本质的好奇,我们还是要详细研究下每项输出结果的含义,以便更好地理解主成分分析。
SAS主成分分析输出结果详解
作为细节强迫症重度患者,图2~图4只要有个点没搞清楚都觉得寝食难安。
我们先来看图2。
第1局部很简单,指出观测数为22,变量数为4,也就是我们在var语句中指定4个原始变量。
第2局部Simple Statistics是对原始变量的简单描述性统计,Mean是均值,StD是标准偏差〔注意标准偏差与标准差的区别〕。
Mean的计算公式我们都很熟悉,就是
〔1〕
标准偏差StD的计算公式是:
word
word
11 / 27
word
〔2〕
第3局部Correlation Matrix是原始变量的相关系数矩阵,其中的元素代表4个原始变量两两之间的相关系数。
相关系数的计算公式是:
〔3〕
从原始变量的相关系数矩阵可以看出,变量var1和var2、var1和var4呈现出较为显著的负相关,变量var2和var4如此是强烈的正相关,。
第4局部Eigenvalues of the Correlation Matrix输出了相关系数矩阵的特征值。Eigenvalue一列从大到小依次展示了4个特征值,特征值越大,表示对应的主成分变量包含的信息越多,对原始变量的解释力度越强。Difference是相邻两个特征值的差, = - 。Proportion表示主成分的贡献率,也就是, = / (+++)。Cumulative如此是累计贡献率, = + 。我们在判断应提取多少个主成分时,根据的就是累计贡献率。%的信息,能够满足应用需求。这时我们可以作出决策:提取两个主成分p1和p2代替4个原始变量。而如果我们希望主成分变量对原始变量的解释力度应达到95%以上,那么就需要参加p3,共提取3个主成分,%。而提取全部4个主成分变量,如此没有达到降维的目的,意义已经不大。至于这个累计贡献率要达到多少才算满足需求,需要视具体业务需求而定,我们的参考值是85%。
word
word
11 / 27
word
第5局部Eigenvectors是特征值对应的特征向量。图5一秒钟告诉你特征值和特征向量如何对应。图中的第1个特征值V=(-, , , )。同理可知第2个特征值
SAS主成分分析报告 来自淘豆网m.daumloan.com转载请标明出处.