多元统计分析主成分分析
主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。
很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。
0 90 65 45 55 65
数学
100 90 70 70 85 55 55 45
语文
对此进行主成分分析。
1. 求样本均值和样本协方差矩阵
2. 求解特征方程 =0
化简得:
解得:
所对应的单位特征向量 ,
其中
解得 (
)=
所对应的单位特征向量
,其中
解得:
4. 得到主成分的表达式
第二主成分:
第一主成分:
通过分析主成分的表达式中原变量前的系数来解释各主成分的含义。
第一主成分F1是 和 的加权和,表示该生成绩的好坏。
第二主成分F2表示学生两科成绩的均衡性
6. 比较主成分重要性
第一主成分F1的方差为
第二主成分F2的方差为
方差贡献率
方差贡献率为
主成分F1和F2的方差总和为
原变量
和
的方差总和为
总方差保持不变
身高x1(cm)
胸围x2(cm)
体重x3(kg)
例2 下表是10位学生的身高
、胸围
、体重
的数据。
对此进行主成分分析。
1. 求样本均值和样本协方差矩阵
2. 求解协方差矩阵的特征方程
和对应的单位特征向量:
4. 由此我们可以写出三个主成分的表达式:
5. 主成分的含义
F1表示学生身材大小。
F2反映学生的体形特征
三个主成分的方差贡献率分别为:
前两个主成分的累积方差贡献率为:
例3 对88个学生5 门不同课程的考试成绩进行分析,要求用合适的方法对这5 门课程成绩进行平均,以对88个学生的成绩进行评比。这5门课程是:Mechanics Vectors (闭),Algebra Analysis Statistics (开)。
经计算,得到5个主成分的表达式如下:
,,, 。前两个主成分各自的贡献率和累积贡献率为
在一般情况下,设有n个样品,每个样品观测p个指 标,将原始数据排成如下矩阵:
求样本均值
和样本协方差矩阵S;
=0, 其中I是单位矩阵
,
解得p个特征根
3. 求
所对应的单位特征向量
即需求解方程组
其中
再加上单位向量的条件
解得
4. 写出主成分的表达式
根据累积贡献率的大小取前面m 个(m<p)主成分
选取原则:
且
主成分个数的选取原则
例4 设 的协方差矩阵为
经计算, 的特征值为
相应的主成分分别为
第一主成分的方差贡献率为:
§4 R 型分析
为消除量纲影响,在计算之前先将原始数据标准化。标准化变量的 S=R,所以用标准化变量进行主成分分析相当于从原变量的相关矩阵 R 出发进行主成分分析。统计学上称这种分析法为R型分析,由协方差矩阵出发的主成分分析为S型分析。
S型分析和R型分析的结果是不同的。在一般情况下,若各变量的量纲不同,通常采用R型分析。
R型分析的概念
§5 主成分的性质
一、主成分的相关结构
主成分Fk的方差
主成分Fk的方差贡献率为
主成分与每个变量之间的相关系数
4. 主成分对每个原变量的方差贡献
证明
因子负荷量(因子载荷)
第 i 个分量为1,
其余为0
第一主成分与原变量的相关系数依次是
第一主成分与原变量的相关系
多元统计分析主成分分析 来自淘豆网m.daumloan.com转载请标明出处.