主成分分析
宁波大学商学院
整理ppt
综合得分:
整理ppt
引言
变量太多会增加计算的复杂性
变量太多给分析问题和解释问题带来困难
变量提供的信息在一定程度上会有所重叠
用为数较少的互不相关的新变量来反映原变量所
整理ppt
因此 的主成分为
如果我们只取第一主成分,则贡献率为
若取前两个主成分,则累计贡献率为
整理ppt
进一步可求得前两个主成分与各原始变量的相关系数
同理,可求得
即 与 , 高度相关而与 不相关; 与 ,以概率1呈完全线性关系。
整理ppt
标准化变量的主成分
在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。若用
求主成分,则优先照顾了方差大的变量,有时会造成很不合理的结果。为了消除由于量纲的不同带来的影响,常采用变量标准化的方法,即令
其中 。
整理ppt
标准化变量的主成分
这时, 的协方差矩阵便是
的相关矩阵 ,其中
利用 的相关矩阵 作主成分分析,可以得到如下结论:
整理ppt
标准化变量的主成分
设 为标准化的随机向量,其协方差矩阵(即 的相关矩阵)为 ,则 的第 个主成分为
并且
其中 为 的特征值, 为相应于特征值 的正交单位化特征向量 。这时,第 个主成分的贡献率为 ,前 个主成分的累计贡献率为 , 与 的相关系数为
整理ppt
设 的协方差矩阵为
相应的相关矩阵为
分别从 和 出发,作主成分分析。
整理ppt
解 如果从 出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为
的两个主成分分别为
第一主成分的贡献率为
整理ppt
与 , 的相关系数分别是
我们可以看到,由于 的方差很大,%的第一主成分( 在 ),淹没了变量 的作用。
如果从 出发求主成分,可求得其特征值和相应的正交单位化特征向量为
整理ppt
的两个主成分分别为
此时,第一个主成分的贡献率有所下降,为
注:当涉及的各变量的变化范围差异较大时,从 出发求主成分比较合理。
整理ppt
样本主成分
设
为取自 的一个容量为 的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为
其中
整理ppt
样本主成分
设 是样本协方差矩阵,其特征值为
相应的正交单位化特征向量为 ,这里
。则第 个样本主成分为
其中 为X的任一观测值。当依次代入X的n个观测值 时,便得到第i个样本主成分 的n个观测值 ,我们称为第i个主成分的得分。有
整理ppt
样本主成分
第 个样本主成分的贡献率定义为 ,
前 个样本主成分的累计贡献率定义为 。
整理ppt
样本主成分
同样,为了消除量纲的影响,我们可以对样本进行标准化,即令
则标准化数据的样本协方差矩阵即为原数据的
《主成分分析》 (2) 来自淘豆网m.daumloan.com转载请标明出处.