文 档 名
总体主成分
如果第一主成分 还不足以反映原变量的信息,进一步求 。
在约束条件
求使 达到最大。
第二主成分:
依次类推……
第 个主成分的贡献率为 ,前 个主成分的累计贡献率为 , 与 的相关系数为
设 的协方差矩阵为
相应的相关矩阵为
分别从 和 出发,作主成分分析。
解 如果从 出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为
的两个主成分分别为
第一主成分的贡献率为
与 , 的相关系数分别是
我们可以看到,由于 的方差很大,%的第一主成分( 在 ),淹没了变量 的作用。
如果从 出发求主成分,可求得其特征值和相应的正交单位化特征向量为
的两个主成分分别为
此时,第一个主成分的贡献率有所下降,为
注:当涉及的各变量的变化范围差异较大时,从 出发求主成分比较合理。
样本主成分
设
为取自 的一个容量为 的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为
其中
样本主成分
设 是样本协方差矩阵,其特征值为
相应的正交单位化特征向量为 ,这里
。则第 个样本主成分为
其中 为X的任一观测值。当依次代入X的n个观测值 时,便得到第i个样本主成分 的n个观测值 ,我们称为第i个主成分的得分。有
样本主成分
第 个样本主成分的贡献率定义为 ,
前 个样本主成分的累计贡献率定义为 。
样本主成分
同样,为了消除量纲的影响,我们可以对样本进行标准化,即令
则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵 。由 出发所求得的样本主成分称为标准化样本主成分。只要求出 的特征值及相应的正交单位化特征向量,类似上述结果可求得标准化样本主成分。这时标准化样本总方差为 。
样本主成分
实际应用中,将样本 代入各主成分
中,可得到各样本主成分的观测值
原变量
主成分
1
2
序号
PROC PRINCOMP
可对输入资料文件做主成分分析
输入资料文件可以是原始数据、相关系数矩阵或样本协方差矩阵等
输出包括相关矩阵或协方差矩阵、特征值、特征向量及标准化的主成分值等
PROC PRINCOMP
Proc princomp 选项串;
var 变量名称串;
partial 变量名称串;
freq 变量名称串;
weight 变量名称串;
by 变量名称串;
PROC PRINCOMP
Proc princomp options;
data=sas data set:指出要分析的sas数据集名称。这个数据集可以是原始观测值的sas数据集,也可以是相关矩阵(type=corr)或协方差矩阵(type=cov)。若省略数据集选项,则自动使用最新建立的sas数据集。
PROC PRINCOMP
Proc princomp options;
out=sas data set:命名一个输出的sas数据集,其中包含原始数据以及各主成分的得分(即各主成分的观测值)。
outstat=sas data set:命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的输出sas数据集。
PROC PR
第04章主成分分析 来自淘豆网m.daumloan.com转载请标明出处.