主成分分析
空气污染和径赛纪录问题分析
摘 要 本文运用主成分分析法,主要探讨空气污染和女子径赛纪录的数据分析问题,并说明主成分的实际意义。
针对问题一,以中 页 共 11 页
;
; 。
1
四、符号说明
符号
n
p
含义 样本个数 变量个数
样本方差〔i?1,2,?n〕 原始变量〔i?1,2?p〕
样本主成分 样本协方差 样本相关矩阵 样本平均值〔i?1,2?p〕
协方差矩阵 特征向量矩阵
矩阵的特征值〔i?1,2?p〕 矩阵的特征向量i?1,2?p
第一主成分得分
?ii
xi
yi
Cov?Xi,Xj?
R ?i
?
P
?i
ei
D
五、模型的建立及求解
由问题分析可知,主成分分析是常见的处理多变量生活问题的解决方法,其主要是构造原变量的一系列线性组合,使各线性组合在彼此不相关的前提下尽可能多地反映原变量的信息。下面将对某城市42天中午的空气污染数据和55个录数据作主成分分析。 主成分分析原理及步骤 主成分定义
假定有n个样本,每个样本共有p个变量,构成n?p阶的数据矩阵
?x11?x21?X?????x?n1x12?x1p??x22?x2p????
?xn2?xnp??当p较大时,在p维空间内考虑问题比拟麻烦。为克制这一困难,就须要进展降
维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些综合指标尽量多地反映原来指标所反映的信息,这些综合指标即为主成分。主成分定义如下:记x1,x2,…,xp为原变量指标,y1,y2,…,ym(m?p)为新变量指标
2
?y1?l1TX?l11x1?l12x2???l1pxp?T?y2?l2X?l21x1?l22x2???l2pxp ????y?lTX?lx?lx???lxm11m22mpp?mm22其中li2,系数lij确实定原那么: 1?li2???lip?1(1)yi与yj(i?j;i,j?1,2,?m)相互无关
(2)y1是x1,x2,…,xp的一切线性组合中方差最大者;y2是与y1线性无关的x1,x2,…,xp的全部线性组合中方差最大者;…;ym是与y1,y1,…,ym?1都线性无关的x1,x2,…,xp的全部线性组合中方差最大者。
那么新变量指标y1,…,…,…,xp的第1,2,y2,ym分别称为原变量指标x1,x2,
m主成分。[1]
利用协方差矩阵做主成分分析
样本数据的协方差矩阵为??(sij)p?p,其中
1nsij?(xki?xi)(xkj?xj)(i,j?1,2,?,p) (1) ?n?1k?
求出?的特征值?i,前m个较大特征值为?1??2????m?0,及相应的正交单位特征向量ei。由分析可知?m分别对应前m个主成分的方差,ei为第i个主成分yi关于原变量的系数,所以zi表示为yi?ei'X,主成分yi的方差奉献率?i为
?i??i/??k (2)
k?1p用来表示第i个主成分反映信息量的大小。
y1,y2,…,ym中m确实定是通过方差累计奉献率G(m)确定
G(m)???i/??k (3)
i?1k?1mp当累计奉献率大于85%时,就认为能足够反映原来变量的信息,对应的m为抽取的前m个主成分。
第8
主成分分析 来自淘豆网m.daumloan.com转载请标明出处.