【精品】数据分析二主成分分析.doc:..数据分析二主成分分析主成分分析是将多个指标化为少数几个综合指标的-•种统计分析方法。多元统计分析处理的是多变量(多指标)问题。出于变量个数太多,并且彼此之间存在着一定的相关性,因而使得所观测到的数据在一定程度上反映的信息有所觅迭。而且当变量较多时,在高维空间中研究样木的分布规律比较复杂。人们自然希望用较少的综合变量来代替原来较多的变量;而这几个综合变量又能够尽可能多地反映原来变量的信息,而且彼此之间互不和关。利用这种降维的思想,产生了主成分分析、因子分析、典型相关分析等统计方法。木章介绍主成分分析方法。§(纸,…是p维随机向量,均值E(X)=U,协差阵D(X)=S。考虑它的线性变换:Z\Z2I-axX1=a^X=+a2iX2++pNdX]+a22X2++()Zp=apX=a[pX{+a2pX2+--+appXp易见(i=1,2,…,p)Cov(Z,,Zj)=」(i,j=1,2,…,p)=X,…,xj为P维随机向量。称Zj=cijX为X的第i主成分(,=1,2,・・・,〃),如果:①cig=1;(i=1,2,・・・,〃)②当i>1时勺幻=0;(j=l,2,・・・,i_l)③畑(ZJ=MaxVar(a'X)a'a=\,a'ci=0(/=!,•••j-1)2•总体主成分的性质记工=(勺),人=山昭(入,几2,,其中侯…M为工的特征值,坷卫2,…,知是相应的标准化特征向塑。主成分Z=(Z],…,Zp),其中Zj=®x(心1,2,…,p)。①D(Z)=A,即P个主成分的方差为:V〃(ZJ二&•,且它们是互不相关的。②W七人常称为工:S系统总方差,该性质说明系统总方斧可分解为不相关的主成分的方差和,且存在rn<pf使辽:]人。即p个原变量所提供的总信息的绝人部分只须用前加个主成分来代替。③主成分Zr与原始变量Xj的相关系数P(Zk,Xi卜臥川飯(1=1,2,…,p)并把主成分Zk与原始变量Xj的相关系数称为因子负荷量。④工:0⑵,X,)=1(心1,2,…,p)因X/也可表示成Z],…,Zp的线性组合,且Z],…,Zp相互独立,由回归分析的知识,Xj与Z|,…,Z。的全相关系数的平方和等于lo⑤Z』Hp2(Zk,xR("l,2,..・,p)用主成分的目的是为了减少变量的个数,故在实际应用中一般绝不用P个主成分,而选用加5<P)个主成分。加取多人,这是一个很实际的问题。为此,我们引进贡献率的概念。;乂称人/g=i人为主成分Z],…,Z加(加<p)的累计贡献率。|,…,Z加对原变量的贡献率儿•是X,与Z],…,Z加相关系数的平方,它等于§,在实际问题屮,一般协差阵工未知,需要通过样本来估计。设x(()=(兀],…,=1,•…,农)为来自总体x的样本,样本离差阵S及样本相关阵R分别为R=(©)=丄—ej=1,2,•…,p)Wjmt=-^—S作为s的估计或用R作为总体相关阵的估计。,并且每个变量的观测数据都已标准化,这时样本协差阵就是样本相关阵R。且R=」一XX71-1记R阵的P个主成分Z],•…,Zp。为R的特征值,坷卫2,…,dp是相应的标准化特征向量。显然乙=QjX0=1,2,…,p)。将第t个样品X(,)=(兀],•…,q)的值代入乙得样品的第j个主成分得分臥=1,…,p)。— . [0 当i工j®Z=Q,=I(n-1)2,当i=j②工;/=p22—2称—匕为样本主成分Zr的贡献率;又称 为样本主成分P PZ],…,(m<p)的累计贡献率。③样本主成分具有使残差平方和最小的优良性。§(主成分)过程为了考察p个数值变量X],X2,・・・,X°之间的相关性,P过程进行主成分分析。P过程:P选项1选项2 •;VAR变量1变量2•••;WEIGHT变量;FREQ变量;PARTIAL变量1变量2•••;BY变量1变虽:2…;P语句外,VAR语句经常使用,其它语句是选择使用的语句。:①DATA二SAS数据集——给出被分析的SAS数据集的名字。②OUT二SAS数据集一一命名一个存放原始数据以及主成分得分数据的输出数据集。③OUTSTAT二SAS数据集——命名一个存放均值、标准差观测个数、相关阵或协井阵、特征值和特征向量的输HlSAS数据集。如果规定选择项COV,则数据集的类型为TYPE二COV,而且包含协差阵;否则,数据集的类型为TYPE二CORR,而且包含和关阵。④COVARIANCE——耍求从
【精品】数据分析二主成分分析 来自淘豆网m.daumloan.com转载请标明出处.