下载此文档

数据分析二主成分分析.doc


文档分类:高等教育 | 页数:约23页 举报非法文档有奖
1/23
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/23 下载此文档
文档列表 文档介绍
主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法。多元统计分析处理的是多变量(多指标)问题。由于变量个数太多,并且彼此之间存在着一定的相关性,因而使得所观测到的数据在一定程度上反映的信息有所重迭。而且当变量较多时,在高维空间中研究样本的分布规律比较复杂。人们自然希望用较少的综合变量来代替原来较多的变量;而这几个综合变量又能够尽可能多地反映原来变量的信息,而且彼此之间互不相关。利用这种降维的思想,产生了主成分分析、因子分析、典型相关分析等统计方法。本章介绍主成分分析方法。§,均值,协差阵。考虑它的线性变换:()。称为的第主成分,如果:①②当时③,,其中为的特征值,是相应的标准化特征向量。主成分,其中。①,即个主成分的方差为:,且它们是互不相关的。②常称为系统总方差,该性质说明系统总方差可分解为不相关的主成分的方差和,且存在,使。即个原变量所提供的总信息的绝大部分只须用前个主成分来代替。③主成分与原始变量的相关系数并把主成分与原始变量的相关系数称为因子负荷量。④因也可表示成的线性组合,且相互独立,由回归分析的知识,与的全相关系数的平方和等于1。⑤用主成分的目的是为了减少变量的个数,故在实际应用中一般绝不用个主成分,而选用()个主成分。取多大,这是一个很实际的问题。为此,我们引进贡献率的概念。;又称为主成分()的累计贡献率。,它等于§,在实际问题中,一般协差阵未知,需要通过样本来估计。设为来自总体的样本,样本离差阵及样本相关阵分别为用作为的估计或用作为总体相关阵的估计。样本主成分的定义设,并且每个变量的观测数据都已标准化,这时样本协差阵就是样本相关阵。且记阵的个主成分。为R的特征值,是相应的标准化特征向量。显然。将第t个样品的值代入得样品的第个主成分得分。样本主成分的性质①②称为样本主成分的贡献率;又称为样本主成分的累计贡献率。③样本主成分具有使残差平方和最小的优良性。§(主成分)过程为了考察个数值变量之间的相关性,P过程进行主成分分析。P过程:P选项1选项2…;VAR变量1变量2…;WEIGHT变量;FREQ变量;PARTIAL变量1变量2…;BY变量1变量2…;P语句外,VAR语句经常使用,其它语句是选择使用的语句。:①DATA=SAS数据集——给出被分析的SAS数据集的名字。②OUT=SAS数据集——命名一个存放原始数据以及主成分得分数据的输出数据集。③OUTSTAT=SAS数据集——命名一个存放均值、标准差观测个数、相关阵或协差阵、特征值和特征向量的输出SAS数据集。如果规定选择项COV,则数据集的类型为TYPE=COV,而且包含协差阵;否则,数据集的类型为TYPE=CORR,而且包含相关阵。④COVARIANCE——要求从协差阵出发计算主成分。如果没有规定此项选择,则从相关阵出发进行分析。⑤N=n——规定被计算的主成分个数。缺省值为变量个数。⑥NOPRINT——规定不显示输出结果。⑦PREFIX=name(名字)——对主成分的名字规定前缀。缺省时的名字为PRIN1、PRIN2、…、PRINp。⑧STANDARD——要求在OUT=数据集里主成分得分标准化为单位方差。如果没有规定此项选择,主成分得分的方差等于相应的特征值。⑨VARDEF=divisor(除数)——规定用于计算方差和协方差的除数。Divisor的可能值为N、DF、WEIGHT或WGT和WDF。。如果省略VAR语句,则SAS系统使用DATA=规定的数据集中所有数值变量进行主成分分析。,每个城市记录了6项指标:Z1:国内生产总值(亿元);Z2:固定资产投资(亿元)Z3:货运总量(万吨);Z4:社会消费品零售额(亿元);Z5:外贸出口额(亿美元);Z6:拥有电话数(万门)具体数据如下:指标城市Z1Z2Z3Z4Z5Z6BJ(北京)(天津)(沈阳)(大连).(长春)(哈尔滨)

数据分析二主成分分析 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数23
  • 收藏数0 收藏
  • 顶次数0
  • 上传人xgs758698
  • 文件大小345 KB
  • 时间2019-06-13
最近更新