下载此文档

24 主成分分析.ppt


文档分类:高等教育 | 页数:约24页 举报非法文档有奖
1/24
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/24 下载此文档
文档列表 文档介绍
判别分析
主成分分析
聚类分析
多元统计分析
因子分析
国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素。《中国统计年鉴》把第三次产业划分为12个组成部分,分别为:
在实际中,人们都希望获得尽可能多的关于被研究对象的信息

实际背景
x1:农林牧渔服务业 x2:地质勘查水利管理业
x3:交通运输仓储和邮电通讯业
x4:批发零售贸易和餐食业
x5:金融保险业 x6:房地产业
x7:社会服务业 x8:卫生体育和社会福利业
x9:教育文艺和广播 x10:科学研究和综合艺术
x11:党政机关 x12:其他行业
数据略
以旅游外汇收入(百万美圆)为因变量,上述指标为自变量(亿元人民币)建立多元线性回归模型
常数项
系数
-

-

标准误差
t Stat
P-value
X Variable 1
-

-

X Variable 2




X Variable 3




X Variable 4
-

-

X Variable 5
-

-

X Variable 6




X Variable 7




X Variable 8
-

-

X Variable 9




X Variable 10




X Variable 11
-

-

X Variable 12




问题
表面:变量太多
实质:共线性、
混杂…
在实际问题中,经常会遇到需要处理多个指标的情形
从数学上看,每一个指标都可以看成一个随机变量,这样就涉及到多维随机变量的处理问题。
假设被考虑的实际问题有p个指标,这p个指标看成p个随机变量:X1, X2, …, Xp。
当p比较大的时候,会增加分析问题和解决问题的难度,以及复杂性。而且在实际问题中,这些变量之间通常存在相关性。
问题
用尽可能少的新变量代替原来较多的旧变量,而且使这
些较少的新变量尽可能多地保留原来变量所反映的信息
设X1, X2, …, Xp 是p个被考察的随机变量,现考虑用m ( m << p )个新的随机变量Y1, Y2, …, Ym 来代替原来的p个随机变量。
Yi是X1, X2, …, Xp的线性组合;
要求
主成分分析的数学模型
Y1, Y2, …, Ym是不相关的;
Y1, Y2, …, Ym能尽可能多地反映X1, X2, …,Xp所包含的信息。
由上面的要求,得到
如何确定组合系数lij ( i = 1, 2, …, m, j = 1, 2, …, p,以及新变量的个数m。
问题
Y1, Y2, …, Ym是不相关的;
Y1, Y2, …, Ym能尽可能多地反映X1, X2, …,Xp所包含的信息。
“信息”如何描述?
越不确定,“信息”越多
随机变量的方差越大,说明
随机变量的取值越分散
?
随机变量的取值越分散,所以越难预测该随机变量的取值,其蕴含的信息就越多。
信息多=方差大
Y1, Y2, …, Ym能尽可能多地反映X1, X2, …,Xp所包含的信息。
即随机变量Y1, Y2, …, Ym的方差应尽可能多大
其中l1= ( l11, l12 , …, l1p )T
X = (X1, X2, …,Xp)T

若取l1=( l, 0, …, 0 ),则 D(Y1) = l2 D(X1)
应选取l1使得其最大。
l越大越好??
l1应为单位向量。
其中l1= ( l11, l12 , …, l1p )T 是单位向量,且应使得
Y1
的选取
记随机向量X= ( X1, X2 , …

24 主成分分析 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数24
  • 收藏数0 收藏
  • 顶次数0
  • 上传人bjy0415
  • 文件大小0 KB
  • 时间2015-09-19
最近更新