判别分析
主成分分析
聚类分析
多元统计分析
因子分析
国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素。《中国统计年鉴》把第三次产业划分为12个组成部分,分别为:
在实际中,人们都希望获得尽可能多的关于被研究对象的信息
例
实际背景
x1:农林牧渔服务业 x2:地质勘查水利管理业
x3:交通运输仓储和邮电通讯业
x4:批发零售贸易和餐食业
x5:金融保险业 x6:房地产业
x7:社会服务业 x8:卫生体育和社会福利业
x9:教育文艺和广播 x10:科学研究和综合艺术
x11:党政机关 x12:其他行业
数据略
以旅游外汇收入(百万美圆)为因变量,上述指标为自变量(亿元人民币)建立多元线性回归模型
常数项
系数
-
-
标准误差
t Stat
P-value
X Variable 1
-
-
X Variable 2
X Variable 3
X Variable 4
-
-
X Variable 5
-
-
X Variable 6
X Variable 7
X Variable 8
-
-
X Variable 9
X Variable 10
X Variable 11
-
-
X Variable 12
问题
表面:变量太多
实质:共线性、
混杂…
在实际问题中,经常会遇到需要处理多个指标的情形
从数学上看,每一个指标都可以看成一个随机变量,这样就涉及到多维随机变量的处理问题。
假设被考虑的实际问题有p个指标,这p个指标看成p个随机变量:X1, X2, …, Xp。
当p比较大的时候,会增加分析问题和解决问题的难度,以及复杂性。而且在实际问题中,这些变量之间通常存在相关性。
问题
用尽可能少的新变量代替原来较多的旧变量,而且使这
些较少的新变量尽可能多地保留原来变量所反映的信息
设X1, X2, …, Xp 是p个被考察的随机变量,现考虑用m ( m << p )个新的随机变量Y1, Y2, …, Ym 来代替原来的p个随机变量。
Yi是X1, X2, …, Xp的线性组合;
要求
主成分分析的数学模型
Y1, Y2, …, Ym是不相关的;
Y1, Y2, …, Ym能尽可能多地反映X1, X2, …,Xp所包含的信息。
由上面的要求,得到
如何确定组合系数lij ( i = 1, 2, …, m, j = 1, 2, …, p,以及新变量的个数m。
问题
Y1, Y2, …, Ym是不相关的;
Y1, Y2, …, Ym能尽可能多地反映X1, X2, …,Xp所包含的信息。
“信息”如何描述?
越不确定,“信息”越多
随机变量的方差越大,说明
随机变量的取值越分散
?
随机变量的取值越分散,所以越难预测该随机变量的取值,其蕴含的信息就越多。
信息多=方差大
Y1, Y2, …, Ym能尽可能多地反映X1, X2, …,Xp所包含的信息。
即随机变量Y1, Y2, …, Ym的方差应尽可能多大
其中l1= ( l11, l12 , …, l1p )T
X = (X1, X2, …,Xp)T
注
若取l1=( l, 0, …, 0 ),则 D(Y1) = l2 D(X1)
应选取l1使得其最大。
l越大越好??
l1应为单位向量。
其中l1= ( l11, l12 , …, l1p )T 是单位向量,且应使得
Y1
的选取
记随机向量X= ( X1, X2 , …
24 主成分分析 来自淘豆网m.daumloan.com转载请标明出处.