数学建模竞赛常见问题与方法(二)
主成份分析法
问题实际背景
在现实生活中,人们往往会对样品收集尽可能多的指标,例如人口普查往往要调查每个人的姓名、年龄、性别、文化程度、住房、职业、收入、消费等几十项指标,从收集资料的角度来看,收集较多的数据有利于完整反映样品的特征,但是这些指标从统计角度来看相互之间具有一定的依赖关系,从而使所观测的数据在反映信息上有一定重叠。
需要解决的问题
因此,人们希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
什么是主成分分析法
主成分分析也称主分量分析,是由Hotelling于1933年首先提出的。主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。
有关数学模型与常见实例
2008年美国数学建模竞赛题:“评价国家公共卫生体系上的应用”
啤酒风味评价分析实例
我国部分地区城镇居民家庭收支基本情况分析实例
主成分分析的基本思想
我们知道,当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。
主成分分析的基本理论
线性代数与概率论与数理统计方法理论的有机结合
它借助线性代数的一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量
它借助概率论与数理统计的一个方差越大,信息量越大代表性越强,来选取主成分。
培训稿spss 来自淘豆网m.daumloan.com转载请标明出处.