-
. z.
主成分分析、聚类
分析的比拟与应用
主成分分析、聚类
分析的比拟与应用
摘要:主成分分析、聚类分析是两种比拟有价值的多元统计方法,但同时也是在使用过体地说,就是要找出*个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。因子分析只能解释局部变异,主成分分析能解释所有变异。
聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的*一个,使得每一个向量与其聚类中心的距离最小。聚类可以理解为: 类的相关性尽量大,类间相关性尽量小。聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得*种在的数据规律。
从三类分析的根本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量。
三、数据标准化的比拟
主成分分析中为了消除量纲和数量级,通常需要将原始数据进展标准化,将其转化为均值为0方差为1 的无量纲数据。
而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,
并且因子变量是每一个变量的部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化。
不过在实际应用的过程中,为了尽量防止量纲或数量级的影响,建议在使用因子分析前还是要进展数据标准化。在构造因子变量时采用的是主成分分析方法,
主要将指标值先进展标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进展评价。
聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进展之前必须对变量值进展标准化,即消除量纲的影响。
-
. z.
不同方法进展标准化,会导致不同的聚类结果要注意变量的分布。如果是正态分布应该采用z 分数法。
四、应用中的优缺点比拟
(一) 主成分分析
1、优点
首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大局部信息。其次它通过计算综合主成分函数得分,对客观经济现象进展科学评价。再次它在应用上侧重于信息奉献影响力综合评价。
2、缺点
当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。
(二) 聚类分析
1、优点
聚类分析模型的优点就是直观,结论形式简明。
2、缺点
在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间在联系的指标,
而实践中有时尽管从被试反映所得出的数据中发现他们之间有严密的关系,但事物之间却无任何在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。
五.案例分析:
下表是关于全国31个省市的8项经济指标,以此为例,进展主成分分析。
省份
国生产
居民消费
固定资产
职工工资
货物周转
消费价格
商品零售
工业产值
2505
8144
**
2720
6501
1258
4839
1250
4721
蒙
1387
4134
-
. z.
2397
4911
114
1872
4430
2334
4145
5343
9279
113
1926
1434
主成分分析、聚类分析比较 来自淘豆网m.daumloan.com转载请标明出处.