下载此文档

主成分分析和聚类分析的比较.docx


文档分类:高等教育 | 页数:约11页 举报非法文档有奖
1/11
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/11 下载此文档
文档列表 文档介绍
主成分分析和聚类分析的比较
摘要:主成分分析和聚类分析方多元统计中两种重要的分析方法,但却容易在使用中混淆。本文从基本思想,应用的优缺点、应用实例中讨论两者的异同,并简述两种方法在实际问题中的应用。
关键词:主成分分析;聚类分析
一、引言
主成分分析是利用降维的思想,在缺失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集的样本应该性质相似,而属于不同组的样本应该足够不相似。
两种方法既有区别又有联系,本文将两者的异同进行比较,并举例说明两者在实际应用中的联系,以便更好地理解这两种统计方法而为实际所应用。
二、基本思想的异同
相同点:主成分分析方法是用少数的几个变量来综合反映原始变量的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85%以上,因此其可信度很高。通过主成分分析,可以将事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,解释变量之间的内在关系。因此主成分变量比原始变量少了很多,从而起到了降维的作用。
聚类分析的基本思想是采用多变量的统计值,定量的确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用。按它们亲疏差异程度,归类不同的分类中的一元。使分类更具有客观实际并能反映事物的内在必然联系。聚类分析是通过一种大的对称矩阵来探索相关关系的一种数学分析方法。对变量分类后,我们
对数据的处理难度也降低,所以从某种意义上说,聚类分析也起到了降维的作用。
不同点:主成分分析是研究如何通过原来变量的少数几个变量组合来解释原来变量绝大多数信息的一种多元统计方法。主成分分析就是设法将原来众多具有相关性的指标,从新组合成一组相互无关的指标来代替原来的指标。我们将选取的一组线性组合标为F1,若F1方差越大,则代表所包含的信息越多。则称其为第一主成分,再选一组线性组合其方差次大,记为F2,,称其为第二主成分,且规定F1与F2线性无关。是指第一主成分与第二主成分所包含信息不重合。且所包含的信息大小逐渐递减。我们在实际研究中只需要选取前几个成分即可。
在聚类分析过程中,如果选取的聚类量纲不同会导致错误的结果。因此在聚类过程之前必须对变量进行标准化。不同的方法进行标准化,会导致不同的聚类结果。
三、应用的优缺点
1、主成分分析
优点:它用降维技术将少数几个综合变量来代替原始多个变量。这些综合变量集中了原始变量大多数信息。当评级指标较多时还可以在保留绝大部分信息的情况下用少数几个综合指标代替原指标进行分析,主成分分析中各主成分是按照方差的大小来排列顺序的,在分析问题时,只取前后方差大的几个主成分来代表原变量,从而减少了计算工作量,由于选择的原则是累计贡献率≥85%,所以不会因为减少作量却把关键指标遗漏而影响评估结果。在综合评价函数中,各主成分的权数为其贡献率,它反映了该主成分包含原始数据的信息量占全部信息量的比重,这样确定权数是客观的、合理的,它克服了某些评价方法中认为确定权数的缺陷。这种方法的计算比较规范,便于在计算机上实现,还可以利用专门的软件。
缺点:在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。主成分的解释其含义一般多少带有点模糊性。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确,命名清晰性低。
2、聚类分析 
优点:聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小类合并。每类的变量相似但类与类之间的差异性很大,这样能清晰描述数据。 聚类分析运用范围极广,涉及很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 聚类分析方便快捷,是管理统计很好的方法。
缺点:聚类分析是以完备的数据文件为基础的,一般要求各个观测变量的量纲一致,即各变量取值的数量级一致,否则各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。要检查各变量的量纲是否一致,不

主成分分析和聚类分析的比较 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数11
  • 收藏数0 收藏
  • 顶次数0
  • 上传人小枷
  • 文件大小743 KB
  • 时间2018-09-30