下载此文档

聚类分析和主成分分析.pptx


文档分类:高等教育 | 页数:约87页 举报非法文档有奖
1/87
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/87 下载此文档
文档列表 文档介绍
“物以类聚,人以群分”,现实世界中存在大量的分类问题。一、什么是聚类分析?聚类分析(ClusterAnalysis)是物以类聚的一种统计分析法。用于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。一、什么是聚类分析?聚类是一个将数据集划分为若干组或类的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。相似或不相似的描述是基于数据描述属性的取值来确定的。通常就是利用(各对象间)距离来进行表示的。许多领域,包括食品感官与品质分析,物种分类,风味物质研究等等二、聚类分析的典型应用在商业方面,聚类分析可以帮助市场人员发现顾客群中所存在的不同特征的组群;并可以利用购买模式来描述这些不同特征的顾客组群。在生物方面,聚类分析可以用来获取动物或植物所存在的层次结构,以及根据基因功能对其进行分类以获得对人群中所固有的结构更深入的了解。聚类还可以从地球观测数据库中帮助识别具有相似的土地使用情况的区域。此外还可以帮助分类识别互联网上的文档以便进行信息发现。二、聚类分析的典型应用作为数据挖掘的一项功能,聚类分析还可以作为一个单独使用的工具,来帮助分析数据的分布、了解各数据类的特征、确定所感兴趣的数据类以便作进一步分析。聚类分析也可以作为其它算法(诸如:分类和定性归纳算法)的预处理步骤。二、聚类分析的典型应用数据聚类分析是一个正在蓬勃发展的领域。聚类分析所涉及的领域包括:数据挖掘、统计学、机器学习、空间数据库技术、生物学和市场学等。由于各应用数据库所包含的数据量越来越大,聚类分析已成为数据挖掘研究中一个非常活跃的研究课题。作为统计学的一个分支,聚类分析已有多年的研究历史,这些研究主要集中在基于距离的聚类分析方面。许多统计软件包,诸如:SAS、SPSS和S-PLUS等都包含它许多聚类分析工具。二、聚类分析的典型应用三、聚类分析应用解析例对10位应聘者做智能检验。3项指标X,Y和Z分别表示:X--数学推理能力,Y--空间想象能力和Z--语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。应聘者**********X28181121262016142422Y29232223292322232927Z28181622262222242424我们直观地来看,这个分类是否合理?计算4号和6号得分的离差平方和:(21-20)2+(23-23)2+(22-22)2=1计算1号和2号得分的离差平方和:(28-18)2+(29-23)2+(28-18)2=236计算1号和3号得分的离差平方和为482,由此可见一般,4号和6号类型接近。我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?三、聚类分析应用解析四、变量测量尺度的类型间隔尺度。指标度量时用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是离散数量,测量得到的数量是连续数量。在间隔尺度中如果存在绝对零点,又称比例尺度。顺序尺度。指标度量时没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量表示。名义尺度。指标度量时既没有数量表示也没有次序关系,只有一些特性状态,如眼睛的颜色,化学中催化剂的种类等。在名义尺度中只取两种特性状态的变量是很重要的,如电路的开和关,天气的有雨和无雨,人口性别的男和女,医疗诊断中的“十”和“一”,市场交易中的买和卖等都是此类变量。

聚类分析和主成分分析 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数87
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wz_198613
  • 文件大小5.18 MB
  • 时间2019-08-24