下载此文档

数据分析课程设计论文.doc


文档分类:论文 | 页数:约22页 举报非法文档有奖
1/22
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/22 下载此文档
文档列表 文档介绍
基于K-均值的Iris数据聚类分析姓名谢稳学号1411010122班级信科14-1成绩_________________基于K-均值的Iris数据聚类分析姓名:谢稳信息与计算科学14-1班摘要数据挖掘在当今大数据新起的时代是一项必须掌握的技能,聚类分析是数据挖掘技术中一项重要的研究课题,在很多领域都有具有广泛的应用,如模式识别、数据分析等。聚类分析的目的是将数据对象分成若干个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象之间相似度较低[5]。通过聚类分析,人们能够识别出数据分布密集和稀疏的区域,发现全局的分布模式以及数据属性之间一些意想不到的相互关系。,使用聚类分析中的K-Means对该问题进行进一步分析研究。实验证明两种方法都是适合的解决此类问题的。关键词Iris数据;聚类分析;K-,并聚类分析中的谱系聚类法和K-,得到了几乎相同的结论,数据量太少,回带误差大约是20%。(),据表可知前50个数据为牵牛一类,再50个数据为杂色一类,后50个数据为锦葵一类。将数据样本X变量放入matlab变量名X,,。-means聚类法解决例如Iris类的分类等问题。,是依据研究对象的个体的特征进行分类的方法;聚类分析把分类对象按一定规则分成若干类,这些类非事先指定的,而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中趋向于不相似;职能是建立一种能按照样品或变量的相似程度进行分类的方法。聚类准则为“亲者相聚,疏者相分”。(指标)的分类,其主要作用:不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。,其主要作用:可以综合利用多个变量的信息对样本进行分析;分类结果直观,聚类谱系图清楚地表现数值分类结果;所得结果比传统分类方法更细致、全面、合理。其常用的统计量是距离。常用的聚类方法为谱系聚类法等。。谱系聚类是根据生物分类学的思想对研究对象进行分类的方法。在生物分类学中,分类的单位是:门、纲、目、科、属、种。其中种是分类的基本单位,分类单位越小,它所包含的生物就越少,生物之间的共同特征就越多。利用这种思想,谱系聚类首先将各样品自成一类,然后把最相似(距离最近或相似系数最大)的样品聚为小类,再将已聚合的小类按各类之间的相似性(用类间距离度量)进行再聚合,随着相似性的减弱,最后将一切子类都聚为一大类,从而得到一个按相似性大小聚结起来的一个谱系图。(参考文献[1]p209页)在使用系统聚类法进行聚类的过程中,尤其是Q型聚类是建立在样品之间距离矩阵的基础上的,通常需要对原始数据进行参考点的建立和去量纲化的处理,然后求出样品距离矩阵D,我们采用比较广泛的闵可夫斯基(Minkowski)距离:当p=2时即为欧几里得CEuclidean)距离。然后进行类的搜索、合并于距离矩阵的更新涉及类间距离的计算,需要事先计算类与类之间的距离。依据类问距离不同的计算方法,我们可以把系统聚类法分为最短距离法、最长距离法、重心法、离差平方和法(ward)等。设Gp,Gq为前一轮操作中形成的某两个聚类,在本轮操作中归聚为新类Gr=GpGq则新类Gr与前一轮操作中形成吨,Gq之外的任意一类G,的距离递推公式如下:最短距离法其中lp,, -.中心距离法其中,和分别为和包含的聚类对象个数,=+.Ward法注意,Ward法要求初始距离矩阵采用欧式距离公式计算各个对象的距离。(Minkowski)距离谱系聚类法函数()(1)pdist创建聚类对象的Minkowski距离矩阵。(2)squarform拉直矩阵D。(3)linkage用D或其拉直矩阵创建信息矩阵G,默认的类间距离为最短距离法。(4)dendrogram创建G的谱系聚类图。(5)cluster创建G的指定个数类。()=1,d=,d=

数据分析课程设计论文 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数22
  • 收藏数0 收藏
  • 顶次数0
  • 上传人相惜
  • 文件大小397 KB
  • 时间2020-06-25