下载此文档

基于划分方法的聚类分析.doc


文档分类:建筑/环境 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
南京信息工程大学滨江学院 实验(实习)报告实验(实习)名称 基于划分方法的聚类分析实验(实习)日期  指导教师 闫雷鸣   专业软工(动画)年级2008班次 (1)班 姓名王圆媛 学号20082358002得分     一、实验目的(1)学习聚类分析的基本概念、各种数据类型、聚类方法的分类。(2)学会典型的划分方法K均值和K中心点算法的基本原理、特点、优缺点。(3)应用Weka软件,学会导入数据文件,并对数据文件进行预处理。(4)学会并应用划分方法中K均值和K中心点算法对数据集进行聚类分析。二、实验准备:Bank-data三、实验要求:用划分方法中K均值和K中心点算法对数据集进行聚类分析四、实验内容:  相关知识聚类分析中的“类”(cluster)和前面分类的“类”(class)是不同的,对cluster更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇,使得同一个簇的实例聚集在一个簇中心的周围,它们之间距离的比较近;而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说,这个距离通常指欧氏距离。聚类分析中使用最常见的K均值(K-means)算法。K均值聚类方法的步骤如下。(1)K均值算法首先随机的指定K个簇中心。(2)将每个实例分配到距它最近的簇中心,得到K个簇;(3)计分别计算各簇中所有实例的均值,把它们作为各簇新的簇中心。重复(2)和(3),直到K个簇中心的位置都固定,簇的分配也固定。上述K均值算法只能处理数值型的属性,遇到分类型的属性时要把它变为若干个取值0和1的属性。WEKA将自动实施这个分类型到数值型的变换,而且Weka会自动对数值型的数据作标准化。Weka中列出了很多聚类算法。对于EM实现,用户可指定需要产生多少聚类,否则所用的算法可通过交叉验证来决定,在这种情况下,折的数量固定为10(除非训练实例小于10个)。用户可指定循环次数的最大值,并且为正常的密度计算设定可允许的最小标准差。SimpleKMeans使用k均值来聚类数据;聚类的数量通过一个参数设定。Cobweb实现了用于名词属性的Cobweb算法和用于数值性属性的Classit算法。FarthestFirst实现Hochbaum和Shmoys远端优先遍历算法。MakeDensityBaseCluster是一个元聚类器,它包装一个聚类算法,使其返回一个概率分布和密度。它为每个聚类拟合一个离散分布,或一个对称的正态分布。  实验操作(1)在开始程序(或者桌面图标),单击即可启动WEKA,启动WEKA时会发现首先出现的一个命令提示符。接着将出现如下WekaGUIChooser界面。(2)选择GUIChooser中的探索者(Explorer)用户界面。点击预处理(Preprocess)功能按钮的,Openfile,选择其中的“bank-data”数据作关联规则的分析。打开“bank-”,可以看到“Currentrelation”、“Attributes”“Selectedattribute”三个区域。(3)对于原始数据“bank-”的预处,删去属性“id”,保存为ARFF格式后,修改属性“children”为分类型。这样得到的数据文件为“”,含600条实例。(4)

基于划分方法的聚类分析 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人dongmengguoji
  • 文件大小201 KB
  • 时间2019-11-11