下载此文档

数据挖掘概念与技术原书第2版第7章聚类分析析.ppt


文档分类:IT计算机 | 页数:约38页 举报非法文档有奖
1/38
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/38 下载此文档
文档列表 文档介绍
该【数据挖掘概念与技术原书第2版第7章聚类分析析 】是由【7489238】上传分享,文档一共【38】页,该文档可以免费在线阅读,需要了解更多关于【数据挖掘概念与技术原书第2版第7章聚类分析析 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。聚类分析
单击此处添加文本具体内容,简明扼要的阐述您的观点,以便观者准确的理解您传达的思想。
01
什么是聚类分析?
在同一个聚类(簇)中的对象彼此相似
不同簇中的对象则相异
聚类(簇):数据对象的集合
将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程
聚类分析
单击此处添加正文,文字是您思想的提炼,为了演示发布的良好效果,请言简意赅地阐述您的观点。您的内容已经简明扼要,字字珠玑,但信息却千丝万缕、错综复杂,需要用更多的文字来表述;但请您尽可能提炼思想的精髓,否则容易造成观者的阅读压力,适得其反。正如我们都希望改变世界,希望给别人带去光明,但更多时候我们只需要播下一颗种子,自然有微风吹拂,雨露滋养。恰如其分地表达观点,往往事半功倍。当您的内容到达这个限度时,或许已经不纯粹作用于演示,极大可能运用于阅读领域;无论是传播观点、知识分享还是汇报工作,内容的详尽固然重要,但请一定注意信息框架的清晰,这样才能使内容层次分明,页面简洁易读。如果您的内容确实非常重要又难以精简,也请使用分段处理,对内容进行简单的梳理和提炼,这样会使逻辑框架相对清晰。
聚类是一种无指导的学习:没有预定义的类编号
作为一个独立的工具来获得数据分布的情况
作为其他算法(如:特征和分类)的预处理步骤
聚类分析的数据挖掘功能
聚类分析的典型应用
模式识别
空间数据分析
在GIS系统中,对相似区域进行聚类,产生主题地图
检测空间聚类,并给出它们在空间数据挖掘中的解释
图像处理
商务应用中,帮市场分析人员发现不同的顾客群
万维网
对WEB上的文档进行分类
对WEB日志的数据进行聚类,以发现相同的用户访问模式
什么是好的聚类分析?
一个好的聚类分析方法会产生高质量的聚类
高类内相似度
低类间相似度
作为统计学的一个分支,聚类分析的研究主要是基于距离的聚类;一个高质量的聚类分析结果,将取决于所使用的聚类方法
聚类方法的所使用的相似性度量和方法的实施
方法发现隐藏模式的能力
数据挖掘对聚类分析的要求 (1)
对于高维数据,参数很难决定,聚类的质量也很难控制
用于决定输入参数的领域知识最小化
04
基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的
发现任意形状的能力
03
数字型;二元类型,分类型/标称型,序数型,比例标度型等等
处理不同数据类型的能力
02
大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率
可扩展性(Scalability)
01
对空缺值、离群点、数据噪声不敏感
处理噪声数据的能力
05
数据挖掘对聚类分析的要求 (2)


聚类要和特定的语义解释和应用相联系
可解释性和可用性


同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果
对于输入数据的顺序不敏感
找到既满足约束条件,又具有良好聚类特性的数据分组
基于约束的聚类
高维的数据往往比较稀松,而且高度倾斜
高维性
聚类分析中的数据类型
许多基于内存的聚类算法采用以下两种数据结构
数据矩阵:用p个变量来表示n个对象
也叫二模矩阵,行与列代表不同实体
相异度矩阵:存储n个对象两两之间的临近度
也叫单模矩阵,行和列代表相同的实体
相异度计算
许多聚类算法都是以相异度矩阵为基础,如果数据是用数据矩阵形式表示,则往往要将其先转化为相异度矩阵。
相异度d(i,j)的具体计算会因所使用的数据类型不同而不同,常用的数据类型包括:
区间标度变量
二元变量
标称型、序数型和比例标度型变量
混合类型的变量
区间标度变量
区间标度度量是一个粗略线性标度的连续度量,比如重量、高度等
选用的度量单位将直接影响聚类分析的结果,因此需要实现度量值的标准化,将原来的值转化为无单位的值,给定一个变量f的度量值,可使用以下方法进行标准化:
计算平均的绝对偏差
其中
计算标准化的度量值(z-score)
使用平均的绝对偏差往往比使用标准差更具有健壮性
对象间的相似度和相异度(1)
对象间的相似度和相异度是基于两个对象间的距离来计算的
Euclidean距离
i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)是两个p维数据对象
Manhattan距离

数据挖掘概念与技术原书第2版第7章聚类分析析 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数38
  • 收藏数0 收藏
  • 顶次数0
  • 上传人7489238
  • 文件大小6.82 MB
  • 时间2025-01-28