登录
|
注册
|
QQ账号登录
|
常见问题
联系我们:
我要上传
首页
浏览
幼儿/小学教育
中学教育
高等教育
研究生考试
外语学习
资格/认证考试
论文
IT计算机
经济/贸易/财会
管理/人力资源
建筑/环境
汽车/机械/制造
研究报告
办公文档
生活休闲
金融/股票/期货
法律/法学
通信/电子
医学/心理学
行业资料
文学/艺术/军事/历史
我的淘豆
我要上传
帮助中心
复制
下载此文档
数据挖掘概念与技术原书第2版第7章聚类分析析.ppt
文档分类:
IT计算机
|
页数:约38页
举报非法文档有奖
分享到:
1
/
38
下载此文档
搜索
下载此文档
关闭预览
下载提示
1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档,不会出现我们的网址水印。
同意并开始全文预览
(约 1-6 秒)
下载文档到电脑,查找使用更方便
下 载
还剩?页未读,
继续阅读
分享到:
1
/
38
下载此文档
文档列表
文档介绍
数据挖掘概念与技术原书第2版第7章聚类分析析.ppt
该【数据挖掘概念与技术原书第2版第7章聚类分析析 】是由【7489238】上传分享,文档一共【38】页,该文档可以免费在线阅读,需要了解更多关于【数据挖掘概念与技术原书第2版第7章聚类分析析 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。聚类分析
单击此处添加文本具体内容,简明扼要的阐述您的观点,以便观者准确的理解您传达的思想。
01
什么是聚类分析?
在同一个聚类(簇)中的对象彼此相似
不同簇中的对象则相异
聚类(簇):数据对象的集合
将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程
聚类分析
单击此处添加正文,文字是您思想的提炼,为了演示发布的良好效果,请言简意赅地阐述您的观点。您的内容已经简明扼要,字字珠玑,但信息却千丝万缕、错综复杂,需要用更多的文字来表述;但请您尽可能提炼思想的精髓,否则容易造成观者的阅读压力,适得其反。正如我们都希望改变世界,希望给别人带去光明,但更多时候我们只需要播下一颗种子,自然有微风吹拂,雨露滋养。恰如其分地表达观点,往往事半功倍。当您的内容到达这个限度时,或许已经不纯粹作用于演示,极大可能运用于阅读领域;无论是传播观点、知识分享还是汇报工作,内容的详尽固然重要,但请一定注意信息框架的清晰,这样才能使内容层次分明,页面简洁易读。如果您的内容确实非常重要又难以精简,也请使用分段处理,对内容进行简单的梳理和提炼,这样会使逻辑框架相对清晰。
聚类是一种无指导的学习:没有预定义的类编号
作为一个独立的工具来获得数据分布的情况
作为其他算法(如:特征和分类)的预处理步骤
聚类分析的数据挖掘功能
聚类分析的典型应用
模式识别
空间数据分析
在GIS系统中,对相似区域进行聚类,产生主题地图
检测空间聚类,并给出它们在空间数据挖掘中的解释
图像处理
商务应用中,帮市场分析人员发现不同的顾客群
万维网
对WEB上的文档进行分类
对WEB日志的数据进行聚类,以发现相同的用户访问模式
什么是好的聚类分析?
一个好的聚类分析方法会产生高质量的聚类
高类内相似度
低类间相似度
作为统计学的一个分支,聚类分析的研究主要是基于距离的聚类;一个高质量的聚类分析结果,将取决于所使用的聚类方法
聚类方法的所使用的相似性度量和方法的实施
方法发现隐藏模式的能力
数据挖掘对聚类分析的要求 (1)
对于高维数据,参数很难决定,聚类的质量也很难控制
用于决定输入参数的领域知识最小化
04
基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的
发现任意形状的能力
03
数字型;二元类型,分类型/标称型,序数型,比例标度型等等
处理不同数据类型的能力
02
大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率
可扩展性(Scalability)
01
对空缺值、离群点、数据噪声不敏感
处理噪声数据的能力
05
数据挖掘对聚类分析的要求 (2)
壹
叁
聚类要和特定的语义解释和应用相联系
可解释性和可用性
肆
贰
同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果
对于输入数据的顺序不敏感
找到既满足约束条件,又具有良好聚类特性的数据分组
基于约束的聚类
高维的数据往往比较稀松,而且高度倾斜
高维性
聚类分析中的数据类型
许多基于内存的聚类算法采用以下两种数据结构
数据矩阵:用p个变量来表示n个对象
也叫二模矩阵,行与列代表不同实体
相异度矩阵:存储n个对象两两之间的临近度
也叫单模矩阵,行和列代表相同的实体
相异度计算
许多聚类算法都是以相异度矩阵为基础,如果数据是用数据矩阵形式表示,则往往要将其先转化为相异度矩阵。
相异度d(i,j)的具体计算会因所使用的数据类型不同而不同,常用的数据类型包括:
区间标度变量
二元变量
标称型、序数型和比例标度型变量
混合类型的变量
区间标度变量
区间标度度量是一个粗略线性标度的连续度量,比如重量、高度等
选用的度量单位将直接影响聚类分析的结果,因此需要实现度量值的标准化,将原来的值转化为无单位的值,给定一个变量f的度量值,可使用以下方法进行标准化:
计算平均的绝对偏差
其中
计算标准化的度量值(z-score)
使用平均的绝对偏差往往比使用标准差更具有健壮性
对象间的相似度和相异度(1)
对象间的相似度和相异度是基于两个对象间的距离来计算的
Euclidean距离
i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)是两个p维数据对象
Manhattan距离
数据挖掘概念与技术原书第2版第7章聚类分析析 来自淘豆网m.daumloan.com转载请标明出处.
猜你喜欢
2025年注册土木工程师考试题库【有一套】
164页
2025年注册土木工程师考试题库及参考答案【预..
165页
2025年注册土木工程师考试题库及参考答案【精..
165页
2025年注册土木工程师考试题库及完整答案(夺..
164页
2025年注册土木工程师考试题库含答案(黄金题..
165页
2025年注册土木工程师考试题库含完整答案(典..
165页
2025年注册土木工程师考试题库含答案(培优a卷..
165页
2025年注册土木工程师考试题库精选答案
165页
2025年注册土木工程师考试题库附参考答案【轻..
165页
2025年注册土木工程师考试题库附参考答案【名..
165页
2025年注册土木工程师考试题库附参考答案(培..
164页
2025年注册土木工程师考试题库(原创题)
166页
2025年注册土木工程师考试题库附完整答案(网..
167页
2025年注册土木工程师考试题库(精华版)
165页
2025年监理工程师之交通工程目标控制考试题库..
170页
相关文档
更多>>
非法内容举报中心
文档信息
页数
:
38
收藏数
:
0
收藏
顶次数
:
0
顶
上传人
:
7489238
文件大小
:
6.82 MB
时间
:
2025-01-28
相关标签
数据挖掘与数据分析
数据挖掘案例分析
数据挖掘技术论文
聚类分析
stata聚类分析
spss聚类分析
arcgis聚类分析
大数据与大数据分析
数据分析
数据图表与分析
计算机原理
PHP资料
linux/Unix相关
C/C++资料
Java
.NET
windows相关
开发文档
管理信息系统
软件工程
网络信息安全
网络与通信
图形图像
行业软件
人工智能
计算机辅助设计
多媒体
软件测试
计算机硬件与维护
网站策划/UE
网页设计/UI
网吧管理
电子支付
搜索引擎优化
服务器
电子商务
Visual Basic
数据库
Web服务
网络资源
Delphi/Perl
Python
CSS/Script
Flash/Flex
手机开发
UML理论/建模
并行计算/云计算
嵌入式开发
计算机应用/办公自动化
数据结构与算法
SEO
最近更新
关于农村留守儿童现状分析及对策研究——以..
六西格玛实施的关键成功因素研究——以某电..
电场强度(刘玉兵)
儿童家庭权利的法律保护
俄语母语者对以英语和汉语为母语者的赞美回..
例析条件型离子方程式的书写方法
低能量激光照射对牙周炎的治疗效应研究
生儿复苏技术
伊潘立酮原料药合成新工艺研究
任务驱动教学法在高职院校课堂教学的应用研..
以β-乳球蛋白为靶基因的锌指核酸酶构建与筛..
人类肽链释放因子eRF3与生存素survivin的相..
亚洲璃眼蜱两个含Kunitz功能域的丝氨酸蛋白..
乳腺癌辅助化疗前后FoxP3+的表达差异及其与..
乌司他丁对老年骨折患者术后认知功能的影响..
中小学教师情感劳动的研究
中学教学中赏识教育的理论及应用探究
中国移动终端公司张家口营销中心营销策略研..
中国对外直接投资与对外贸易的相互影响研究..
中国企业海外并购问题研究——以秘鲁铁矿兼..
猫的性格实在怪贪玩淘气还很乖屏息凝视多尽..
特殊物品仓储管理
物理2-2功动能动能定理
牛津英语一年级第二学期M1U3Period
爱眼护眼课件-保护视力-预防近视 1
餐厅员工年终总结报告
烧烤肉串食品批发价格
地下管线挖断事故应急预案
充换电基础设施建设的实施意见方案
乳胶漆供货服务方案2
在线
客服
微信
客服
意见
反馈
手机
查看
返回
顶部