下载此文档

分布式数据挖掘.ppt


文档分类:IT计算机 | 页数:约19页 举报非法文档有奖
1/19
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/19 下载此文档
文档列表 文档介绍
分布式数据挖掘
第1页,本讲稿共19页
提纲
简介
数据挖掘
分布式数据挖掘
研究现状
同构与异构
分布式数据挖掘算法
应用实例
进一步的工作
第2页,本讲稿共19页
简介-数据挖掘
什么是数据挖掘?
数据挖掘是指从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。(From U. Fayyad et al.’s definition at KDD96)
巨量的:对于少量数据的分析不需要使用数据挖掘。
有效的:所获得的模式必须是正确的。
新颖的:对于已知知识的投资收益不大。
潜在有用的:所得的模式应能提供相关的决策支持。
最终可理解的:所得的模式是提交给决策制定者的。
数据挖掘的研究领域
数据挖掘是一门涉及机器学习、统计学、数据库、可视化技术、高性能计算等诸多方面的交叉学科。
第3页,本讲稿共19页
数据挖掘
数据挖掘的应用范围
描述性规则发现(Characterization)
对比性规则发现(Discrimination)
关联规则发现(Association)
分类分析(Classification)
预测(回归)分析(Prediction)
聚类分析(Clustering)
异常分析(Outlier analysis)
……
第4页,本讲稿共19页
简介-分布式数据挖掘
产生背景
各相关学科的飞速发展,各种网络尤其是Internet的广泛使用。
实际应用要求数据挖掘系统具有更好的可扩展性。
实例
研究某种疾病在某地的发病情况与气候的关系(疾病控制数据库+环境数据库)
金融组织间通过合作防止信用卡欺诈(数据共享)
大型跨国公司营销策略的制定(销售点分散,数据仓库构造十分耗时)
分布式数据挖掘正是在这一背景下产生的,它是数据挖掘技术与分布式计算的有机结合,主要用于分布式环境下的数据模式发现。
第5页,本讲稿共19页
分布式数据挖掘
分布式数据挖掘的优点
出于对安全性、容错性、商业竞争以及法律约束等多方面因素的考虑,在许多情况下,将所有数据集中在一起进行分析往往是不可行的。分布式数据挖掘系统则可以充分利用分布式计算的能力对相关的数据进行分析与综合。
在传统的数据挖掘系统中,如果能将数据合理地划分为若干个小模块,并由数据挖掘系统并行地处理,最后再将各个局部处理结果合成最终的输出模式,则可节省大量的时间和空间开销。
面临的问题
算法方面
数据预处理,实现各种数据挖掘算法。
结合系统所处的分布式计算环境。
系统方面
能在对称多处理机(SMP)、大规模并行处理机(MPP)等具体的分布式平台上实现。
结点间负载平衡、减少同步与通讯开销、异构数据集成等 。
第6页,本讲稿共19页
分布式数据挖掘
系统分类
根据结点间数据分布情况
同构:结点间数据的属性空间相同
异构:结点间数据具有不同的属性空间
按照数据模式的生成方式
集中式:先把数据集中于中心点,再生成全局数据模式(模型精度较高,但只适合于数据量较小的情况)。
局部式:先在各结点处生成局部数据模式,然后再将局部数据模式集中到中心结点生成全局数据模式(模型精度较低,但效率较高)。
数据重分布式 :首先将所有数据在各个结点间重新分布,然后再按照与局部式系统相同的方法生成数据模式。
按系统功能、通讯与合作方式等情况划分……
第7页,本讲稿共19页
研究现状
结点的同构与异构性
元学习(Meta-learning)
CDM(Collective data mining)
分布式数据挖掘算法
分布式决策树生成
分布式关联规则发现
应用系统实例
第8页,本讲稿共19页
结点的同构与异构性-元学习
同构结点间的数据挖掘
在同构分布式数据挖掘系统中,各个结点存储的数据都具有相同的属性空间。
为了实现同构结点的数据挖掘,研究者们先后提出了元学习 (meta-learning)、合作学习(coactive learning)等方法,其中元学习方法最具代表性。
元学习的概念是由Prodromidis等人于2000年首先提出的,该方法采用集成学习 (ensemble learning) 的方式来生成最终的全局预测模型(即元分类器)。该方法的基本思想是从已经获得的知识中再进行学习,从而得到最终的数据模式。
第9页,本讲稿共19页
元学习
元学习的具体过程
图1 元学习的具体过程
第10页,本讲稿共19页

分布式数据挖掘 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数19
  • 收藏数0 收藏
  • 顶次数0
  • 上传人文库新人
  • 文件大小1.17 MB
  • 时间2022-01-11
最近更新