下载此文档

基于近邻传播的分布式数据流聚类算法.pdf


文档分类:IT计算机 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
万方数据
基于近邻传播的分布式数据流聚类算法张建朋瘀,陈福才潞桕,侯颖吣疽以搬渤珏枘腁玉£鏽棚引言“.—...曲舶计算机应用,,文章编号:—..摘要:针对分布式数据流聚类算法存在的聚类质量不高、通信代价大的问题,提出了密度和代表点聚类思想相结合的分布式数据流聚类算法。该算法的局部站点采用近邻传播聚类,引入了类簇代表点的概念来描述局部分布的概要信息,全局站点采用基于改进的密度聚类算法合并局部站点上传的概要数据结构进而获得全局模型。仿真实验结果表明,所提算法能明显提高分布式环境下数据流的聚类质量,同时算法使用类簇代表点能够发现不同形状的聚簇并显著降低数据传输量。关键词:数据挖掘;分布式聚类;数据流;近邻传播;基于密度聚类中图分类号:远评怼⒒餮文献标志码:”,.吼舭£如舾Ω緁鼬洫晒曙把觙耙“&眦,劢铲Ⅱ斗辤舾;呷蹴随着传感器网络、通信技术以及分布式计算的发展,在痉梦柿髁糠治觥⒒チM髁考嗖狻⒋ǜ衅魍缰械娜侵监测等应用中,大量的数据都是以流的形式产生的,这些数据流的特点是海量的、时序的、快速变化的和潜在无限的。K孀帕髁康娜找嬖龃螅荽斫峁钩氏殖鲆恢址布式特征,面向分布式数据流的聚类近年来一直是研究的热点“。。聚类数量巨大而且分布在不同站点的数据流,需解决关键通信链路负载过重、中央站点存储和计算时间有限的问题。文献惴ú捎貌愦尉劾嗟姆椒ńǜ鞲鼍植空镜闶萆树状图,再由中心站点重组所有局部站点上传的树状图充分统计量,得到全局树状图描述。炔相继提出了—捌涓慕惴K惴ㄔ诟髡镜阒葱蠨算法,将相对简洁的聚类描述传递到中心站点,中心站点进行全集聚类生成全局聚类模型。以上方法的缺点是不适合连续聚类问题,对数据流处理需要不停地交换局部模型,导致通信代价过大。等提出基于混合高斯模型的惴ǎü2煌胤峙洳煌ナ舳鹊姆绞浇饩分布式数据流中数据簇的交叠问题,该算法的局限是算法本身的复杂度且要求数据符合模型分布,不能很好地处理噪声数据,在典型算法基础上,国内研究学者在处理分布式的数据流方面做出了贡献。啊薄!针对现有数据流聚类算法存在的聚类质量不高、通信代价大的问题,提出了密度和代表点聚类思想相结合的分布式数据流聚类珼惴ā>植空镜阃ü诖úニ惴ǖ玫的微簇代表点的概念来描述数据流的分布概况,一定程度上弥补了算法在精度和效率上的不足,微簇代表点信息很好地反映了局部站点的概要结构,通信数据量远小于所产生的核心对象,全局站点则采用密度融合聚类的方式合并局部站点上传的概要数据结构进而获得全局模型。仿真实验结果表明,苊飨蕴岣叻植际交肪诚率萘的聚类质量,同时算法使用类簇代表点能够发现不同形状的聚簇并显著降低数据传输量。://,郑州;壹扑慊缬胄畔踩ü芾碇行模本通信作者电子邮箱西.,珻,鰅,聊一增琹瑅梏竑撕增,莍腿印—收稿日期:..;修回日期:——。基金项目:国家苹钅,作者简介:张建朋,男,河北廊坊人,博士研究生,主要研究方向:数据流挖掘;金鑫,男,北京人,高级工程师,主要研究方向:通信与信息系统;陈福才,男,江西高安人,研究员,主要研究方向:电信网信息关防及异常检测;陈鸿昶,男,河南郑州人,教授,博士生导师,主要研究方向:电信网信息关防及异常检测;侯颖,女,河北唐山人,副教授,博士,主要研究方向:网络异常检测。—.—:.,“,.篸;—;癮阤
万方数据
.。“‘’Ⅶ’≥卢问题描述

基于近邻传播的分布式数据流聚类算法 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息