下载此文档

2021年基于近邻传输的分布式数据流聚类算法近邻.docx


文档分类:IT计算机 | 页数:约9页 举报非法文档有奖
1/9
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/9 下载此文档
文档列表 文档介绍
基于近邻传输的分布式数据流聚类算法近邻

     摘要:   针对分布式数据流聚类算法存在的聚类质量不高、通信代价大的问题,提出了密度和代表点聚类思想相结合的分布式数据流聚类算法。该算法的局部站点采取近邻传输聚类,引入了类簇代表点的概念来描述局部分布的概要信息,全局站点采取基于改善的密度聚类算法合并局部站点上传的概要数据结构进而取得全局模型。仿真试验结果表明,所提算法能显著提升分布式环境下数据流的聚类质量,同时算法使用类簇代表点能够发觉不一样形状的聚簇并显著降低数据传输量。
  关键词:数据挖掘;分布式聚类;数据流;近邻传输;基于密度聚类
  中图分类号:TP181自动推理、机器学习
  文件标志码:A
  0引言
  伴随传感器网络、通信技术和分布式计算的发展,在Web网站访问流量分析、互联网流量监测、传感器网络中的入侵监测等应用中,大量的数据全部是以流的形式产生的,这些数据流的特点是海量的、时序的、快速改变的和潜在无限的1-3。伴随流量的日益增大,数据处理结构展现出一个分布式特征,面向分布式数据流的聚类多年来一直是研究的热点4-6。
  聚类数量巨大而且分布在不一样站点的数据流, 需处理关键通信链路负载过重、中央站点存放和计算时间有限的问题。文件7算法采取层次聚类的方法将各个局部站点数据生成树状图,再由中心站点重组全部局部站点上传的树状图充足统计量,得到全局树状图描述。Januzaj等8-9相继提出了DBDCDensityBased Distributed Clustering及其改善算法SDBDCScalable DBDC。算法在各站点实施DBSCANDensityBased Spatial Clustering of Applications with Noise算法,将相对简练的聚类描述传输到中心站点,中心站点进行全集聚类生成全局聚类模型。以上方法的缺点是不适合连续聚类问题,对数据流处理需要不停地交换局部模型,造成通信代价过大。Zhou等10提出基于EM混合高斯模型的CluDistream算法,经过为不一样簇分配不一样隶属度的方法处理分布式数据流中数据簇的交叠问题,该算法的局限是EM算法本身的复杂度且要求数据符合模型分布,不能很好地处理噪声数据,在经典算法基础上,我国研究学者在处理分布式的数据流方面做出了贡献4-6,11。
  针对现有数据流聚类算法存在的聚类质量不高、通信代价大的问题,提出了密度和代表点聚类思想相结合的分布式数据流聚类Density and Affinity Propagation Based Distributed Clustering, DAPDC算法。局部站点经过近邻传输算法得到的微簇代表点的概念来描述数据流的分布概况,一定程度上填补了DBDC算法在精度和效率上的不足,微簇代表点信息很好地反应了局部站点的概要结构,通信数据量远小于DBDC所产生的关键对象,全局站点则采取密度融合聚类的方法合并局部站点上传的概要数据结构进而取得全局模型。仿真试验结果表明,DAPDC能显著提升分布式环境下数据流的聚类质量,同时算法使用类簇代表点能够发觉不一样形状的聚簇并显著降低数据传输量。
  1问题描述和相关概念
  近邻传输算法Affinity Propagation
  分布式数据流网络结

2021年基于近邻传输的分布式数据流聚类算法近邻 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数9
  • 收藏数0 收藏
  • 顶次数0
  • 上传人读书之乐
  • 文件大小19 KB
  • 时间2021-03-25