下载此文档

流数据挖掘关键技术应用研究.pdf


文档分类:IT计算机 | 页数:约89页 举报非法文档有奖
1/89
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/89 下载此文档
文档列表 文档介绍
密级: 保密期限: 站字垂P童大学博士研究生学位论文题目:流数据挖掘关键技术研究堂县. 0 068127 2010年04月10日厂 ADoctoral Dissertation munication andInformation Systems RESEARCH ON KEY TECHNOLOGIES oFSTREAM DATA MINING By NiPing Supervisor: Jianxin Beij ing University ofPostsand munications April 2010 卜\ 独创性(或创新性)声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名:鱼盔日期. 关于论文使用授权的说明学位论文作者完伞了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。: 日期:鲨!竺£:!』日期: 北京邮电大学博士学位论文摘要流数据挖掘关键技术研究摘要流数据挖掘是对到达的数据流按照一定的序列进行挖掘,它和静态数据关联规则的挖掘的不同在于流数据具有高速、连续和无边界等特性。流数据具有的独特特性给数据挖掘和分析带来一系列问题,比如如何快速高效的识别挖掘周期内的有效模式,模式以何种方式呈现能使使用者容易理解,高速数据挖掘中采用何种数据结构能有效的对数据模式进行维护、保存和删除,如何选择合适的挖掘周期,对于连续的流数据采用何种方式进行噪音处理等。论文在对以上问题研究的基础上,进一步对流数据指标的聚合在网络中的应用进行了研究,多个指标如何反映到一个指标从而有利于业务管理者对业务进行有效的监控和管理。同时,通过对流数据指标的动态学习,深度挖掘流数据的特性,使得业务提供者可以在更高层次上评估用户使用业务的体验。论文的主要工作和创新点简要归纳如下: 1)针对如何高效快速的识别挖掘周期内的有效模式,论文提出了一种大规模网络中流数据事件关联分析的算法EARA(Events Association RulesAnalysis),通过EARA可以发现未知结构大规模网络中的异常事件,并且可以使得用户选择置信度门限值以达到仅仅提取有效模式的目的。同时提出了一种可视化模式压缩算法VPC(Visual press),解决了流数据挖掘中模式以何种方式呈现能使用户容易理解的问题。实验结果显示EARA算法可以发现重要事件之间的关联关系,而VPC算法进一步压缩事件,使得使用者可以很容易从数以千计的关联事件中发现有用的模式。 2)针对高速数据挖掘中采用何种数据结构能有效的对数据模式进行维护、保存和删除问题,论文提出了一种在智能建筑中对于传感网络中的流数据进行增量知识挖掘的算法 IKMM(Incremental Knowledge MiningModel),IKMM算法采用树状结构来提高挖掘效率, 通过滑动窗口时间参数来控制树状结构的变化速度。另外,通过启发式规则提高关联规则的提取效率。通过同传统的FUP2(Fast Update Patterns2)和AFPIM(Adjusting for IncrementalMining)算法进行对比,在高维情况下,IKMM算法是其他两种算法效率的10 倍以上。 3)数据挖掘时机的确定是目前流数据关联规则挖掘算法的研究热点之一,就是在什么条件下需要重新运行挖掘算法提取关联规则,并且在有限的系统资源下尽可能提高挖掘效率和减少挖掘成本。论文提出了一种在流数据挖掘算法中关联规则提取时机的确定算法 KRPB(Key Runtime PointBoundary),KRPB只对原始数据集进行一次扫描,在后续周期扫描中利用前次扫描的保存结果进行增量更新即可,在相邻两次原始数据集上取得支撑度北京邮电大学博士学位论文摘要附近的频繁项集参与两次数据集的变化差异程度的估计计算,从而确定是否需要运行挖掘算法进行数据模式的提取。 4)为了对流数据特性进行有效监控,即如何可视化流数据指标之间的内在本质联系,论文对流数据的可视化数据

流数据挖掘关键技术应用研究 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数89
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2286107238
  • 文件大小0 KB
  • 时间2016-03-19