南京邮电大学
硕士学位论文
基于粗糙集的网格海量数据挖掘若干关键技术研究
姓名:夏奇思
申请学位级别:硕士
专业:计算机软件与理论
指导教师:茅苏;王汝传
2011-03
南京邮电大学硕士研究生学位论文中文摘要
中文摘要
数据挖掘是从大量数据中发现有用知识的一种手段,已成为目前国际上数据库和信息
决策领域最前沿的研究方向之一,受到了学术界和工业界的广泛关注。但随着数据量越来
越大和数据位置上的分布性,传统的计算模式己满足不了实际要求,而网格具有资源共享
和协同求解的特点,为大规模分布式数据提供了良好的分析和计算平台。本文以网格服务
为基础,重点研究了网格数据挖掘的若干关键技术,包括海量数据分割、网格资源分配和
调度以及分布式函数挖掘算法等,主要工作如下所示:
(1)利用现有的算法和理论,提出基于属性约简的粗糙集海量数据分割算法(Mass Data
Partition for Rough Set on Attribute Reduction, MDPRS-AR),使得算法的分割效率提高了
约 70%,同时使得算法能在数据网格的相关方面中很好地应用;
(2) 提出了基于粗糙集和折半查找的最优属性约简算法(Optimum Attribution
Reduction on Rough Set and Binary Search Algorithm, OAR-RSBSA),通过 OAR-RSBSA 算法
可以快速找到一个约简,在此基础上构造新的样本数据。同时在传统 GEP 算法的基础上,
结合折半查找和网格服务的思想,提出了网格下基于粗糙集、GEP 和折半查找的分布式函
数挖掘算法(Distributed Function Mining on Rough Set ,GEP and Binary Search in Grid,
DFMRSGBS)。DFMRSGBS 算法利用属性约简提高函数挖掘的效率和成功率,同时在全局
模型生成中给出了函数一致性合并算法,使得到的全局模型能够拟合大部分的样本数据。
仿真实验表明,OAR-RSBSA 算法求解最优约简比传统的算法要快,DFMRSGBS 算法比
GEP 和并行 GEPSA 算法的平均耗时要小,且随着网格节点个数的增加,DFMRSGBS 算法
的全局拟合误差明显下降;
(3)根据本文的需要,给出了一种面向服务的网格数据挖掘体系架构,并详细论述了该
体系结构下的各个功能模块的内容和相互之间的关系;
(4)利用 Eclipse 平台,结合基因表达式编程算法(GEP),实现一个网格数据挖掘原型系
统(Grid Data Mining System, GDMS)。详细介绍了网格数据挖掘原型系统各个主要功能模块
的设计和相应门户的实现,用户通过该门户可以方便地远程执行分布式数据挖掘。
关键词:网格,分布式数据挖掘,基因表达式编程,函数挖掘,粗糙集,属性约简
I
南京邮电大学硕士研究生学位论文 ABSTRACT
ABSTRACT
Data mining which being focused on widely by academic and industrial field, it is a method
of finding useful knowledge from mass data and one of a hot point in the research area of
international database and information decision. However, with the augment of data size and the
distribution of data location, puting model cannot satisfy practical requirement.
Grid has the characteristic of resource shareing and cooperative processing, and provides
excellent analysis puting platform for massive and distributed data. In the following
chapters, based on grid services, the key technologies in grid data mining are researched, which
includ mass data partition, function minin
基于粗糙集的网格海量数据挖掘若干关键技术研究 来自淘豆网m.daumloan.com转载请标明出处.