华南理工大学
硕士学位论文
粗糙集理论及其在数据预处理中的应用
姓名:张志伟
申请学位级别:硕士
专业:软件工程
指导教师:左保河;杨新章
20040601
摘要随着数据库技术的迅猛发展,人们可以轻易的获得海量的数据,并且这些数据还在日益增长,我们希望计算机能够自动的帮助我们处理这些海量的数据,并提取隐含的有价值的知识,这就需要我们对数据库知识的发现作更加深入地研究。换句话说,知识发现就是从某个领域的历史数据中获取有用的、未知的知识,由于历史数据在设计时并没有考虑数据挖掘任务或者考虑较少,且历史数据有时存储在多个数据库中,并且数据库中数据的不完全性是不可避免的。从这些数据库中收集而成的样本数据集并不一定适合直接用于数据挖掘,通常需要经过预处理后才能使用。而粗糙集理论是一种新的处理模糊、不精确、不完全数据的数学工具。它是建立在分类机制的基础上,将分类理解为特定空间上的等价关系,而等价关系构成了对该空间的划分;粗糙集理论的主要思想是在保持原来信息系统分类能力不变的前提下,利用已知的知识库,将不精确或者是不确定的知识用知识库中已知的知识来近似刻画,通过知识的补充、约简,导出问题粗糙集理论自从粗糙集在八十年代提出之后,已经成功的运用于许多商业应用中,因而粗糙集理论引起了众多研究者的兴趣。本文主要是在广州三汽公司信息管理系统的项目背景下讨论了粗糙集理论及其在数据预处理中的应用问题。本文首先介绍了数据预处理技术和几种处理方法;然后分析了粗糙集的基本理论,并且介绍了基于不完备信息系统的粗糙集理论;然后我们重点介绍和分析了缺损数据的补全问题,并分析了填补算法,最后结合实际情况分析了算法在广州第三公交汽车公司收费系统中对数据进行纠错处理过程中的应用情况,并对结果作出了分析。关键字:粗糙集的决策或者分类规则。数据预处理信息系统缺损数据
华南理:捍笱趟妒垦宦畚甋’瓵琁曼崖皇曼曼曼曼曼曼曼曼曼曼曼墨詈曼曼净驶曼曼曼曼柯.;.’。琸.。、.’.,,.,ⅲ篹琣甌,’.瓼,瑄瓵、、篟珼,,ⅰⅰ.浚
孤,\作者签名:荔最の叭掌冢骸缒月舻日不保密刚学位论文版权使用授权书华南理工大学学位论文原创性声明日期:谚彳年耮日日期:伽月,究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。本学位论文作者完全了解学校有关保留、使用学位论文的规定,允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密口,在本学位论文属于本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,年解密后适用本授权书。朐谝陨舷嘤Ψ娇蚰诖颉啊獭作者签名:导师签名:
第一章绪论课题背景随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库如果能把这些信息从数据库中抽取出来,将为公司创造很多潜在的利润,而这种从海量数据库中挖掘信息的技术,就称之为数据挖掘数据挖掘过程一般由三个主要阶段组成:数据准备、数据分析、结果评价。数据准备阶段又可以进一步分为:数据采样、数据选择、数据调整。数据采样即将多文件或多数据库运行环境中的数据进行合并处理,解决模糊数据,该阶段又可进一步分为不完备数据的填补等。数据选择旨在辨别出需要分析的数据集合,缩小处理范围,提高挖掘质量。数据调整即针对问题的需要对数据进行增删,或按照对整个数据挖掘过程的新认识,组合或者生成一些新的变量,以体现对状态的有效描述。知识的发现是从某个领域的历史数据中获取有用的、未知的知识,由于历史数据在设计时并没有考虑数据挖掘任务或者考虑较少,且历史数据有时存储在多个数据库中,并且数据库中数据的不完全性是不可避免的。从这些数据库中收集而成的样本数据集并不一定适合直接用于数据挖掘,通常需要经过预处理后才能使用。而粗糙集理论是一种新的处理模糊、不精确、不完全数据的数学工具。它是建立在分类机制的基础上,将分类理解为特定空间上的等价关系,而等价关系构成了对该空间的划分:粗糙集理论的主要思想是在保持原来信息系统分类能力不变的前提下,利用已知的知识库,将不精确或者是不确定的知识用知识库中己知的知识来近似刻画,通过知识的补充、约简,导出问题的决策或者分类规则。在数据预处理过程中,对于原始数据中遗漏的信息,需要进行数据中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,的填补,这在粗糙集理论中称为决策表补齐。三汽公司是广州市大型公交公司之一,担负着全广州市公交服务的重要任务,自年以来,公
粗糙集理论及其在数据预处理中的应用 来自淘豆网m.daumloan.com转载请标明出处.