基于粗糙集和娜全查全夕婆叁终一堕丝壑壑些壑丛一—一—一一
基于粗糙集和概念格的数据挖掘关联规则的研究
研究生张静
指导教师王相海
专业学科教学论计算机
中文摘要
概念格是从数据中进行概念发现的一种数学工具,可通过哈斯图表现出概念之
间的层次关系,已在信息检索、数字图书馆、软件工程和知识发现等方面得到
应用。粗糙集理论是处理模糊和不确定知识的一种数学工具,已在人工智能与
知识发现,模式识别与分类,故障检测等方面得到了较好应用。本文主要研究
了墓于概念格和粗糙集的数据挖掘关联规则方法做了研究。主要提出了一种基
于概念格的增量关联规则的构造方法,该方法只需扫描数据库一次,并且只生
成最大化的项目集在此墓础上,提出一种在概念格上提取分类和关联规则的
集成算法,该算法可从格上生成具有任意指定后件的分类关联规则。此外,
还给出了几条指导生成非冗余规则的若千规则。
关键词数据挖掘,概念格,粗糙集,关联规则
第一章引言
数据挖掘是从数据库或数据仓库中发现并提取隐藏在其中的有用模式的一种新技术。
它通常建立在数据库,尤其是数据仓库的基础之上,面向非作业用户,支持即兴的随机查
询。数据挖掘技术能自动分析数据,并对它们进行归纳性推理和联想,寻找数据间内在的
某些联系,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式,从而建
立新的业务模式。数据挖掘技术涉及数据库、人工智能、机器学习和统计分析等多种技术,
它使决策支持工具跨入了一个新的阶段。
基于粗糙集和概念格的数据挖极关卑扫见则的研究
数据挖掘是一个过程,它可以从大量数据中抽取出有价值的信息或知识口由于每一种
数据挖掘技术方法算法及技术要求都有其自身的特点和实现步骤,并且通常与具体应
用间题有着密切的相关性,因此,成功应用数据挖掘技术达到目标的过程一般都是比较复
杂的。数据挖掘项目通常要经历以下儿个过程问题的理解,数据的理解、收集和准备、
建立数据挖掘模型、评价所建的模型、应用所建的模型等一系列任务。这里,数据挖掘过
程的系统化、工程化方法学和支持系统软件或工具对解决应用问题起着至关重要的作
用。为了抽象系统化方法,人们提出了一些数据挖掘过的参考模型或标准,如提
出的提出的
数据挖掘特别兴趣小组提出的“数据挖掘交叉行业标准过
程,以及专业的数据挖掘技
术咨询公司提出的模型阶段包括
。在这些模型中,强调的是支持数据挖掘过程的工具应具有的功能和
能力,强调的是结合其工具的应用方法, 则从方法学的角度强调实施
数据挖掘项目的方法和步骤,并独立于每种具体数据挖掘算法和数据挖掘系统,
则是从其自身理解的角度借鉴前述方法,并在其上加以改进而提出的模型。比较而言,由
于和分别从支持功能和方法学角度描述了数据挖掘过程,因此对介绍数据
挖掘过程较为合适。
数据挖掘方法概述
数据挖掘过程中的常用技术有属性选择法,聚类算法,连续属性离散化法,实例选
择算法,分类算法,坟本挖掘方法,组合学习技术以及关联规则方法等。
属性选择法
属性选择及属性转换是数据预处理过程中广泛使用的技术。因为许多学习算法处理高
维数据有困难,存在大量的无关属性,使得数据分析受到干扰。属性选择的目的是找到满
足特定标准的最小的属性子集。
在属性选择算法中,搜索算法起着重要的作用。搜索算法可以用搜索方向前向,后
向,双向,搜索方式穷尽搜索,启发式,非确定式及评价方式精确度,一致性,
依赖度等等三个方面来分类
粗糙集理论也是属性选择的重要工具之一。它对知识作了一整套的形式化描述
一一
基于粗糙集和概念格的数据挖掘关联规则的研究
严格定义了知识的冗余等概念,在此基础上提出了能够保持分类能
力不变的最小属性子集一约简的概念,并给出了约简计算的一般方法。
除此之外,还有许多的属性选择算法。例如神经网络方法,遗传算法,分形方法等。
这些方法各有特色,但是没有任何一个方法能解决所有问题。
聚类算法
聚类算法是按照某个特定标准〔通常是某种距离把一个数据集分割成不同的类,使
得类内区别性尽可能的小,同时类间的区别性也尽可能的大。进行聚类前并不知道将要划
分成几个类和什么样的类,也不知道根据哪一个数据项来定义类,是典型的无监督学习算
法。
聚类方法主要分为平面聚类和层次聚类。平面聚类方法通过优化一个评估函数把数据
集分割成多个部分分层聚类则是在不同层次上对数据进行分割,具有明显的层次性,算
法的执行过程可以用一棵层次树来描述。
由于聚类是无监督的学习方法,其所研究的数据没有类别标签,一般很难判断
基于粗糙集和概念格的数据挖掘关联规则的研究硕士论文 来自淘豆网m.daumloan.com转载请标明出处.