一种新型数据分析技术.doc数据挖掘 种新型数据分析技术
摘要:首先介绍了数据挖掘的体系结构,并在此基础上提出了数据挖掘工程的一般方法和步骤, 最后介绍了数据挖掘的应用前景。
A Novel Data Analysis Technology:Data Mining
Abstract:In this paper the architecture of data mining is outlined and the general methods andprocedure of data mining engineering is presented. At last, the future application of datamining is introduced.
Key words:data miningj; data warehouse; knowledge discovery
0引言
随着世界上信息总量的不断增加,迫切需要有效的信息分析工具,它们能发现大量数据间 隐藏的依赖关系,它们能从大量数据中抽取有用的信息或知识。尽管很早就出现了简单的数 据统计技术,但先进的智能数据分析工具尚未成熟。因此,在数据生成和数据理解之间存在很 大的差距。数据挖掘就是为解决这一矛盾而出现的一种新型数据分析技术。数据挖掘旨在能 从大型数据库中提取隐藏的预测性信息,是构建高效数据仓库的基本操作,又称知识发现。它 能发掘数据间潜在的模式,找出企业经营者可能忽视的信息,以便于理解和观察的形式反映给 用户,并为企业作出前摄的、基于知识的决策参考意见。目前国际上在该领域的研究相当活 跃,无论在理论上,还是实用技术上都取得了喜人的成果,同时也开发出了各种专用或通用的 商业数据挖掘软件。
1数据挖掘的体系结构从广义上讲,数据挖掘分为二种类型:全自动、半自动和全交互式。 对于全自动技术,一旦系统被创建,无需人的任何干预,它能在后台自动进行操作;对于半自动 技术,系统或者在后台操作,或者采用全交互方式;对于全交互式技术,是一种简单的数据挖掘, 它由用户设置每次操作的参数,然后等待相应结果。数据挖掘的体系结构如图1所示:
下面对其主要组成部分分别进行详细说明。
数据挖掘算法。
这部分是数据挖掘的核心部分。它可以综合利用各种人工智能技术。下面介绍几种常用 的数据挖掘技术。
粗集方法(Rough Set)o
粗集理论是近年来才兴起的研究不精确、不确定性知识的表达、学习、归纳等方法。
粗集方法是模拟人类的抽象逻辑思维,它以各种更接近人们对事物的描述方式的定性、 定量或者混合信息为输入,输入空间与输出空间的映射关系是通过简单的决策表简化得到的, 它通过考察知识表达中不同属性的重要性,来确定哪些知识是冗余的,哪些知识是有用的。进 行简化知识表达空间是基于不可分辨关系的思想和知识简化的方法,从数据中推理逻辑规则 作为知识系统的模型。它是基于一个机构(或一组机构)关于一些现实的大量数据信息,以对观 察和测量所得数据进行分类的能力为基础,从中发现、推理知识和分辨系统的某些特点、过 程、对象等。
遗传算法(Genetic Algorithms) o
遗传算法是基于达尔文的进化论中基因重组、突变和自然选择等概念。
这些算法作用于对某一特定问题的一组可能的解法。它们试图通过组合或“繁殖”现存 的
一种新型数据分析技术 来自淘豆网m.daumloan.com转载请标明出处.