第七章数据挖掘
1
引言
KDD与数据挖掘
数据挖掘方法
数据挖掘的应用
可视化数据挖掘
2
一、引言
什么激发了数据挖掘
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛应用于各种领域,如商务管理、生产控制、市场分析、工程设计和科学探索等。
面对海量数据库和大量繁杂信息,如何才能从中提取有价值的知识,进一步提高信息的利用率,由此引发了一个新的研究方向:基于数据库的知识发现(Knowledge Discovery in Database)及相应的数据挖掘(Data Mining)理论和技术的研究。
3
为什么数据挖掘是重要的
数据的丰富带来了对强有力的数据分析工具的需求。快速增长的海量数据收集存放在大型和大量的数据库中,没有强有力的工具,这些数据就变成了“数据坟墓”——难得再访问的数据档案。因此数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。
4
KDD定义
人们给KDD下过很多定义,内涵也各不相同,目前公认的定义是由Fayyad等人提出的。
所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。
二、KDD与数据挖掘
5
KDD过程
KDD是一个人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。从宏观上看,KDD过程主要经由三个部分组成,即数据整理、数据挖掘和结果的解释评估。
6
知识发现(KDD)的过程
数据清理筛选
数据
目标数据
Knowledge
预处理及变换
变换后的数据
数据挖掘
解释/评估
7
知识发现(KDD)的步骤
数据准备:了解KDD应用领域的有关情况。包括熟悉相关的知识背景,搞清用户需求。
数据选取:数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或样本。在此过程中,将利用一些数据库操作对数据库进行相关处理。
数据预处理:对步骤2中选出的数据进行再处理,检查数据的完整性及一致性,消除噪声及与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。
8
数据变换:根据知识发现的任务对经过预处理的数据再处理,主要是通过投影或利用数据库的其它操作减少数据量。
确定KDD目标:根据用户的要求,确定KDD要发现的知识类型。
选择算法:根据步骤5确定的任务,选择合适的知识发现算法,包括选取合适的模型和参数。
9
数据挖掘:这是整个KDD过程中很重要的一个步骤。运用前面的选择算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。
模式解释:对在数据挖掘步骤中发现的模式(知识)进行解释。通过机器评估剔除冗余或无关模式,若模式不满足,再返回到前面某些处理步骤中反复提取。
知识评价:将发现的知识以用户能了解的方式呈现给用户。其中也包括对知识一致性的检查,以确信本次发现的知识不会与以前发现的知识相抵触。
10
DSS-决策算法 来自淘豆网m.daumloan.com转载请标明出处.