靉—簉籫畉舊甴.。。.
海痺...篋琣.。瓵瑃籲;
第一章概述数据挖掘的定义数据挖掘的过程数据挖掘⋯是从大量豹、不完全的、有噪声的、模糊的、随机的实际应用术,,提本章主要介绍数据挖掘的定义、数据挖掘过程、数掘挖掘算法、数据挖掘的应用和目前研究的情况,最后给出论文的内容安排。随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中的数据量急剧加大,在大量的数据背后隐减着许多重要的信息,如果将这些重要的信息从数据库中抽墩出来,为人们提供有用的价值,基于这釉情况数据挖掘的概念被提出来。数据挖掘是当前最为活跃的数据库研究领域之一。,它在国内外的学术界和信息产业界备受关注。数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。何为知识庸阋迳侠斫狻J荨⑿畔⒁彩侵J兜谋硐中问剑侨嗣更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,妤像从矿石中采矿或淘金一样。原始数据町以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分嘶谕上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘足一门交叉学科,它综合了机器学习、统计分析和数据库技供决策支持。,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,。数据挖掘可以视为另一数据库术语知识发现琄耐宕剩ǔVR苑⑾值墓炭梢杂幸韵虏街枳槌参看图⑽侍舛ㄒ数据挖掘是为了在大量数掘【贩⑾钟杏玫牧钊烁行巳さ男畔ⅲ虼朔⑾趾沃知识就成为整个过程中第一个也是觳说摹8鼋锥巍T谖侍舛ㄒ骞讨校挖掘人员必须和领域专家以及最终用户紧密协作,一方面明确实际工作对数据挖
淌疽馊图⑹菔占褪菰ご数据选取的目的是确定发现任务的操作对象,即目标数据,是根据用户的需等。当数据挖掘的对象是数据仓库时。一般来说,数据预处理已经在生成数据仓⑹,就要决定使用什么样的算掘的要求:另一方面通过对各种学习算法的对比进而确定可用的学习算法。后续的学习算法选择和数据集准备都是在此基础上进行的。数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换。要从原始数据库中抽取的一组数据。数据预处理一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换绨蚜凳葑;晃@肷⑿的数据。以便于符号归纳,或是把离散型转换为连续值型的,以便于神经网络库时完成了。。数据挖掘阶段首先根据对问题的定义明确挖掘任务或目的,如分类、聚类、法。选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘;二是用户或实际运行系统的要求,有的用户可能希望获取描述型的、容易理解的知识,而有的用户只是希望获取预测准确度尽可能高的预测型知识,并不在意获取的知识是否易于理解。关于数据挖掘所采用的一些常用算法,在下面章节将给出详细的描述。
,萃诰蛩惴数据挖掘算法及应用较尺度:①预测准确度;②计算复杂度;③模型描述的简洁度。下面我们介绍应⒔狒薪馐秃推拦数据挖掘阶段发现出来的模式,经过评估。可能存在冗余或无关的模式,这时需要将其剔除:也有可能模式不满足用户要求,这时则需要整个发现过程回退到§口续阶段,如重新选取数掘、采用新的数据变换方法、设定新的参数值。甚至换一种算法等等。⑾值哪J进行可视化,“⋯⋯”规则。数掘挖掘质量的好坏有两个影响要素:一是所采用数据挖掘技术的有效性,二是用于挖掘数据的质量和数量萘康幕鹦。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换,则挖掘豹结果是不会好的。整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数掘不太好,或使用的挖掘技术产生刁;了期望的结果:这时,用户需要重复先前的过程,甚至从头重新开始。可视化在数据挖掘的各个阶段都起着非常重要的作用。特别是在数据准备阶段,用户可能要使用散点国、直方图等统计可视化技术来显示有关数据,以期望对数据有一个初步的了解,从而为更好地选取数据打下基础。在挖掘阶段,用户则要使用与领域问题有关的可视化工具。在表示结果阶段。则可能要用到可
关于WEB日志的数据挖掘 来自淘豆网m.daumloan.com转载请标明出处.