数据挖掘技术
摘要:数据挖掘是目前一种新的重要的研究领域。本文介绍了数据挖掘 的概念、目的、常用方法、数据挖掘过程、数据挖掘软件的评价方法。对数 据挖掘领域面临的问题做了介绍和展望。
关键词:数据挖掘 数据集合
一、 数据挖掘的定义
然为了数据挖掘你也不必非得建立一个数据仓库, 数据仓库不是 必需的。建立一个巨大的数据仓库,把各个不同源的数据统一在一起, 解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是 一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。只是为 了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库 中,就把它当作数据集市,然后在他上面进行数据挖掘。
5、数据挖掘和在线分析处理( OLAP ) 一个经常问的问题是,数据挖掘和 OLAP 到底有何不同。下面将会 解释,他们是完全不同的工具,基于的技术也大相径庭。
OLAP 是决策支持领域的一部分。 传统的查询和报表工具是告诉你数 据库中都有什么( what happened ), OLAP 则更进一步告诉你下一步会 怎么样(What next)、和如果我采取这样的措施又会怎么样 (What if)。 用户首先建立一个假设,然后用 OLAP 检索数据库来验证这个假设是否 正确。比如,一个分析师想找到什么原因导致了贷款拖欠,他可能先做 一个初始的假定,认为低收入的人信用度也低,然后用 OLAP 来验证他 这个假设。如果这个假设没有被证实, 他可能去察看那些高负债的账户, 如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找 到他想要的结果或放弃。
也就是说, OLAP 分析师是建立一系列的假设,然后通过 OLAP 来证 实或推翻这些假设来最终得到自己的结论。 OLAP 分析过程在本质上是一 个演绎推理的过程。但是如果分析的变量达到几十或上百个,那么再用 OLAP 手动分析验证这些假设将是一件非常困难和痛苦的事情。
数据挖掘与 OLAP 不同的地方是,数据挖掘不是用于验证某个假定 的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上 是一个归纳的过程。比如,一个用数据挖掘工具的分析师想找到引起贷 款拖欠的风险因素。 数据挖掘工具可能帮他找到高负债和低收入是引起 这个问题的因素, 甚至还可能发现一些分析师从来没有想过或试过的其 他因素,比如年龄。
数据挖掘和 OLAP 具有一定的互补性。在利用数据挖掘出来的结论 采取行动之前, 你也许要验证一下如果采取这样的行动会给公司带来什 么样的影响,那么 OLAP 工具能回答你的这些问题。
而且在知识发现的早期阶段, OLAP 工具还有其他一些用途。 可以帮 你探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和 互相影响的变量。这都能帮你更好的理解你的数据,加快知识发现的过 程。
6、数据挖掘,机器学习和统计
数据挖掘利用了人工智能(AI)和统计分析的进步所带来的好处。 这两门学科都致力于模式发现和预测。
数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析 方法学的延伸和扩展。 大多数的统计分析技术都基于完善的数学理论和 高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。 而随着计算机计算能力的不断增强, 我们有可能利用计算机强大的计算 能力只通过相对简单和固定的方法完成同样的功能。
一些新兴的技术同样在知识发现领域取得了很好的效果, 如神经元 网络和决策树,在足够多的数据和计算能力下,他们几乎不用人的关照 自动就能完成许多有价值的功能。
数据挖掘就是利用了统计和人工智能技术的应用程序, 他把这些高 深复杂的技术封装起来, 使人们不用自己掌握这些技术也能完成同样的 功能,并且更专注于自己所要解决的问题。
7、软硬件发展对数据挖掘的影响 使数据挖掘这件事情成为可能的关键一点是计算机性能价格比的 巨大进步。在过去的几年里磁盘存储器的价格几乎降低了 99%,这在很 大程度上改变了企业界对数据收集和存储的态度。如果每兆的价格是
¥ 10,那存放1TB的价格是¥ 10,000,000,但当每兆的价格降为1毛钱 时,存储同样的数据只有¥ 100,000 !
计算机计算能力价格的降低同样非常显著。 每一代芯片的诞生都会 把 CPU 的计算能力提高一大步。内存 RAM 也同样降价迅速,几年之内每 兆内存的价格由几百块钱降到现在只要几块钱。 通常 PC 都有 64M 内存, 工作站达到了 256M,拥有上G内存的服务器已经不是什么新鲜事了。
在单个 CPU 计算能力大幅提升的同时, 基于多个 CPU 的并行系统也 取得了很大的进步。目前几乎所有的服务器都支持多个 CPU,这些SMP 服务器簇甚至能让成百上千个 CPU 同时工作。
基于并行
数据挖掘技术论文 来自淘豆网m.daumloan.com转载请标明出处.