目录
1 从数据库到数据仓库 2
2 何谓数据仓库? 3
3 数据仓库主要的作用 4
4 数据仓库的体系结构 5
5 OLAP与数据仓库技术 6
6 数据挖掘与OLAP 7
7 数据仓库和数据挖掘技术离我国企业有多远? 8
8 总结 10
从数据库到数据仓库
您听说过数据仓库吗?您知道为什么要建立和使用数据仓库呢?您想知道您的企业是否适合使用数据仓库吗?您想了解数据仓库技术吗?
让我们先来看一些统计数字。1994年,一份由META小组对2000家企业的CIO所作的调查表明,百分之九十以上的企业都计划在1994年至1996年之间实现数据仓库。百分之九十的大公司计划在1996年采用数据仓库技术。而IDC在1996年的一次对90年代前期进行的62个数据仓库项目的调查结果表明:%的投资回报率。实际上,正是使用数据仓库所产生的巨大效益刺激了对数据仓库技术的需求,使得数据仓库的研究和应用迅速发展起来。
应该说,数据仓库技术是信息工程实践的必然产物,是人们对信息处理的客观要求。一直以来,如何有效地管理企业在运营过程中所产生的大量数据和信息是信息技术人员面临的重要课题。70年代出现并被广泛应用的关系型数据库技术为这一问题的解决提供了强有力的工具。然而从80年代中期开始,信息系统的用户已经不满足于用计算机仅仅去管理日常的生产数据,他们更需要的是信息——支持决策制定过程的信息,也就是说,他们需要从大量的业务数据中探索业务活动的规律性及市场的运作趋势,并从中得到参与市场竞争所必需的决策。这种需求既要求联机服务,又涉及大量用于决策的数据,而传统的数据库系统已无法满足这种需求。这具体体现在以下三个方面:
历史数据量很大。全球范围内数据库中存储的数据量急剧增大,有些公司经过长年累月积聚下来的商业数据目前已经超过几百万条记录。虽然数据库系统提供了对这些数据的管理和简单的处理功能,人们可以在这些数据之上进行商业分析和科学研究,但如此庞大的数据对人工处理来说是非常困难的。
辅助决策信息涉及许多部门甚至企业外部的数据,而不同系统的数据难以集成。尽管大多数的企业中已经有了成功的MIS系统、CMIS系统、或是有了大量卓有成效的过程控制系统,其中的数据体系对应着一项项业务处理和一个个控制环节,它们能完善地支持其原有的工作。但当从企业级的角度去审视,并想进一步分析处理时,这些数据又往往过于分散,数量越来越大,并难以集成。这些数据适合原有的工作任务,但不适合现在的要求。要支持企业级的决策,就是需要从“洪水般的数据”中进行面向企业级的工作任务进行重组,对分散在多个事务处理应用中的相关数据进行集成,以向分析人员提供统一的数据视图。
由于访问数据的特性不同,它对大量数据的访问性能明显下降。在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短,因此,系统可以允许按分时方式使用系统资源,同时保持较短的响应时间。而在分析处理环境中,用户的行为模式与此完全不同,某个决策支持应用程序可能需要连续运行几个小时,从而消耗大量的系统资源。将具有如此不同处理特性的两种应用放在同一个环境中运行显然是不适当的。
另一方面,进入八十年代以后,新的客户机/服务器技术和并行可扩展体系结构数据库技术得到了迅猛
数据仓库技术白皮书之二 来自淘豆网m.daumloan.com转载请标明出处.