Chapter Two 数据仓库组成部分
1
2021精选ppt
本章学习目标
数据仓库的定义
区分数据仓库和数据集市
学习数据仓库的每一个组成部分
介绍元数据的概念和它的重要性
提纲
定义的特点
数据仓库和数据集市
数据仓库的组成部分
元数据MetaData
2
2021精选ppt
数据仓库的创始者 Bill Inmon :
“A Data Warehouse is a subject oriented, integrated, nonvolatile, and time variant collection of data in support of management’s decisions.”
“数据仓库是为支持管理决策建立的,面向主题的,综合的,稳定的,随时间变化的数据集合”
数据仓库的开拓者Sean Kelly,认为数据仓库中的数据是:
彼此分离
可利用的
综合的
包含时间标记的
面向主题的
非易失性的
能访问的
3
2021精选ppt
定义的特点
“面向主题”的数据
在操作型系统中,各行业的数据集合都是围绕单独的应用程序进行组织的
在数据仓库中
数据是按主题而不是按照应用程序存储的。
数据是跨应用程序的
订单处理
客户贷款
顾客帐单
可接收帐款
索赔处理
储蓄帐目
销售
产品
客户
帐户
索赔
政策
操作型应用程序
数据仓库主题
4
2021精选ppt
储蓄帐户
支票帐户
贷款帐户
主题=帐户
来自应用程序的数据
数据仓库主题
“综合”的数据
数据仓库中的数据来自不同的数据库、文件、数据段。(内部或者外部,不同的平台)
数据进入数据仓库前,需要进行的标准化工作:
命名规则
编码
数据特性
度量单位
5
2021精选ppt
数据的“时间特性”
数据仓库中的每一个数据结构都包含了时间要素。
数据仓库中的数据是和时间变化相关的数据
可以对过去进行分析
与当前的信息相关
可以对未来进行预测
6
2021精选ppt
数据的非易变性
操作型系统的数据实时地进行更新,每次交易发生都要更新;数据仓库中的数据非实时性更新
数据仓库中的数据用来进行查询和分析的
不能在数据仓库中实时地删除数据
不能在数据仓库中修改数据
决策支持系统
操作型系统
OLTP数据库
数据仓库
读取 增加 修改 删除
读取
7
2021精选ppt
Data Granularity
数据粒度:数据的细节程度
在操作型系统中,数据粒度一般都很细。一般不保存加和的数据。
在数据仓库中,保存加和这一个数据项。一般来说,按不同层次组织数据,用户是从高层次向低层次的细节过渡。
根据需求的不同,需要不同层次的数据细节。
每日数据
帐户
交易日期
数额
存款
取款
月汇总
帐户
月份
交易数
取款
存款
期初结余
期末结余
季度汇总
帐户
月份
交易数
取款
存款
期初结余
期末结余
银行数据仓库的三个层次
数据粒度
8
2021精选ppt
数据仓库和数据集市
数据仓库和数据集市是一个混淆不清的概念。是学术界争论的话题
Bill Inmon(1998):“今年IT经理面对的最重要的问题就是到底先建数据仓库还是先建立数据集市”,今天依然如此。
在建立数据仓库前,我们需要考虑下列这些问题:
采取自上而下还是自下而上的方法
企业范围还是部门范围
先建立数据仓库还是数据集市
数据集市是否相互独立
9
2021精选ppt
数据仓库 vs. 数据集市(Data Mart)
数据仓库
数据集市
完整的,从企业整体考虑的
部门的
所有数据集市的集合
一个单独的商业处理过程
从阶段区域得到的数据
星型结构
通过展示的方式进行查询
适合数据连接和分析技术
基于公司数据视角的结构
基于适合部门数据视角的结构
通过实体-关系模式进行组织
10
2021精选ppt
数据仓库第二章数据仓库组成部分ppt课件 来自淘豆网m.daumloan.com转载请标明出处.