章 1:
1、自然演化体系存在 3 个问题
数据可信性。
生产率。
数据转化为信息的不可行性
2、数据可靠性问题的 5 个原因
数据无时基。
数据算法上的差异。
:
中间层建模(数据项集, DIS):
底层建模(物理模型) :
6、Snapshot 组成部分及触发 Snapshot 的两种事件及其特点
“活动 - 发生”事件
“时间 - 发生”事件
前者的发生一般是随机的,而后者的发生一般是周期性的、
可预测的。
组成: 1)关键字
2)时间单元
3)只与关键字相关的主要数据
4)二级数据(可选)
事件:( 1)一类事件是对离散活动信息的记录,例如填写支票,
打电话。离散活动是随机发生的。
(2)另一类快照触发器是时间。 这是一种可预期的触发器,
如一天的结束,一周的结束。
7、概要记录与 Snapshot 的区别
使用简要记录的原因: (1)数据仓库中的数据无法满足稳定性和不易改变的标准;(2)海量的数据;(3)数据的内容频繁的改变;
4)从商业角度来看,不需要严苛的数据的历史记录;简要记录和数据快照:
区别:在数据仓库中的个体活动记录代表一个单一的事件;而简
要记录则代表了多个事件;
8、多维方法构成( 3 部分),使用场合
多维方法:这种方法需要星形连接,事实表和维。
使用场合:适用于数据集市,而不适合数据仓库。
9、星形连接定义维表与事实表区别
用来管理载入数据集市中某个实体的大量数据的设计结构
称为星形连接。
关系数据库中强调所有的表格之间的位置和关系是对等的。
而实际上有些表格的内容远远超过其它表格。 所以在多维模型中,
事实表比维表更重要, 包含更多数据, 事实表一般保存数值数据,
而维表多保存文本数据。
章 5:
1、不同存储媒介及其在价格、容量、速度上区别及 DB、DW对存
储媒介的需求
主存
非常快
非常贵
扩展内存
非常快
贵
高速缓存
非常快
贵
DASD
快
适中
磁带
不快
不贵
近线储存
不快
不贵
光盘
不慢
不贵
微缩胶片
慢
便宜
由于存在数据仓库中的数据量和数据的访问率不同这两方面的因素,所以一个满载的数据仓库应该放在多种层次的存储设备上。
2、多维 DBMS(olap )(是技术)与数据仓库区别(是系统)
多维 DBMS(OLAP)是一种技术,而数据仓库是一种体系结构基础。这两者之间存在着依存的关系。通常情况下,数据仓库是作为需要流入多维 DBMS的数据的基础,将选出的细节数据的子集转入多维 DBMS,在那里对数据进行汇总或聚集。
3、元数据三个来源
源数据及建模工具中的元数据( 25%)
数据清洗过程中产生的元数据( 25%)
数据文件的转换规则、字
云南大学数据仓库期末复习 来自淘豆网m.daumloan.com转载请标明出处.