下载此文档

BI技术介绍.ppt


文档分类:IT计算机 | 页数:约38页 举报非法文档有奖
1/38
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/38 下载此文档
文档列表 文档介绍
BI技术介绍
郭春选 2010-3-31
2
目 录
数据仓库
OLAP
ETL与数据质量
3
什么是数据仓库
“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”—W. H. Inmon
数据仓库的数据是面向主题:典型的主题领域:客户;产品;交易;帐目
数据仓库的数据是集成的:异构数据、数据提取、净化、转换、装载、编码统一
数据仓库的数据是不可更新的:数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新
数据仓库的数据是随时间不断变化的:
数据仓库中的时间期限要远远长于操作型系统中的时间期限(5~10年);
数据仓库中的数据是一系列某一时刻生成的复杂的快照;
数据仓库的键码结构总是包含某时间元素。
4
为什么要建独立数据仓库
术业有专攻,各类系统分工不同
DBMS(DataBase Managment System )是为OLTP(On-Line Transaction Processing )而设计的:存储方式,索引, 并发控制, 恢复,目前在电信中,DBMS主要负责业务支撑。
数据仓库是为OLAP(On-Line Analysis Processing )而设计:复杂的 OLAP查询, 多维视图,汇总,电信企业有海量的历史数据,需要总结历史经验,为企业更好的服务。
数据来源、应用与处理方式不同
历史数据: 决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护
数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总)
数据质量: 不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成
我的E家ARPU真的这么高?小X,确认一下!
是啊,真这么高?请支撑中心提数据分析下……
CRM系统提供E家档案……
计费系统提供E家收入……
财务部提供E家成本……
CRM和计费的E家档案有差异!以哪个为准?
南京不分档,南通分档,全省分还是不分?
财务不知道哪些成本是E家的…………
5
数据孤岛
口径不一致
数据驱动
数据仓库
经营分析系统
合作服务方分析
服务质量分析
营销管理分析
数据业务分析
客户情况分析
业务发展分析
收益情况分析
市场竞争分析
大客户分析
统计中心
通过数据仓库的建设把不同系统中的口径统一化,通过 KPI、OLAP、固定报表等一系列基础统计应用建设,有效解决了数据分裂和口径的问题,为决策层提供数据支撑。
为什么要建独立数据仓库
6
一些关键知识点
ETL:
ETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
粒度
是指数据仓库的数据单位中保存数据细化或综合程度的级别,粒度问题是数据仓库的一个最重要概念。粒度的具体划分将直接影响到数据仓库中的数据量以及查询质量。数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。
元数据
关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。
分割
指将数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。分割后的数据单元称为分片(区)。任何给定的数据单元属于且仅属于一个分割。
7
数据仓库的数据粒度结构
数据仓库的数据级别(粒度)
早期细节数据:存储过去的详细数据,反映真实的历史情况,这类数据随着时间增加,数据量很大,使用频率低,一般存储在转换介质中。(例如磁带中)
当前细节数据:存储最近时期的业务数据,反映当前业务的情况,数据量大,是数据仓库用户最感兴趣的部分。随着时间的推移,当前细节数据由数据仓库的时间控制机制转为早期细节数据。
轻度综合数据:从当前基本数据中提取出来,通常以较小的时间段(粒度)统计而成的数据,其数据量较细节及数据少得多。
高度综合数据:这一层的数据十分精炼,是一种准决策数据。
8
数据仓库建设方法-自顶向下
建造企业数据仓库
建设中心数据模型
一次性的完成数据的重构工作
最小化数据冗余度和不一致性
存储详细的历史数据
从企业数据仓库中建造数据集市
得到大部分的集成数据
直接依赖于数据仓库的可用性
问题
投资效益的时间?
建设中心数据模型的必要性和可能性?
初始费用?
数据集市
外部数据
数据集市
操作数据
企业数据仓库
9
建立部门数据集市
限制在一个主题区域
快速投资收益
区域自治–设计的可伸缩性强
对相关部门的应用容易复制
对每个数据集市需要数据重

BI技术介绍 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数38
  • 收藏数0 收藏
  • 顶次数0
  • 上传人q1188830
  • 文件大小0 KB
  • 时间2015-12-31