下载此文档

BI技术介绍概述.ppt


文档分类:IT计算机 | 页数:约38页 举报非法文档有奖
1/38
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/38 下载此文档
文档列表 文档介绍
BI 技术介绍郭春选 2010-3-31 2 目录?数据仓库?OLAP ?ETL 与数据质量 3 什么是数据仓库“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”— W. H. Inmon 数据仓库的数据是面向主题:典型的主题领域:客户;产品;交易;帐目数据仓库的数据是集成的:异构数据、数据提取、净化、转换、装载、编码统一数据仓库的数据是不可更新的:数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新数据仓库的数据是随时间不断变化的: 数据仓库中的时间期限要远远长于操作型系统中的时间期限( 5~10 年); 数据仓库中的数据是一系列某一时刻生成的复杂的快照; 数据仓库的键码结构总是包含某时间元素。 4 为什么要建独立数据仓库术业有专攻,各类系统分工不同 DBMS ( DataBase Managment System )是为 OLTP ( On-Line Transaction Processing )而设计的:存储方式,索引, 并发控制, 恢复,目前在电信中, DBMS 主要负责业务支撑。数据仓库是为 OLAP ( On-Line Analysis Processing )而设计:复杂的 OLAP 查询, 多维视图,汇总,电信企业有海量的历史数据,需要总结历史经验,为企业更好的服务。数据来源、应用与处理方式不同历史数据: 决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总) 数据质量: 不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成我的 E家ARPU 真的这么高?小 X,确认一下! 是啊,真这么高?请支撑中心提数据分析下…… CRM 系统提供 E家档案……计费系统提供 E家收入……财务部提供 E家成本…… CRM 和计费的 E家档案有差异!以哪个为准? 南京不分档,南通分档, 全省分还是不分? 财务不知道哪些成本是 E家的………… 5 数据孤岛口径不一致数据驱动数据获取层数据存储层数据访问层 BOSS MIS OA 数据仓库数据集市即席 E I S 数据集市元数据数据仓库经营分析系统合作服务方分析服务质量分析营销管理分析数据业务分析客户情况分析业务发展分析收益情况分析市场竞争分析大客户分析统计中心?通过数据仓库的建设把不同系统中的口径统一化,通过 KPI 、OLAP 、固定报表等一系列基础统计应用建设,有效解决了数据分裂和口径的问题,为决策层提供数据支撑。为什么要建独立数据仓库 6 一些关键知识点 ETL: ETL (Extract/Transformation/Load )—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别,粒度问题是数据仓库的一个最重要概念。粒度的具体划分将直接影响到数据仓库中的数据量以及查询质量。数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。元数据关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义, 转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。分割指将数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。分割后的数据单元称为分片(区) 。任何给定的数据单元属于且仅属于一个分割。 7 数据仓库的数据粒度结构数据仓库的数据级别(粒度) 高度综合级轻度综合级当前细节级早期细节级元数据 1 9 9 5 ~ 2 0 0 4 年月销售表 2 0 0 0 ~ 2 0 0 4 年周销售表 2 0 0 0 ~ 2 0 0 4 年销售情况表 1 9 9 5 ~ 2 0 0 0 年销售明细表实例早期细节数据:存储过去的详细数据,反映真实的历史情况,这类数据随着时间增加,数据量很大, 使用频率低,一般存储在转换介质中。(例如磁带中) 当前细节数据:存储最近时期的业务数据,反映当前业务的情况,数据量大,是数据仓库用户最感兴趣的部分。随着时间的推移,当前细节数据由数据仓库的时间控制机制转为早期细节数据。轻度综合数据:从当前基本数据中提取出来,通常以较小的时间段(粒度)统计而成的数据,其数据量较细节及数据少得多。高度综合数据:这一层的数据十分精炼,是一种准决策数据。 8 数据仓库建设方法-自顶向下建造企业数据仓库建设中心数据模型一次性的完成数据的重构工作最小化数据冗余度和不一致性存储详细的历史数据从企业数据仓库中建造数据集市得到大部分的集成数据直接依赖于数据仓库的可用性问题投资效益的时间?建设中心数据模型的必要性和可

BI技术介绍概述 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数38
  • 收藏数0 收藏
  • 顶次数0
  • 上传人s0012230
  • 文件大小0 KB
  • 时间2016-04-21