大数据分析之数据仓库
导读
数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。而数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。
数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。而数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。
大数据分析之数据仓库
数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。
(一)数据仓库的特点:
面向主题的,按照一定的主题进行组织,主题是指用户使用数据仓库进行决策时所关心的重点方面,后面会重点举例说明。
数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工和集成之后,进入数据仓库。
数据仓库是不可更新的,数据仓库主要是为决策分析供数据,所涉及的操作主要是数据的查询;
(二)数据仓库的要求:
效率足够高:数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高。
数据质量:由于数据仓库流程通常分为多个步骤,包括数据清洗,转换,装载等,那么由于脏数据会导致数据失真,就可能导致做出错误的决策。
可扩展性:主要体现在数据建模的合理性。
(三)数据仓库的基本架构:
数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——数据获取、数据仓库、数据应用。
数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra,转化Transfer,装载Load)的过程。ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。
对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的数据及各种用户操作的结果,其他是网站内外部可能其它各类对于公司决策有用的数据。
:
数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。在这里,数据模型表现的抽象的是实体和实体之间的关系,通过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系。
数据仓库模型是数据模型中针对特定的数据仓库应用系统的一种特定的数据模型
通过上图,我们能够很容易的看出在整个数据仓库的建模过程中,我们需要经历一般四个过程:
业务建模:生成业务模型,主要解决业务层面的分解和程序化。
领域建模:生成领域模型,主要是对业务模型进行抽象处理,生成领域概念模型。
逻辑建模:生成逻辑模型,主要是将领域模型的概念实体以及实体之间的关系进行数
大数据分析之数据仓库 来自淘豆网m.daumloan.com转载请标明出处.