下载此文档

数据湖——一种更好的大数据存储架构.doc


文档分类:IT计算机 | 页数:约1页 举报非法文档有奖
1/1
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/1 下载此文档
文档列表 文档介绍
数据湖——一种更好的大数据存储架构.docE-mai第******@T30•期ft(2016 年 10 月)

4
ISSN 1009-3044
ComputerKnowledgeandTechnology电脑知识与技术
Tel:+86-551-65690963 65690964
Vcl12 Nc30 CCtcbar2016
数据湖一一一种更好的大数据存储架构
郭文惠
(西安石油大学 计算机学院,陕西西安710065)
摘要:“数据湖”是通过将原始数据分类存储到不同数据池, 并在各数据池里将数据整合转化成容易分析的统一存储格式
进行存储,以方便用户对大量原始数据池中原本几近废弃的数据加以分析利用, 从而产生经济效益。该文首先介绍了数
据湖的结构,其次介绍了数据湖中各数据池的特点及应用; 最后介绍了各数据池之间的联系并举例说明了数据湖的架构。
关键词:数据湖;数据池
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)30-0004-03
E-mai第******@T30•期ft(2016 年 10 月)

4
DCI:.
随着计算机技术的迅速发展, 数据量日益增多,因而大数
据管理[3]也是大数据发展中的一大挑战。数据池可存储大量 不同来源、格式各异的数据的存储空间,而数据湖[125]则是包含 多个数据池的存储空间,而且每个数据池中的数据都是来源相 同并在池内进行整合形成格式统一的数据。目前使用的数据 湖大多都是单向的,即这些数据湖的功能只是存储大量废弃数 据,因未对其中数据进行分类、整合[3,4],故无法将这些数据提取 并加以利用。原因有如下三点:一是这些废弃数据存储到数据 湖中时没有对其进行类别标记;二是存储时没有对同类数据进 行整合;三是数据存储为文本方式,给数据分析带来困难。
为使得数据湖不再是“数据沼泽[6]”,本文将介绍一种双向 数据湖,即既可存储数据又可对数据湖中的数据加以分析和使 用,方法是将单向数据湖分割为五个不同类型的数据池, 包括
原始数据池、模拟数据池、应用数据池、文本数据池和档案数据 池,分别用来存储不同类型的数据并对它们之间建立联系来共 享信息。用户可大量提取数据湖中的数据, 找出数据间的联
系,进而用于特定的商业分析。
1数据池
数据池是用来存放数据的,一个数据池中一般包含如下几 种数据:
目标数据:数据池内存储的真正能对其加以分析使用的数 据。
池元数据:是描述池内数据物理特性的数据,如口:数据的存 储结构和数据池的组成等。
元处理过程:是说明将数据池内的原始数据转化为可用的 标准化数据的步骤的文件。
数据转化标准:是说明转化原始数据时应遵循的标准的文 件。
池描述:池描述包含对数据池的外部描述和内部描述。外 部描述包括数据池的功能、大小等。内部描述包括数据池内数 据的来源、体积、更新频率、提取、转化及其标准以及数据之间 的联系等。
池目标:池目标是说明池内的数据未来可能要用于什么样 的商业活动,是将数据标准化的依据。

原始数据池是一种单一数据湖。它仅仅是存储大量原始 数据,不对其进行任何处理,但难以从中

数据湖——一种更好的大数据存储架构 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数1
  • 收藏数0 收藏
  • 顶次数0
  • 上传人3144187108
  • 文件大小55 KB
  • 时间2021-08-20