下载此文档

大数据存储技术.docx.doc


文档分类:IT计算机 | 页数:约13页 举报非法文档有奖
1/13
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/13 下载此文档
文档列表 文档介绍
大数据存储技术刘雷1,杜鹏程2,贺俊铭3,孔庆春4,张莉莉51,2,3,4,5(清华大学计算机科学与技术系,北京100084)Abstract:paredwiththetraditionaldatawarehouseapplications,plexqueryanalysis,,thetraditionalstoragetechnologycannotmeettheneedsoflargedatastorage,dataresourcesthroughtheETLtechnologywasextractedfromthesourcesystem,andisconvertedintoastandardformat,essmanagement,workcloudstoragetechnologyenterprisestoragecostsaving,efficiencyadvantage,workresources,usingvisualoperatinginterfacetosatisfytheuser':Dataacquisition(ETL),ess(NoSQL),cloudstorage,distributedfilesystems,visualization摘要:大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据存储由于其本身存在的4V特征,传统的存储技术不能满足大数据存储的需要,通过ETL技术数据资源被从源系统中提取,并被转换为一个标准的格式,再使用NoSQL数据库进行数据库存取管理,充分利用网络云存储技术节约企业存储成本,提高效率的优势,通过分布式网络文件系统将数据信息存储在整个互联网络资源中,并用可视化的操作界面随时满足用户的数据处理需求。关键词:数据采集(ETL)、数据存取(NoSQL)、云存储、分布式文件系统、可视化1引言在学术界,Nature早在2008年就推出了BigData专刊[1]。munityConsortium)在2008年发表了报告《puting:merce,science,andsociety》[2],阐述了在数据驱动的研究背景下,解决大数据问题所需的技术以及面临的一些挑战。Science在2011年2月推出专刊《DealingwithData》[3],主要围绕着科学研究中大数据的问题展开讨论,说明大数据对于科学研究的重要性。美国一些知名的数据管理领域的专家学者则从专业的研究角度出发,联合发布了一份白皮书《ChallengesandOpportunitieswithBigData》[4]。该白皮书从学术的角度出发,介绍了大数据的产生,分析了大数据的处理流程,并提出大数据所面临的若干挑战。业界通常用Volume、Variety、Value和Velocity(简称为“4V”,即数据体量巨大、数据类型繁多、价值密度低和处理速度快)四个特征来显著区分大数据与传统数据。大数据技术是一个整体,没有统一的解决方案,本文从大数据生命周期过程的角度讨论了ETL技术、NoSQL、云存储、分布式系统、数据可视化等5个部分。2ETL技术随着信息化进程的推进,人们对数据资源整合的需求越来越明显。但面对分散在不同地区、种类繁多的异构数据库进行数据整合并非易事,要解决冗余、歧义等脏数据的清洗问题,仅靠手工进行不但费时费力,质量也难以保证;另外,数据的定期更新也存在困难。如何实现业务系统数据整合,是摆在大数据面前的难题。ETL数据转换系统为数据整合提供了可靠的解决方案。ETL是Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。它可以批量完成数据抽取、清洗、转换、装载等任务,不但满足了人们对种类繁多的异构数据库进行整合的需求,同时可以通过增量方式进行数据的后期更新。ETL体系结构体现了主流ETL产品的主要组成部分[5],其体系结构如图1:图1ETL体系结构ETL过程中的主要环节就是数据抽取、数据转换和加工、数据装载[6]。为了实现这些功能,各个ETL工具一般会进行一些功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持、统计信息等。[7]。实际应用中,不管数据源采用的是传统关系数据库还是新兴的NoSQL数据库,数据抽取一般有以下

大数据存储技术.docx 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数13
  • 收藏数0 收藏
  • 顶次数0
  • 上传人xxj16588
  • 文件大小0 KB
  • 时间2016-03-04