大数据存储技术研究 3013218099 软工二班张敬喆 。从一般意义上讲, 大数据是指无法在可容忍的时间内, 用现有信息技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。近年来, 大数据的飙升主要来自人们的日常生活, 特别是互联网公司的服务。据著名的国际数据公司(IDC) 的统计, 2011 年全球被创建和复制的数据总量为 (1ZB=1021B) ,其中 75% 来自于个人(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料的数据总量(200PB , 1PB=1015B) 。然而, 与大数据计算相关的基础研究, 诸如大数据的感知与表示、组织与存储、计算架构与体系、模式发现与效应分析等, 目前还没有成体系的理论成果。对于大数据计算体系的研究, 一方面, 需要关注大数据如何存储, 提供一种高效的数据存储平台; 另一方面, 为了应对快速并高效可靠地处理大数据的挑战,需要建立大数据的计算模式以及相关的优化机制。 ,过去十年间在数据处理技术领域有了很多的创新和发展。除了面向高并发、短事务的 OLTP 内存数据库外( Altibase , Timesten ), 其他的技术创新和产品都是面向数据分析的,而且是大规模数据分析的,也可以说是大数据分析的。在这些面向数据分析的创新和产品中,除了基于 Hadoop 环境下的各种 NoSQL 外, 还有一类是基于 Shared Nothing 架构的面向结构化数据分析的新型数据库产品(可以叫做 NewSQL ),如: Greenplum ( EMC 收购), Vertica ( HP 收购), Asterdata ( TD 收购), 以及南大通用在国内开发的 GBase 8a MPP Cluster 等。目前可以看到的类似开源和商用产品达到几十个, 而且还有新的产品不断涌出。一个有趣的现象是这些新的数据库厂商多数都还没有 10 年历史, 而且发展好的基本都被收购了。收购这些新型数据库厂商的公司, 比如 EMC 、 HP , 都希望通过收购新技术和产品进入大数据处理市场, 是新的玩家。 SAP 除了收购 Sybase 外,自己开发了一款叫 HANA 的新产品,这是一款基于内存、面向数据分析的内存数据库产品。这类新的分析型数据库产品的共性主要是: 架构基于大规模分布式计算( MPP );硬件基于 X86 PC 服务器;存储基于服务器自带的本地硬盘;操作系统主要是 Linux; 拥有极高的横向扩展能力( scale out )和内在的故障容错能力和数据高可用保障机制; 能大大降低每 TB 数据的处理成本,为“大数据”处理提供技术和性价比支撑。总的来看, 数据处理技术进入了一个新的创新和发展高潮, 机会很多。这里的主要原因是一直沿用了 30 年的传统数据库技术遇到了技术瓶颈, 而市场和用户的需求在推动着技术的创新, 并为此创造了很多机会。在大数据面前, 越来越多的用户愿意尝试新技术和新产品, 不那么保守了, 因为大家开始清晰地看到传统技术的瓶颈, 选择新的技术才有可能解决他们面临的新问题。 1. 大数据重复数据删除技术在大数据时代,数据的体量和增长速度大大超过了以往,其中重复数据也在不断增大。国际数据公司通过研究发现在数字世界中有近 75 %的数据是重复的,企业战略集团(Enterprise Strategy Group, ESG) 指出在备份和归档存储系统中数据的冗余度超过 90 %。因此,高效的重复数据删除技术(Cluster Deduplica-tion) 成为缩减数据占用空间并降低成本的关键。然而,由于这项技术是计算密集型和读写(I/O) 密集型的技术,特别是重复删除运算相当消耗运算资源, 要进行大量的读写处理, 因此现有系统在存取性能方面还存在很多问题需要解决。在大数据存储环境中, 将集群重复数据删除技术有效地融入分布式集群存储架构中, 可使存储系统在数据存储过程中对重复冗余数据进行在线去重, 并在存储性能、存储效率以及去重率等方面得到优化。 2. 具有重复数据删除功能的分布式存储架构通过设计并实现具有重复数据删除功能的分布式文件系统, 可使其具备高去重率、高可扩展性、高吞吐率等特征。分布式重复数据删除系统的架构包括客户端、元数据服务器和数据服务器三部分(见图 1 )。客户端主要提供集群重复数据删除系统对外的交互接口,并在所提供的文件操作接口中实现基于重复数据删除的存储逻辑和对数据的预处理, 如数据块的划分与“指纹”的提取。元数据服务器实现了对元数据存储、集群的管理与维护,包括管理在数据存储过程中整个会话, 保存与管理分布式文件系统中的元数据, 管理和维护系统存储状况,指
大数据存储的技术研究 来自淘豆网m.daumloan.com转载请标明出处.