下载此文档

基于云存储的重复数据删除备份系统.doc


文档分类:IT计算机 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
基于云存储的重复数据删除备份系统
一、项目研究背景)
项目背景
随着信息化系统广泛应用,大型数据中心的数据存储设备的容量由于数据信息呈指数级增长而快速趋于饱和。同时,由于以自然灾难、人为恶意灾难为代表的各种灾难性事件频发,企事业单位正面临着业务量激增和信息备份间隔缩短双重压力,管理数据成本(包括存储成本、空间成本、功耗成本等综合)显著增加,提高数据存储效率已经成为当前数据备份研究的热点问题。
研究同时发现,应用系统中的数据信息的冗余度很高,存在大量重复的文件或数据块。为此,人们提出了重复数据删除技术,以消除分布在存储系统中的冗余信息,降低信息存储成本。
重复数据删除是一种数据缩减技术,旨在减少存储系统中实际使用的存储容量。其核心思想是在存储系统中只保留不同内容的数据,当数据中心进行数据添加或更新时,如果新数据和存储系统中已有数据内容相同,则不直接保存该新数据,而是在新数据位置上保存指向已有数据块的指针。由于指针占用空间远远低于数据占用空间,因此,采用重复数据删除技术可以有效地减少数据在实际存储系统中的存储容量。

Rsync较早的研究了消除冗余数据,以减少服务器间的数据传输量,但该研究主要针对同名文件,而没有考虑不同文件间的冗余数据。Muthitacharoen等人使用基于内容的切块算法,在数据块级别上移除冗余数据,以提高网络文件系统的性能。Jain等人使用4阶段的重复数据删除方案来权衡网络带宽的开销和计算资源的消耗。但这些研究都没有顾及如何提高重复数据删除系统的吞吐量和响应率,而这对云存储系统却是至关重要的。
部分研究旨在提高重复数据删除系统效率。Zhu等人在DDFS中,结合Summary vector、Stream-informed segment Layout和Locality-preserved Caching技术来减少磁盘I/O次数,提高缓存击中率,进而提高重复数据删除性能。然而,其内存开销随系统规模增大而增加,且适用于单机系统,难以应用到大规模、高性能、分布式删重系统中。Lillibridge等人是一种基于相似性检测的块级重复数据删除技术Sparse Indexing,通过稀疏索引将新数据段样本指纹映射到旧数据段,选取相似性高的进行比照来消除重复数据。相较于DDFS,它内存开销较小,但其容许重复数据存储,删重效果取决于负载冗余局部性的好坏和指纹抽样率,而且采用的是单服务器集中式架构,系统规模受服务器内存空间限制,难以应用到大规模分布式系统中。
二、项目技术特点、技术指标和有关图表及图片
技术特点
本项目将用户备份到云端的数据,与已存储数据做比对删重后进行备份,减少备份的数据量,提高数据备份的效率。
技术指标
(1)能进行数据的实时内嵌删冗;
(2)每数字指纹平均查询时间小于100微秒;
(3)单节点每秒数字指纹处理速度大于10万次;
(4)单机能够支持的外挂待删冗磁盘容量不低于16TB。

图1 查重算法示意图
三、项目内容和技术方案
项目内容
本项目针对广域网带宽较低的特点,对于用户将要备份到云端的数据,利用重复数据删除的方法,基于内容将文件切成很多数据块块,通过计算数据块的哈希值并和已有数据块的哈

基于云存储的重复数据删除备份系统 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wo1230
  • 文件大小0 KB
  • 时间2014-11-06