摘 要
基于 HDFS 的云数据备份系统的设计与实现
作为一种数据安全策略,备份是避免数据丢失的最基本也是最后的手段。云
存储技术的出现为数据备份提供了新思路。云存储以下方面的特点适合于数据备
份:云存储提供完整的数据存储服务,用户可以得到一个智能的备份软件以及一
个管理完善的存储容量;云存储仅仅是对数据进行备份,用户不必担心失去对原
始数据的控制;云存储服务具有价格上的优势,备份同样规模的数据,云存储所
需的费用远比购置存储设备建立数据中心成本上要低廉的多。
本文设计实现了基于云存储软件 HDFS 的数据备份系统-HBDBS(HDFS Based
Data Backup System),该系统充分利用云存储技术的优势,应用企业已有的廉
价计算机设备建立数据备份集群,满足用户数据备份/恢复业务的需要。
该系统分为客户端、备份服务器和 HDFS 集群三个部分。
客户端是用户需要进行数据备份/恢复服务的计算机节点,按照地域、网络
带宽等分成若干个群,当需要进行数据备份或者恢复时,他们向负责本群的备份
服务器提出请求,得到许可后进行文件的备份和恢复操作。
备份服务器是客户端和HDFS集群间的数据备份和恢复的桥梁,由多个高性
能、大存储量的服务器构成,每个服务器负责一个客户端群。他们接受客户端的
备份恢复请求,对用户进行身份验证并缓存客户端的数据。针对HDFS适合于大
文件存储的特点,备份服务器通过设置上传阈值的策略对小文件进行合并上传备
份以提高系统性能。备份服务器同时保存客户端备份文件的映像表,当客户端提
出恢复请求时,从HDFS集群中读取备份文件,按照文件映像表发送给客户端。
HDFS 集群由安装了 HDFS 软件的计算机构成,向备份服务器提供备份、恢
复服务,实现系统的核心功能。HDFS 集群由一个 Namenode 和一定数目的
Datanodes 组成。Namenode 执行文件系统的名字空间操作,也负责确定数据块到
具体 Datanode 节点的映射;DataNode 用于存储数据,由企业内部大量廉价计算
机配置而成,并且可以根据备份数据的规模进行动态扩展。
I
本文设计的基于 HDFS 的云数据备份系统在安全性、可扩展性、经济性及可
靠性上均具有一定的优势:
安全性:备份服务器通过用户身份认证等措施保证客户端与备份服务器间的
安全;通过 Hadoop 的安全机制实现了备份服务器和 HDFS 集群的通信与数据传
输安全。
可扩展性:借助 Hadoop 软件强大的存储可扩展和计算可扩展能力,可以根
据需要随时扩展 HDFS 集群的规模,增加系统的备份能力。
经济性:HDFS 是专门针对廉价硬件设计的分布式文件系统,具有良好的兼
容性,任何计算机都可以通过安装该软件加入备份集群。因此可以充分利用企业
已有大量闲置廉价计算机资源,节省设备采购的开销。
可靠性:备份文件在 HDFS 集群中以多副本的形式进行保存,同时还可以根
据文件的重要程度,增加副本的份数,提高可靠性。
云存储技术是新兴的技术,我们下一步的目标是研究如何能够让该技术在数
据备份领域发挥更大的作用。
关键词:
云计算,云存储,数据备份系统,HDFS
II
ABSTRACT
The design and implement of HDFS Based Cloud Data
Backup System
As a data security strategy, backup is the last
基于HDFS的云数据备份系统的设计与实现 来自淘豆网m.daumloan.com转载请标明出处.