大数据存储架构和算法研究综述
摘要:
随着大数据计算需求的增长,集群的处理速度需要得到快速的提升,然而目前大数据处理框架的处理性能已逐渐满足不了这种快速增长的需求。由于集群的存储架构是分布式存储,因此数据的存放在大数据处理过程中成为影响集群的处理性能的因素之一。首先,对当今的分布式文件存储系统的结构进行了介绍;接着,根据不同的优化目标,例如减少网络负载、负载均衡、降低能耗和高容错性等,对近年国内外大数据存储算法的研究进行了总结,分析和对比了已有算法的优点以及存在的问题;最后,对大数据存储架构和优化算法设计的挑战和未来研究方向作了展望。
关键词:
大数据;数据部署;分布式文件系统;MapReduce;Hadoop
中图分类号:
TP393
文献标志码:A
Abstract:
With the growing demand of big puting, the processing speed of the cluster needs to be improved rapidly. However, the processing performance of the existing big data framework can not satisfy the requirement of puting development gradually. As the framework of the storage is distributed, the placement of data to be processed has e one of the key factors affecting the performance of the cluster. Firstly, the current distributed file system structure was introduced. Then the popular data placement algorithms were summarized and classified according to different optimization goals, such work load balance, energy saving and fault tolerance. Finally, future challenges and research directions in the area of storage framework and algorithms were presented.
英文关键词Key words:
big data; data placement; distributed file system; MapReduce; Hadoop
0引言
随着互联网的高速发展和迅速普及,我们已经进入了一个信息爆炸型的时代,大数据处理的需求正在迅速增加,在科学、工业、商业等领域,信息处理量达到TB级甚至PB级已是正常现象。因此,寻求优秀的大数据处理模型对于处理数据密集型应用是非常重要的。
相对于传统的数据,人们将大数据的特征总结为5个 V,即数据量大、速度快、类型多、难辨识和价值密度低[1]。数据量大仍可以靠扩展储
大数据存储架构和算法研究综述 来自淘豆网m.daumloan.com转载请标明出处.