Study on theEnergy-conserving Strategies of File StorageforNewsBig DataA Thesis Submitted to Chongqing Universityin Partial Fulfillment of the Requirement for theMaster’s Degree ofEngineeringByYangLeiSupervised by Prof. Zhong JiangSpecialty: Computer Software and TheoryCollege puter ScienceChongqing University,Chongqing,ChinaApril,2015中文摘要I摘要随着大数据时代的到来,作为其基础服务载体的数据中心也随之迅猛发展。大数据产业繁荣的背后,带来的却是耗电量暴涨、环境污染增加、土地资源消耗等不可避免的问题。就能耗而言,耗电量的成倍增长直接导致运营和管理的成本上升,因此降低数据中心的能耗,特别是降低服务器集群的能耗,就成了学术界和工业界共同关心的重大问题。本文以数据量日益增长的新闻类网站为对象,深入分析和研究了新闻网站的访问日志数据,初步探寻出新闻类数据的访问规律。本文将这些访问规律引入到目前广泛使用的Hadoop分布式文件系统(HDFS)中,对其进行有针对性的改进和优化,使HDFS最终具备节能和数据分布自均衡的特点。具体来说,本文提出了数据节点分区、最大剩余空间节点匹配、文件迁移和节点待机四条节能策略。数据节点分区策略将整个集群逻辑上分为“冷”、“热”两个区域,以便实施不同的管理方法,达到节能的目的;最大剩余空间节点匹配策略专门针对数据分布均衡的问题,又分为活动状态节点优先(Active State NodePriority,简记为ASNP)匹配和低于平均使用率节点优先(Lower than Average utilization rate NodePriority,简记为LANP)匹配两种方案,其中前者方案能达到更好的节能效果,后者方案能实现数据分布自均衡,从而在一定程度上平衡集群的负载;文件迁移策略则保证了新闻数据在其热门期的高效访问,同时又能为热区的节点减轻负载,降低冷区节点的能耗;节点待机策略将冷区中没有任务的节点置为待机省电状态,避免了“空转”现象的发生,减少了集群的整体能耗。为了研究和验证节能存储策略在HDFS中应用的效果,本文还开发了面向节能存储策略研究的HDFS仿真实验平台,平台通过模拟新闻文件被创建和访问的调度过程,加入了可拔插的节能策略模块,最终输出仿真结果。本文以维基英文新闻网站一个月的访问日志作为实验数据集,经过预处理后,在本文节能策略的作用下,实验结果表明:使用本文节能策略的HDFS比传统HDFS节能20%-34%,如果同时采用低于平均使用率优先的最大剩余空间节点匹配策略,则可现实集群数据分布的自均衡,另外,%以上的读文件操作响应时间都不受本文节能策略的影响,证明了策略的可行性。关键词:文件存储,节能策略,数据分布均衡,仿真平台重庆大学硕士学位论文II英文摘要IIIABSTRACTWith the advent of the era of big data, the data center which is as part of its basic service has been booming. Theproblem of thegrowth of energy consumption, environmental pollution, the consumption of land resources and other issues einevitable behind theprosperityof big data industry. Because of power consumption multiplied, the cost ofoperation andmanagement is also increasing. So how to reduce theenergy consumption ofthe data center especially the consumption of server cluster has ethemajor issueof common concernin both academia and paper based on the news website which the amount of d
面向新闻大数据的节能存储策略研究 来自淘豆网m.daumloan.com转载请标明出处.