Hadoop性能调优
詹坤林
2010年4月
目录
Hadoop性能调优方法
Hadoop配置文件
Hadoop Job介绍
Hadoop作业调度
Hadoop性能调优方法
背景
Map/Reduce工作模型可扩展性高,具有很好的容错能力。
Hadoop运行在越来越多的集群上,性能优化逐渐成为一个重要的话题。
两种方法
从Hadoop配置文件入手,经历大量的实验,以求通过改变一些配置参数以提高Hadoop集群的性能。
从Hadoop作业调度入手,优化集群作业调度算法。
Hadoop配置文件
配置文件简介
Core-
Hdfs-
Mapred-
基于配置文件的性能调优总结
Hadoop配置文件简介
作用
大量实验证明,合理的配置会大大提高Hadoop集群的性能。
Hadoop有一个默认的配置(),可是这并不适合所有集群。各个集群之间在机器和硬件上都存在或多或少的差别。每个Hadoop框架应该根据其独有的集群做配置优化。
配置文件的演变
早期版本中,配置文件是hadoop--。前者做了默认配置,用户需要配置时可以在后者中设置,hadoop启动时先加载后者。
随着hadoop代码量越来越庞大,Hadoop项目拆解成了三个部分进行独立开发,配置文件也分离开来。 ,Hadoop将配置文件更改为core-、hdfs--,但是相关参数未做改变。这些文件默认情况下未设定任何参数。
Hadoop配置文件在conf目录下
Core-
介绍
Hadoop Core is renamed mon.
MapReduce and the Hadoop Distributed File System (HDFS) are now separate subprojects.
该文件中是集群的一些基本参数,与Hadoop部署密切相关,但对于性能优化,作用不大。
相关参数
主节点地址。
集群的临时文件存放目录,应设置为本地目录。
系统I/O的属性,读写缓冲区的大小。
块压缩时块的最小大小。
压缩块解压的相关参数。
Hdfs-
介绍
这个文件与HDFS子项目密切相关,其参数对集群性能调整具有很大影响。
相关参数
- secondary namenode节点web网址。
- 数据块副本数量,默认为3,当数据块创建时将按此值创建副本数量。
- 数据块大小,默认是64M,对于大型文件可以设置更大(如128M)。
- namenode节点上为处理datanode节点来的远程调用开启的服务线程数量,(默认是10),大型集群时可以设置更大,例如64。
- datanode节点上为处理datanode节点的远程调用开启的服务线程数量,默认为3。当有很多HDFS客户端时可以设置更大,例如8.
Mapred-
介绍
这个文件与map/reduce计算框架密切相关,其参数对集群性能调整具有很大影响。
相关参数
- Job tracker地址
- job tracker上开启的处理task trackers传过来的RPC的服务线程的数量,一般粗糙的设置为task tracker节点数量的4%。
- 每个job的map任务数量,经常设置成与集群中存在的主机数量很接近的一个数值。
- 每个job的reduce任务数量,经常设置成与集群中存在的主机数量很接近的一个数值。
一个task tracker上可以同时运行的map任务的最大数量。
一个task tracker上可以同时运行的reduce任务的最大数量。
基于配置文件的性能调
Hadoop性能调优 来自淘豆网m.daumloan.com转载请标明出处.