Hadoop MapReduce Shuffle and Sort.pdf


文档分类:IT计算机 | 页数:约3页 举报非法文档有奖
1/3
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/3
文档列表 文档介绍
想要出类拔萃,就要努力至少一万小时
Hadoop MapReduce Shuffle and Sort
分类: Hadoop-MapReduce 2013-11-21 22:00 100人阅读评论(0) 收藏举报
hadoopmapreduce
Hadoop 确保每个reduce 的输入都是按 key 排序的。系统执行排序的过程称为shuffle.
Map 端,map 产生输出时,并不是简单的把数据写到磁盘。会先缓冲在内存中,并进行一些预排序。
每个map 任务都有一个环形内存缓冲区,默认为100M,,一旦缓冲区内容达到
80%(,),后台线程会把内容写到磁盘中。
输出会写到由  设置的目录中。
在数据被写入磁盘之前,会根据reduce数目进行分区(partitions)动作。在每个分区中,进行排序,然后运
biner,减少写到磁盘中的数据。
一旦内存缓冲区达到输出限制,会新建一个溢出写文件,在map任务完成前,会有几个溢出写文件。多个溢出写文件
会被合并成一个已分区且已排序的输出文件。默认一次合并10个文件,通过  。
如果剩下多于3个溢出文件(),biner
可以对map输出压缩,设置
 和  属性。
Reduce端,map 输出文件位于运行map任务的tasktracker的本地磁盘。reduce 任务需要集群上若干个map 任务的输
出。
只要有一个map任务完成,reduce任务就开始复制输出。reduce有多个复制线程可以并行运行。可以通
过  设置并行复制线程数,默认为5.
如果 map 输出小于  设置 JVM heap大小,就会被复制到
reduce tasktracker 的内存中,否则被复制到磁盘中。如果内存占用达
到  定义或复制的 map 输出数达
1
到  定义或复制的 map 输出数达
到  ,就会合并到磁盘,biner,减少写到磁盘中的数据。
当所有 map 输出都被复制完后,reduce 进入 sort 阶段。在这个阶段,根据 
子,进行循环处理。例如合并因子设置为10(默认),有50个map 输出,会进行5次合并,每次合并10个map 输出,做
后会得到5个中间文件,最后把5个中间文件传递给reduce 函数.
更多
上一篇:Hadoop HDFS 添加节点
下一篇:Hadoop Pig 安装
查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场

核心技术类目
全部主题 Java

Hadoop MapReduce Shuffle and Sort 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数3
  • 收藏数0 收藏
  • 顶次数0
  • 上传人紫岑旖旎
  • 文件大小0 KB
  • 时间2013-12-21
最近更新