下载此文档

Hadoop MapReduce工作流程.docx

文档分类：办公文档 | 页数：约2页举报非法文档有奖

1/2

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/2 下载此文档

文档列表 文档介绍

Hadoop MapReduce工作流程
MapReduce 就是将输入进行分片，交给不同的 Map 任务进行处理，然后由 Reduce 任务合并成最终的解。
MapReduce 的实际处理过程可以分解为 Input、Map、Sort、Combine、Partition、Reduce、Output 等阶段，具体的工作流程如图 1 所示。
图 1 MapReduce 的工作流程
在 Input 阶段，框架根据数据的存储位置，把数据分成多个分片（Splk），在多个结点上并行处理。
Map 任务通常运行在数据存储的结点上，也就是说，框架是根据数据分片的位置来启动 Map 任务的，而不是把数据传输到 Map 任务的位置上。这样，计算和数据就在同一个结点上，从而不需要额外的数据传输开销。
在 Map 阶段，框架调用 Map 函数对输入的每一个进行处理，也就是完成 Map→List() 的映射操作。图 1 为找每个文件块中每个字母出现的次数，其中，K1 表示字母，V2 表示该字母出现的次数。
在 Sort 阶段，当 Map 任务结束以后，会生成许多形式的中间结果，框架会对这些中间结果按照键进行排序。图 1 就是按照字母顺序进行排序的。
在 Combine 阶段，框架对于在 Sort 阶段排序之后有相同键的中间结果进行合并。合并所使用的函数可以由用户进行定义。在图 1 中，就是把 K2 相同（也就是同一个字母）的 V2 值相加的。这样，在每一个 Map 任务的中间结果中，每一个字母只会出现一次。
在 Partition 阶段，框架将 Combine 后的中间结果按照键的取值范围划分为 R 份，分别发给 R 个运行 Reduce 任务的结点，并行执行。分发的原则是，首先必须保证同一个键的所有数据项发送给同一个 Reduce 任务，尽量保证每个 Reduce 任务所处理的数据量基本相同。
在图 1 中，框架把字母 a、b、c 的键值对分别发给了 3 个 Reduce 任务。框架默认使用 Hash 函数进行分发，用户也可以提供自己的分发函数。
在 Reduce 阶段，每个 Reduce 任务对 Map 函数处理的结果按照用户定义的 Reduce 函数进行汇总计算，从而得到最后的结果。在图 1 中，Reduce 计算每个字母在整个文件中出现的次数。

Hadoop MapReduce工作流程来自淘豆网m.daumloan.com转载请标明出处.