Hadoop读书报告
姓名:韩传源
学号:2011E8015061103
培养单位:软件研究所
目录
Hadoop简介 3
Haddop架构 3
Hadoop项目组成 3
Hadoop分布式文件系统HDFS 4
HDFS 4
NameNode 4
DataNode 4
分布式数据处理MapReduce 5
分布式结构化数据表HBase 5
逻辑模型 5
物理模型 6
参考文献 6
Hadoop简介
Hadoop是Apache开源组织的一个分布式计算框架,可以在大量廉价的硬件设备组成的集群上运行应用程序,为应用程序提供了一组稳定可靠的接口,旨在构建一个具有高可靠性和良好扩展性的分布式系统。
它主要有以下几个优点:
1、高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
2、高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
3、高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
4、高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
Haddop架构
Hadoop 有许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS的上一层是 MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。
Hadoop 集群的简化视图
Hadoop项目组成
Hadoop Common
Avro
Chukwa
HBase
HDFS
Hive
MapReduce
Pig
ZooKeeper
Hadoop分布式文件系统HDFS
HDFS
对外部客户机而言,HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是 HDFS 的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在 HDFS 内部提供元数据服务;DataNode,它为 HDFS 提供存储块。
NameNode
NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。
DataNode
DataNode 也是一个通常在 HDFS 实例中的单独机器上运行的软件。Hadoop 集群包含一个 NameNode 和大量 DataNode。DataNode 通常以机架的形式组织,机架通过一个
交换机将所有系统连接起来。
分布式数据处理MapReduce
MapReduce处理的任务基本要求:待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。
映射阶段,用户输入的数据分割为M个片断,对应M个Map任务。每一
Hadoop读书报告 来自淘豆网m.daumloan.com转载请标明出处.