Hadoop 综述主要内容 2 ?第一篇 HDFS 分布式文件系统?第二篇 MapReduce ?第三篇 Hbase 简单介绍第一篇 HDFS 3 一: The Design of HDFS 二: HDFS Concepts 三:应用程序示例四: Data Flow 第二篇 MapReduce 4 一:M apReduce 基础二: M apReduce 数据流三: M apReduce 工作原理第三篇 Hbase 简单介绍 5 一:简介二:数据模型三:行、列、时间戳、 API 第一篇 HDFS 分布式文件系统 1 The Design of HDFS ? Very large files ?大数据集合为目标数?以千万计的文件?典型文件大小一般都在千兆至 T字节? Streaming data access ? write-one-read-many 访问模型?文件创建、写,关闭之后不需要改变简化数据一致性?适合 MapReduce 框架,或者 web crawler ? Commodity hardware ?错误检测和快速、自动的恢复是 HDFS 的核心架构目标 1 The Design of HDFS ? Low-latency data access ?流式读为主?比之关注数据访问的低延迟,更关键在于数据访问的高吞吐量? arbitrary file modifications ?严格要求在任何时候只有一个 writer 。文件尾?在异构的软硬件平台间的可移植性移动计算? Java 编写 2 HDFS Concepts ? blocks ? Namenodes and Datanodes ? mand-Line Interface ?通信接口 HDFS Concepts-blocks ? files in HDFS are broken into block-sized chunks(64 MB by default) (在磁盘上数据顺序存放) 3 ? a file can be larger than any single disk in work. ? making the unit of abstraction a block rather than a file simplifies the storage subsystem.
Hadoop综述 来自淘豆网m.daumloan.com转载请标明出处.