Hadoop 概念: Hadoop 是一个能够对大量数据进行分布式处理的软件框架! Hadoop 的特点: 1. 可靠性( Reliable ): hadoop 能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署( redeploy )计算任务。 2. 高效率( Efficient ) :通过分发数据, hadoop 可以在数据所在的节点上并行的( parallel ) 处理它们,这使得处理非常的快速。 3. 扩容能力( Scalable ) :能可靠的( reliably )存储和处理千兆字节( PB )数据。 4. 成本低( Economical ) :可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。{ 简单来说: (体现在它维护多个工作数据的副本,确保节点宕掉了重新进行分布式处理) (体现在它通过并行(计算机同时执 2个或者多个处理机的一种计算方法)的方式处理数据,从而加快了数据处理速度) (能处理 PB 级别的数据量) (它使用了社区服务器,因此它的成本很低,任何人都可以去用) }它实现了一个分布式文件系统,简称之为 HDFS ?以真实的电信详单分析程序为主线, 讲解 Hadoop,Hbase,Hive 在大数据处理的应用场景与过程。?通过此课程,你能 1. 掌握 Hadoop 基本知识, 进行 Hadoop 的 HDFS 和 MapReduce 应用开发, 搭建 Hadoo p 集群。 2. 掌握 Hbase 基本知识,搭建 Hbase 集群, Hbase 的基本操作 3. 掌握数据仓库基本知识,用 Hive 建立数据仓库,并进行多维分析 Hadoop 核心项目: HDFS (用于存储) 和 MapReduce (用于计算) H dfs : 分布式文件系统概念: Hadoop 分布式文件系统(HDFS) 被设计成适合运行在通用硬件(commodity hardware) 上的分布式文件系统。内部机制就是将一个文件分割成一个或多个块( 一个 block 块:64M ), 这些块被存储在一组数据节点中 的架构?主从结构?主节点,只有一个: namenode ?从节点,有很多个: datanodes ? namenode 负责: ?接收用户操作请求?维护文件系统的目录结构?管理文件与 block 之间关系, block 与 datanode 之间关系? datanode 负责: ?存储文件?文件被分成 block 存储在磁盘上?为保证数据安全,文件会有多个副本 Namenode /DataNode /SecondaryNameNod e 分别的作用 Namenode 包括:( hdfs- 的 属性) 1 fsimage: 元数据镜像文件。存储某一时段 NameNode 内存元数据信息。 2 edits: 操作日志文件。 3 fstime: 保存最近一次 checkpoint 的时间以上这些文件是保存在 linux 的文件系统中。 DataNode 包括:( hdfs- 的 属性) 1 提供真实文件数据的存储服务。 2 文件块( block ): 最基本的存储单位。对于文件内容而言,一个文件的长度大小是 size ,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个 Block 。 HDFS 默认 Block 大小是 64MB , 以一个 256MB 文件, 共有 256/64=4 个 Block. 3 不同于普通文件系统的是, HDFS 中, 如果一个文件小于一个数据块的大小, 并不占用整个数据块存储空间 4 Replication 。多复本。默认是三个 SecondaryNameNod e 包括:( hdfs- 的 属性) 1 HA 的一个解决方案。但不支持热备。配置即可( HA 集群( High Availability, 高可用性集群) 是集群中较常见的一种,当硬件或软件系统发生故障时,运行在该集群系统上的数据不易丢失,而且能在尽可能短的时间内恢复正常运行。) 2 执行过程:从 NameNode 上下载元数据信息( fsimage,edits ) ,然后把二者合并,生成新的 fsimage ,在本地保存,并将其推送到 NameNode ,同时重置 NameNode 的 edits. 3 默认在安装在 NameNode 节点上,但这样... 不安全! 1.*** NodeNode 对 Da taN ode 的心跳和块报告的管理 namenode 节
hadoop总结 来自淘豆网m.daumloan.com转载请标明出处.