Hadoop概念:Hadoop是一个能够对大量数据进行分布式处理的软件框架!Hadoop的特点:(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行的(parallel)处理它们,这使得处理非常的快速。(Scalable):能可靠的(reliably)存储和处理千兆字节(PB)数据。(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。{简单来说: (体现在它维护多个工作数据的副本,确保节点宕掉了重新进行分布式处理)(体现在它通过并行(计算机同时执2个或者多个处理机的一种计算方法)的方式处理数据,从而加快了数据处理速度)(能处理PB级别的数据量) (它使用了社区服务器,因此它的成本很低,任何人都可以去用)}它实现了一个分布式文件系统,简称之为HDFS●以真实的电信详单分析程序为主线,讲解Hadoop,Hbase,Hive在大数据处理的应用场景与过程。●通过此课程,,进行Hadoop的HDFS和MapReduce应用开发,搭建Hadoop集群。,搭建Hbase集群,,用Hive建立数据仓库,并进行多维分析Hadoop核心项目:HDFS(用于存储)和MapReduce(用于计算)Hdfs:分布式文件系统概念:Hadoop分布式文件系统(HDFS)modityhardware)上的分布式文件系统。内部机制就是将一个文件分割成一个或多个块(一个block块:64M),●主从结构?主节点,只有一个:namenode?从节点,有很多个:datanodes●namenode负责:?接收用户操作请求?维护文件系统的目录结构?管理文件与block之间关系,block与datanode之间关系●datanode负责:?存储文件?文件被分成block存储在磁盘上?为保证数据安全,文件会有多个副本Namenode/DataNode/SecondaryNameNode分别的作用Namenode包括:(hdfs-)1fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。2edits:操作日志文件。3fstime:保存最近一次checkpoint的时间以上这些文件是保存在linux的文件系统中。DataNode包括:(hdfs-)1提供真实文件数据的存储服务。2文件块(block):最基本的存储单位。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。HDFS默认Block大小是64MB,以一个256MB文件,共有256/64=,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间4Replication。多复本。默认是三个SecondaryNameNode包括:(hdfs-)1HA的一个解决方案。但不支持热备。配置即可(HA集群(HighAvailability,高可用性集群)是集群中较常见的一种,当硬件或软件系统发生故障时,运行在该集群系统上的数据不易丢失,而且能在尽可能短的时间内恢复正常运行。)2执行过程:从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,,但这样...不安全!1.***NodeNode对DataNode的心跳和块报告的管理namenode节点负责处理所有的块复制相关的决策。它周期性地接受集群中数据节点的心跳和块报告。一个心跳的到达表示这个数据节点是正常的。一个块报告包括该数据节点上所有块的列表。2.***HDFS中文件副本放置策略:复制副本数为3(一般情况下)HDFS的副本放置策略是:第一个副本放在本地节点第二个副本放到本地机架上的另外一个节点第三个副本放到不同机架上的节点。这种方式的优势:减少了机架间的写流量,从而提高了写的性能补充:数据中心的服务器按形态::价格低,主板可扩展性强缺点:占用的机架
hadoop总结 来自淘豆网m.daumloan.com转载请标明出处.