下载此文档

Hadoop学习总结.docx


文档分类:IT计算机 | 页数:约7页 举报非法文档有奖
1/7
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/7 下载此文档
文档列表 文档介绍
Hadoop学习总结
背景
随着信息时代脚步的加快,各类数据信息越来越多,海量数据的来源列举如下:
◎纽约证券交易所每天产生1TB的交易数据。
◎Facebook存储着约100亿张照片,约1PB数据。
◎,一个家谱网站,。
◎The Archive(互联网档案馆)存储着约2PB的数据,并以每月至少20TB的速度增长。
◎瑞士日内瓦附近的大型强子对撞机每年产生约15PB数据。
面对海量数据,如何存储和分析,从中获取有价值信息,变得十分重要。Hadoop正是在这样的背景下产生的,它提供了一个可靠的共享存储和分析系统。由于具备低成本和前所未有的高扩展性,Hadoop已被公认为是新一代的大数据处理平台,就像30年前的SQL出现一样,Hadoop正带来了新一轮的数据革命。
二、Hadoop相关概念
1、Hadoop简述
Hadoop是Apache的一个分布式计算开源框架,它可以运行于大中型集群的廉价硬件设备上,为应用程序提供了一组稳定可靠的接口。同时它是Google集群系统的一个开源项目总称。底层是Google文件系统(GFS)。
基于java语言构建的Hadoop框架实际上一种分布式处理大数据平台,其包括软件和众多子项目。在近十年中Hadoop已成为大数据革命的中心。
2、其子项目简述:
◎MapReduce 分布式数据处理模型和执行环境,运行于大型商用机集群。
◎HDFS 分布式文件系统,运行于大型商用机集群。
◎Pig 一种数据流语言和运行环境,用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。
◎Hive 一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。
◎ZooKeeper 一个分布式、可用性高的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。
◎Sqoop 在数据库和HDFS之间高效传输数据的工具。
◎Common 一组分布式文件系统和通用I/O的组件与接口(序列化、javaRPC和持久化数据结构)。
◎Avro 一种支持高效,跨语言的RPC以及永久存储数据的序列化系统。
3、Hadoop的优点
◎可扩展性:不论是存储的可扩展还是计算的可扩展都是Hadoop设计的根本。
◎经济:框架可以运行在任何普通的PC上。
◎可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。
◎高效:分布式分拣系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。
三、 Hadoop的核心
Hadoop 的核心是HDFS和MapReduce。HDFS 实现存储,而MapReduce实现分析处理。HDFS和MapReduce实现是完全分离的,并不是没有HDFS就不能MapReduce运算。
1、HDFS

Hadoop跟其他云计算项目有共同点和目标:实现海量数据的计算。而进行海量计算需要一个稳定的,安全的数据容器,才有了Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)。H

Hadoop学习总结 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数7
  • 收藏数0 收藏
  • 顶次数0
  • 上传人1136365664
  • 文件大小276 KB
  • 时间2017-11-30