下载此文档

大数据存储和处理-第三讲.ppt


文档分类:IT计算机 | 页数:约87页 举报非法文档有奖
1/87
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/87 下载此文档
文档列表 文档介绍
1本讲内容原理①Hadoop 基本架构②HDFS 文件系统③MapReduce 分布式计算框架实践①安装与配置②编写MapReduce程序介绍①背景②Hadoop起源③成功的案例2你发现:目前的硬盘容量1T,速度100MB/s。你发现:要把现在的硬盘数据刷一遍,要两个多小时,太可怕了。设想:硬盘读取速度永远满足要求!而Hadoop就是一个并行处理海量数据的工具。我们只能采用并行计算?一个分布式文件系统和并行执行环境(框架)?让用户便捷地处理海量数据?Apache软件基金会下面的一个开源项目?目前Yahoo!是最主要的贡献者4Hadoop是什么??Apache Lucene?开源的高性能全文检索工具包?Apache Nutch?开源的Web 搜索引擎?Google 三大论文?MapReduce / GFS / BigTable?Apache Hadoop?大规模数据处理5Hadoop起源?扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。?成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。?高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。?可靠性(Reliable):hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。6Hadoop的特点7Hadoop越来越火据估计,到2015年,全世界一半以上的数据将涉及Hadoop那我们就来看看一些成功的案例:不是可以解决数据中心和数据管理方面所有难题的灵丹妙药?雅虎北京全球软件研发中心?IBM?Facebook?Amazon?Yahoo!?中国移动研究院?英特尔研究院?百度、腾讯、新浪、搜狐、淘宝8谁在用Hadoop??Yahoo Hadoop应用揭秘?中国移动?联通海量上网日志数据9Hadoop应用案例?2010年10月时:Yahoo目前有超过38000台服务器,有超过4000个以上的服务器集群,数据总量达到了170PB,每日的数据增量在10TB以上。10Yahoo Hadoop应用揭秘

大数据存储和处理-第三讲 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数87
  • 收藏数0 收藏
  • 顶次数0
  • 上传人1322891254
  • 文件大小0 KB
  • 时间2016-01-15