1本讲内容原理①Hadoop 基本架构②HDFS 文件系统③MapReduce 分布式计算框架实践①安装与配置②编写MapReduce程序介绍①背景②Hadoop起源③成功的案例2你发现:目前的硬盘容量1T,速度100MB/s。你发现:要把现在的硬盘数据刷一遍,要两个多小时,太可怕了。设想:硬盘读取速度永远满足要求!而Hadoop就是一个并行处理海量数据的工具。我们只能采用并行计算3?一个分布式文件系统和并行执行环境(框架)?让用户便捷地处理海量数据?Apache软件基金会下面的一个开源项目?目前Yahoo!是最主要的贡献者4Hadoop是什么??Apache Lucene?开源的高性能全文检索工具包?Apache Nutch?开源的Web 搜索引擎?Google 三大论文?MapReduce / GFS / BigTable?Apache Hadoop?大规模数据处理5Hadoop起源?扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。?成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。?高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。?可靠性(Reliable):hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。6Hadoop的特点7Hadoop越来越火据估计,到2015年,全世界一半以上的数据将涉及Hadoop那我们就来看看一些成功的案例:不是可以解决数据中心和数据管理方面所有难题的灵丹妙药?雅虎北京全球软件研发中心?IBM?Facebook?Amazon?Yahoo!?中国移动研究院?英特尔研究院?百度、腾讯、新浪、搜狐、淘宝8谁在用Hadoop??Yahoo Hadoop应用揭秘?中国移动?联通海量上网日志数据9Hadoop应用案例?2010年10月时:Yahoo目前有超过38000台服务器,有超过4000个以上的服务器集群,数据总量达到了170PB,每日的数据增量在10TB以上。10Yahoo Hadoop应用揭秘
大数据存储与处理-第三讲 来自淘豆网m.daumloan.com转载请标明出处.