hadoop.ppt


文档分类:IT计算机 | 页数:约21页 举报非法文档有奖
1/21
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/21
文档列表 文档介绍
云计算Hadoop(Map/Reduce框架)Hive是什么(what)透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务。“云计算”(puting)是分布式计算(puting)、并行计算(puting)和网格计算(puting)的发展,或者说是这些计算机科学概念的商业实现。网格计算是分布式运算的进化型,通过网络连接计算机进行分布式计算。把大型计算分成大量的计算单元,并行处理。大量计算机“独立”进行计算来共同完成一个大型计算。上一个任务包的结果未返回或者是结果处理错误,对下一个任务包的处理没有什么影响。多台计算机并行进行计算来共同完成一个大型计算。其中每个任务都是必要的,就是每个任务包都要处理,而且计算结果相不影响为什么(why)对于海量的数据,单一计算的或者昂贵的大型计算机总会有缺陷,最明显的是当数据量随时间而增大时,一台机器是不能扩展的。这就需要可扩展的云计算计算机集群来处理。存储和计算类似,对于海量的、随时增长的数据,需要一个可靠并可扩展的计算机集群来进行存储。云计算是大量计算机来运行一个大型运算,效率可以随着机器的增加而线性增长,速度快。而且计算机集群中可以都是廉价计算机,大大节省了硬件资源。怎么做(how)MapReduce是一个最先由Google提出的分布式计算软件构架,它可以支持大数据量的分布式处理。这个架构最初起源于函数式程式的map和reduce两个函数组成。一个实现MapReduce的java编写的框架。目前已达到稳定、安全、速度快、实用。Hadoop的分布式文件系统。可对文件进行分布式存储。提供类sql的语句(HQL)来实现MapReduce操作是什么(what)Hadoop是从apachenutch项目中剥离出来的,实现了googleGFS(通过HDFS实现)和MapReduce算法的分布式计算平台。MapReduce架构是用来解决大数据量的分布式计算问题,然后把计算后的结果放入文件系统或者数据库中。 “Map”:主节点读入输入数据,把它分成可以用相同方法解决的小数据块(这里是一个分而治之的思想),然后把这些小数据块分发到不同的工作节点上(workernodes)上,每一个工作节点(workernode)循环做同样的事,这就形成了一个树行结构(分布式计算中的很多模型都和图论有关,pageRank也是),而每一个叶子节点有来处理每一个具体的小数据块,再把这些处理结果返回给父节点。 “Reduce”:主节点得到所有子节点的处理结果,然后把所有结果组合并且返回到输出。 MapReduce的一个特点是可以用map和reduce方法来处理分布式计算的问题(这里有一个移动计算而不是移动数据的概念,因为移动计算比移动数据代价更小)。这里的每一个mapping操作都是相对独立的,所有的maps都是并行运行的,虽然实践中会受到数据源和cpu个数的影响。同样的,这里用一个reducer集合来执行reduce操作,所有带有相同key的map输出会聚集到同一个reducer。虽然这个过程看上去没有串行计算来得高效,但是MapReduce能够处理一般服务器所不能处理的大数据量处理问题。大型的服务器集群可以在短时间内处理petabyte数据量的排序问题。而并行处理可以提供部分容错和出错恢复的功能。当一个mapper或reducer失效时,整个工作就会被重新安排,从而不会影响工作的连续性。采用Master/Slave结构。NameNode维护集群内的元数据,对外提供创建、打开、删除和重命名文件或目录的功能。DataNode存储数据,并提负责处理数据的读写请求。DataNode定期向NameNode上报心跳,NameNode通过响应心跳来控制DataNode。为什么(why)国内应用hadoop的公司:国外应用hadoop的公司:Facebook,yahoo!等…

hadoop 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数21
  • 收藏数0 收藏
  • 顶次数0
  • 上传人350678539
  • 文件大小2.54 MB
  • 时间2019-06-11