hadoop
大数据处理基础
前言
从IT时代到DT时代
前言-从IT时代到DT时代
目录
HADOOP是什么
1
HDFS
2
MAPREDUCE
3
4
5
谁在用HADOOP
我们能做什么
Hadoop那段早被说烂了的历史……
Lucene
Nutch
Hadoop
Apache Nutch项目(开源搜索引擎,Lucene项目(文本检索引擎)的一部分)的一部分:Spider
出生于2005年
他父亲:
Doug Cutting & Michael
名字&形象代言人:Doug Cutting自己儿子的玩具——小黄象Hadoop
2008年1月,Hadoop已成为Apache顶级项目,证明它是成功的。通过这次机会,Hadoop成功地被雅虎之外的很多公司应用,如Facebook、纽约时报等。特别是纽约时报,它使用运行在亚马逊的EC2云计算上Hadoop,将4TB的报纸扫描文档压缩,转换为用于Web的PDF文档,这个过程历时不到24小时,使用100台机器运行,这成为Hadoop一个良好的宣传范例。
2008年2月,雅虎宣布其索引网页的生产系统采用了在10000多个核的Linux集群上运行的Hadoop。Hadoop真正达到了万维网的规模。2008年4月,在一个900节点的Hadoop集群上,雅虎的研究人员运行1TB的Jim Gray基准排序,只用了209秒。
2009年4月,在一个1400节点的集群上对500GB数据进行排序,只用了59秒,这显示了Hadoop强大的计算能力。
Hadoop的成就
Hadoop是什么呢?
Hadoop是……
√一个框架
√Linux那样
√可扩展的
√能很好地用管道(pipeline)的方式处理大量的数据以得到最后的结果
√在某些时候,它是唯一的选择
√一个丰富的生态圈
Hadoop不是……
× SQL的替代品
× 快速而高效的
× 很好地支持临时分析(ad hoc analysis)
Hadoop的变迁
Hadoop App Store
了解Hadoop 来自淘豆网m.daumloan.com转载请标明出处.