Hadoop论文 内容摘要:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(ess)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。 正文:在课堂上,老师通过教我们使用虚拟机安装Linux系统ubuntu桌面系统,来使用这款软件,由于在非Windows下使用,对于操作命令不是很熟悉,以及Linux的使用不熟练,遇到了很多问题。例如网络问题,在VM下,网络可以自行连接也可以和本机共享,在windows自带的Hyper-v上使用时,就需要注意到网络的配置问题,这款虚拟机不会共享网络,而VirualBox却可以直接共享。安装好虚拟机和ubuntu系统后,接下来就是通过终端使用命令进行安装,这个终端和windows下的cmd类似,但是由于很少使用命令行,所以不熟悉。然后完成Hadoop的安装。为hadoop应用添加一个单独的用户,这样可以把安装过程和同一台机器上的其他软件分离开来,使得逻辑更加清晰。无论是在单机环境还是多机环境中,Hadoop均采用SSH来访问各个节点的信息。在单机环境中,需要配置SSH来使用户能访问localhost的信息。首先需要安装openssh-server。其次是配置SSH使得Hadoop应用能够实现无密码登录,输入命令切换用户,通过SSH访问localhost来验证安装是否成功。老师还介绍了,每台机器情况都不一样,出现的问题不同,那么解决问题的方法就不一样了,例如老师在安装失败时输出了log信息,找到了问题所在就解决了问题。这让我意识到,Linux系统由于开源所导致的不确定性很高,出现的问题也十分复杂,对于程序员来说可能比较好解决,但对于大多数人来说就显得很棘手了。安装完毕,接下来就是配置文件了,Hadoop的配置文件都放在/Hadoop/conf这个文件夹下面,主要是四个配置文件。配置好环境后,就可以开始使用了。Hadoop自立门户:与Nutch若即若离众所周知,Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。Nutch与Hadoop本是同门师兄,,为了解决Nutch的海量数据爬取和存储的需要,Hadoop便自立门户,从Nutch中剥离出来成为一个开源子项目。Hadoop其实并非一个单纯用于存储的分布式文件系统,而是一个被设计用来在由普通硬件设备组成的大型集群上执行分布式应用的框架。Hadoop由两部分组成,包括一个分布式文件系统HDFS和一个MapReduce实现。简而言之,Hadoop的核心目标是为开发分布式应用提供一个框架。HDFS采用master/slav
Hadoop论文 来自淘豆网m.daumloan.com转载请标明出处.