精品文档,仅供学习与交流,如有侵权请联系网站删除
【精品文档】第 4 页
思特奇分布式计算技术介绍
()
北京神州数码思特奇信息技术股份有限公司
〇〇〇一〇〇〇一年一月
文档信息
文档名称
电子文档
Microsoft WORD 2003
文件状态
□ 草 稿 □ 正式发布 □ 正在修改
编 写 人
日 期
2009年02月27日
校 对 人
日 期
年 月 日
审 核 人
日 期
年 月 日
批 准 人
日 期
年 月 日
变更记录
变更序号
变更原因
变更页码
变更前版本号
变更后版本号
更改人
批准人
生效日期
备 注
1
文档建立
引言
框架中最核心的设计就是:MapReduce和HDFS。MapReduce就是“任务的分解与结果的汇总”。HDFS是分布式文件系统,为分布式计算存储提供了底层支持。
MapReduce先将一个任务分解成为多个任务,“Reduce”就是将分解后多任务处理的结果汇总起来,得出最后的分析结果。在分布式系统中, 机器集群把硬件看作资源池,将并行的任务拆分,然后交由每一个空闲机器资源去处理,能够极大地提高计算效率,同时这种资源无关性,对于计算集群的扩展 无疑提供了最好的设计保证。分布式计算就好比蚂蚁吃大象,廉价的机器群可以匹敌任何高性能的计算机。任务分解处理以后,那就需要将处理以后的结果再汇总起来,这就是Reduce要做的工作。
精品文档,仅供学习与交流,如有侵权请联系网站删除
【精品文档】第 2 页
HDFS分布式文件系统
HDFS是分布式计算的存储基石,具有如下几个特点:
对于整个集群单一的命名空间。
数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功创建之前无法看到文件存在。
文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,而且根据配置会由复制文件块来保证数据的安全性。
HDFS采用master/slave架构。一个HDFS集群由一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内 部,一个文件分成一个或多个block,这些block存储在Datanode集合里。Namenode执行文件系统的namespace操作,例如 打开、关闭、重命名文件和目录,同时决定block到具体Datanode节点的映射。Datanode在Namenode的指挥下进行block的创 建、删除和复制。Namenode和Datanode都是设计成可以跑在普通的廉价的运行linux的机器上。
精品文档,仅供学习与交流,如有侵权请联系网站删除
【精品文档】第 3 页
HDFS的设计特点:
数据安全:一个Block会有三份备份,一份放在NameNode指定的DataNode,另一份放在与指定Dat
云计算的分布式计算框架 来自淘豆网m.daumloan.com转载请标明出处.