下载此文档

大数据基础知识.docx


文档分类:IT计算机 | 页数:约18页 举报非法文档有奖
1/18
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/18 下载此文档
文档列表 文档介绍
块副本存放位置的选择严重影响 HDFS 的可靠性和性能。副本存放位置的优化是 HDFS 区分于其他
分布式文件系统 的的特征,这需要精心的调节和大量的经验。机架敏感的副本存放策略是为了提高数据的可靠性,可用性和网络带宽的利用率。副本存放策略的实现是这个方向上比较原始的方式。短期的实现目标是要把这个策略放在生产环境下验证,了解更多它的行为,为以后测试研究更精致的策略打好基础。
HDFS 运行在跨越大量机架的集群之上。两个不同机架上的节点是通过交换机实现通信的,在大多数情况下,相同机架上机器间的 网络带宽 优于在不同机架上的机器。
在开始的时候, 每一个数据节点自检它所属的机架 id ,然后在向名字节点注册的时候告知它的机架 id 。
HDFS 提供接口以便很容易地挂载检测机架标示的模块。一个简单但不是最优的方式就是将副本放置在不
同的机架上,这就防止了机架故障时数据的丢失,并且在读数据的时候可以充分利用不同机架的带宽。这
个方式均匀地将复制分散在 集群中,这就简单地实现了组建故障时的 负载均衡 。然而这种方式增加了写的成本,因为写的时候需要跨越多个机架传输文件块。
默认的 HDFS block 放置策略在最小化写开销和最大化数据可靠性、可用性以及总体读取带宽之间进
行了一些折中。一般情况下复制因子为 3 , HDFS 的副本放置策略是将第一个副本放在本地节点,将第二
个副本放到本地机架上的另外一个节点而将第三个副本放到不同机架上的节点。这种方式减少了机架间的
写流量,从而提高了写的性能。机架故障的几率远小于节点故障。这种方式并不影响数据可靠性和可用性
的限制,并且它确实减少了读操作的网络聚合带宽,因为文件块仅存在两个不同的机架, 而不是三个。文
件的副本不是均匀地分布在机架当中, 1/3 在同一个节点上, 1/3 副本在同一个机架上,另外 1/3 均匀地分
布在其他机架上。这种方式提高了写的性能,并且不影响数据的可靠性和读性能。
副本的选择
为了尽量减小全局的带宽消耗读延迟, HDFS 尝试返回给一个读操作离它最近的副本。假如在读节点
的同一个机架上就有这个副本,就直接读这个,如果 HDFS 集群是跨越多个 数据中心 ,那么本地数据中心的副本优先于远程的副本。
安全模式
在启动的时候,名字节点进入一个叫做安全模式的特殊状态。安全模式中不允许发生文件块的复制。
名字节点接受来自数据节点的心跳和块报告。一个块报告包含数据节点所拥有的 数据块 的列表。
每一个块有一个特定的最小复制数。 当名字节点检查这个块已经大于最小的复制数就被认为是安全地复制了,当达到配置的块安全复制比例时(加上额外的 30 秒),名字节点就退出安全模式。它将检测数据块的列表,将小于特定复制数的块复制到其他的数据节点。
文件系统的元数据的持久化
HDFS 的命名空间是由名字节点来存储的。名字节点使用叫做 EditLog 对文件系统元数据的改变,如在 HDFS 中创建一个新的文件,名字节点将会在

的事务日志 来持久记录每一个
EditLog 中插入一条记录来
记录这个改变。类似地,改变文件的复制因子也会向

EditLog

中插入一条记录。名字节点在本地文件系统
中用一个文件来存储这个 EditLog 。整个文件系统命名空间, 包括文件块的映射表和文件系统的配置都存在一个叫 FsImage 的文件中, FsImage 也存放在名字节点的本地文件系统中。
名字节点在内存中保留一个完整的文件系统命名空间和文件块的映射表的 镜像。这个元数据被设计成
紧凑的, 这样 4GB 内存的名字节点就足以处理非常大的文件数和目录。 名字节点启动时, 它将从磁盘中读
取 FsImage 和 EditLog ,将 EditLog 中的所有 事务应用到 FsImage 的仿内存空间,然后将新的 FsImage
刷新到 本地磁盘 中,因为事务已经被处理并已经持久化的 FsImage 中,然后就可以截去旧的 EditLog 。这
个过程叫做检查点。当前实现中,检查点仅在名字节点启动的时候发生,正在支持周期性的检查点。
数据节点将 HDFS 数据存储到本地的文件系统中。数据节点并不知道 HDFS 文件的存在,它在本地
文件系统中以单独的文件存储每一个 HDFS 文件的数据块。数据节点不会将所有的数据块文件存放到同一
个目录中,而是启发式的检测

大数据基础知识 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数18
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2024678321
  • 文件大小41 KB
  • 时间2020-12-29