云计算平台 Hadoop 随着互联网上各种信息越来越多,从海量数据中获取想要的信息的个性化推荐也随着用户的需求而产生发展起来。个性化推荐系统通过用户在互联网上获取信息时留下的个人独特的日志信息, 通过分析用户的日志信息挖掘出用户对各类新闻信息的偏好, 进而为用户推荐其可能感兴趣的新闻信息,避免用户在海量的互联网数据中迷失。然而,从用户的日志信息中挖掘用户的偏好,需要存储用户的日志:为用户推荐,需要高效的有用的推荐算法。传统的推荐系统将用户日志信息存储于关系数据库中, 采用单机的推荐算法进行推荐计算,随着数据量的增长可以采取提升计算机性能来解决瓶颈问题,但当数据量上升到海量时, 单纯的提升计算机性能显然不能解决瓶颈问题, 而且面临巨大成本开销的问题。面对着一问题, 分布式计算框架是一种有效的解决方案。而由 Apache 基金会开发的开源 Hadoop 分布式计算框架是很好的选择。首先 Hadoop 部署在廉价的商用计算机上, 便于扩充分布式规模而不用增加巨额的开销:其次 Hadoop 的分布式文件系统 HDFS 保证了文件的可靠性和可扩展性: Hadoop 还实现了 Map/Reduce 编程模式,极大的提高了并行计算的性能:此外,基于 Hadoop 分布式平台实现的 mon ,是程序员无需了解底层任务的分发与调度,大大提高了工作效率,简化了开发人员的开发流程。 HDFS H DFS 全称是 Hadoop Distributed System 。 HDFS 是为以流的方式存取大文件而设计的。适用于几百 MB, GB 以及 TB ,并写一次读多次的场合。目前 HDFS 支持的使用接口除了 Java 的还有, Thrift 、C、 FUSE 、 WebDAV 、 HTTP 等。 HDFS 是以 block-sized chunk 组织其文件内容的, 默认的 block 大小为 64MB , 对于不足 64M B 的文件,其会占用一个 block ,但实际上不用占用实际硬盘上的 64MB ,这可以说是 HDFS 是在文件系统之上架设的一个中间层。之所以将默认的 block 大小设置为 64MB 这么大,是因为 block-sized 对于文件定位很有帮助,同时大文件更使传输的时间远大于文件寻找的时间,这样可以最大化地减少文件定位的时间在整个文件获取总时间中的比例。 1、 HDFS 的体系结构构成 HDFS 主要是 Namenode ( master ) 和一系列的 Datanode ( workers )。 Namenod e 是管理 HDFS 的目录树和相关的文件元数据, 这些信息是以"namespace image" 和"edit log" 两个文件形式存放在本地磁盘, 但是这些文件是在 HDFS 每次重启的时候重新构造出来的。 Datanode 则是存取文件实际内容的节点, Datanodes 会定时地将 block 的列表汇报给 Namenode 。由于 Namenode 是元数据存放的节点,如果 Namenode 挂了那么 HDFS 就没法正常运行, 因此一般使用将元数据持久存储在本地或远程的机器上,或者使用 secondary namenod e 来定期同步 Namenode 的元数据信息, secondary namenode 有点类似于 My
hadoop 来自淘豆网m.daumloan.com转载请标明出处.