基于mapreduce的期望最大化算法研究和实现.doc基于MapReduce的期望最大化算法研究和实现 分类号学号 M200976135学校代码10487密 级硕士学位论文 基于MapReduce的期望最大化算法 研究和实现学位申请人:姜治宇 学科专业:软件工程 指导教师:吴涛副教授 2012. 5. 17 答辩日期 :A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of Engineering The Research and Implementation of the Expectation- imization Algorithm Based on MapReduceCandidate : Jiang Zhiyu Major : Software Engineering Supervisor : Assoc・ Prof. Wu TaoHuazhong University of Science & Technology Wuhan 430074, //. na May, 2012独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及 取得 的研究成果。尽我所知,除文中已经标明引用的内容外, 本论文不包含任何其他 个人或集体已经发表或撰 写过的研究成果。对本文的研究 做出贡献的个 人和集 体,均已在文中以明确方式标明。本人完全意识到本声 明的法律 结果由本人承 担。学位论文作者签名: 日期:年 月 日学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规 定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。 本人授权华中科技大学可以将 本学位论文的全部或部分内容编入有关 数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本论文属于 不保密□。 (请在以上方框内打“V” ) 学位论文作者签名:指导教师签名: 日期:年月日 日期:年月日 华中科技大学硕士学位论文 随着领域中的数据量高速的增长,传统计算方法在处理大规 模数据集运算时出 现了性能上的瓶颈。伴随着“云计算”时代的到来,一种简 单的并行计算模型 MapReduce进入了人们的视线,它将实现和业务逻辑分离,只需要简单地 调用接口 就可以实现分布式的计算。作为一种解决方案,MapReduce有效的解决了 传统算法 处理大规模数据集运算的性能瓶颈。期望最大化算法作为机 器学习中的一个非常重 要的算法,在当代的工业、商业和科学研究领域发挥了越来越重要的作 用,而传统 算法逐渐体现出了对大数据量的不适应。因此,将该算法移植到云 平台上,从而突 破性能上的限制是非常有意义的事情。 首先对Hadoop项目和MapReduce模型做了深入的分析,并在现有的 MapReduce 算法基础上提出了 一些改进方 案,第 三章介 绍了最大 期望 算法 的 原理,并详细地分 析了该算法能移植到云平台的原因。第四章提出了期望最大化算法在 MapReduce 中 实现方案,分析了隐马尔科夫模型训练问题,该问题的解决方案 是期望最大化算法 的一种特殊情况,并在此基础上提出并实现了 MR-BaumWelch 算法。第五部分对 MR-BaumWelch算法性能做了测试,并和单机计算框架Giza++做了对比分 析,结果表 明移植到MapReduce计算框架后,算法在处理数量和处理效率上都有较 大的提升。 MR-BaumWelch算法是在海量数据处理需求的前提下,将期望 最大化算法和 MapReduce计算模型结合的一种算法,实现了传统算法向“云计算"平 台的迁移。 并充分考虑到了未来业务的发展需求,实现了超大规模的数 据运算理论模型。在设 计思想中融入了大数据的概念和分布式处理的思想,并且保证了 高可靠性和高精确 性的要求,实现了完整的编程接口,体现了较好的封装特性,具有较 高的推广价值。 关键词:期望最大化算法Hadoop项目MapReduce模型隐马尔科夫模型 I 华中科技大学硕士学位论文 Abstract With the rapid grow th of the amount of data in the field, the traditional method in dealing with large-scale data set computing the performance bottleneck. As "cloud computiera, MapR