: .
: .
: .
: .
摘 要
文本挖掘就是从非结构化的文本数据中获取用户关心和有价值的信息的过
程。作为数据挖掘中一个重要的研究方向,文本挖掘已经被广泛地应用到搜索、
分类、推荐系统、舆情和观点挖掘等多个领域。随着互联网上信息爆炸式的增长,
海量数据的处理成为了当今的热点也是难点,单一服务器在多数情况下已不能满
足海量数据处理的需要,所以分布式计算是未来的发展趋势。而云计算又是分布
式处理、并行计算以及网格计算的发展和延续,并发与分布是云计算的关键技术,
海量数据处理和海量计算是云计算的优势。在文本挖掘领域中,同样面临着海量
数据处理的问题,所以把云计算与文本挖掘结合起来处理海量文本数据是十分有
意义的。
本文正是以此为出发点,首先简单介绍了文本挖掘、云计算的相关概念和关
键技术,对 Hadoop 云计算平台及 MapReduce 编程模式进行了详细说明,着重对
中文分词、新词识别、最短距离算法进行描述并提出了此三种算法基于Hadoop 平
台的 MapReduce 解决方案。通过搭建 Hadoop 实验平台,编程实现三种改进算法,
最后通过实验验证的方式分析了新算法的性能与优劣。最后本文设计、实现了一
个基于云计算的文本挖掘算法的 web 原型系统,允许用户方便的体验和使用基于
Hadoop 平台的文本挖掘算法,同时也是对本文工作一个很好的展示。
本文通过实验对比证明,将云计算与文本挖掘技术结合起来可以大幅提高文
本挖掘算法的性能和处理能力,为今后的文本挖掘研究提供了新的思路。
关键词:云计算,MapReduce,Hadoop,文本挖掘,新词识别
基于云计算的文本挖掘算法研究 来自淘豆网m.daumloan.com转载请标明出处.