下载此文档

基于Hadoop的Web评论自动抽取方法地研究.pdf


文档分类:IT计算机 | 页数:约59页 举报非法文档有奖
1/59
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/59 下载此文档
文档列表 文档介绍
Dissertation Submitted to Hangzhou Dianzi Universityfor the Degree of MasterA Study on Web Reviews Automatic Extraction Based on HadoopCandidate: YanJiaweiSupervisor: Prof. . Zhou LiDecember, 2012杭州电子科技大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。申请学位论文与资料若有不实之处,本人承担一切相关责任。论文作者签名:日期:年月日学位论文使用授权说明本人完全了解杭州电子科技大学关于保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属杭州电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为杭州电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。(保密论文在解密后遵守此规定)论文作者签名:日期:年月日指导教师签名:日期:年月日杭州电子科技大学硕士学位论文I摘要Web评论信息现已成为Web信息中最重要的信息之一。它在现实生活中扮演着非常重要的角色,并且直接影响着Web用户上网的行为及习惯。,Web用户评论信息量也随之呈井喷式的增长。然而,Web用户想要在海量的Web信息中快速查询有参考价值的Web用户评论信息已变得越来越困难了。为了应对Web信息爆炸带来的挑战,迫切需要一些自动化的Web信息抽取技术来帮助Web用户在海量的Web信息中迅速找到自己真正需要的信息。本文提出的基于Hadoop的Web评论自动抽取方法正是解决这个问题的一种方法。本文在查阅了国内外的已有的学术成果以及最新的研究发现的基础上,研究如何在海量规模的Web评论页面下确保Web评论信息抽取的高准确性和高效率性。研究的内容主要分两大部分:在第一部分中,本文在分析与总结Web信息抽取技术的现状和不足后,提出了一种基于Hadoop的Web评论自动抽取方法。该方法包含两大核心算法:基于Hadoop的Web评论记录抽取算法和基于Hadoop的Web评论内容抽取算法。基于Hadoop的Web评论记录算法首先自动识别Web评论页面中的评论记录区域,然后计算包含评论记录子树间的相似度来去除噪音信息,最后抽取评论记录。基于Hadoop的Web评论内容抽取算法可以自动识别评论记录子树下的评论内容区域,然后通过文本深度的方法形成抽取模板,最后抽取评论内容信息。基于Hadoop的Web评论自动抽取方法不需要样本训练,并且可用于绝大多数的Web评论页面。在第二部分中,本文在分析了典型Web页面信息抽取系统后,根据上一部分提出的方法设计并实现了基于Hadoop的Web评论自动抽取系统。该系统具有很强的自适应性,能处理多种不同类型Web评论页面结构的Web评论信息的自动抽取。本文在最后对所提出的方法和实现的系统分别进行了实验测试,实验结果表明本文所提出的抽取方法可以达到96%以上的准确度,同时所实现系统的性能良好并且可以获得较高的加速比。本文的工作为Web信息抽取的特定领域研究提供了一个新的思路,所提出的基于Hadoop的Web评论自动抽取方法具有一定的实用价值。关键词:Web评论信息,信息抽取,海量数据,自动化,Hadoop杭州电子科技大学硕士学位论文IIABSTRACTWeb review is one of the most important information of the web information. It plays a significant role in people's real life and affects the behavior of web users. Withthe rapid development of Web and electronic commerce in recent years, the number of web reviews is growing fast. So ithasbeen more difficult for web users to detect useful reviews from a mass of reviews. In ord

基于Hadoop的Web评论自动抽取方法地研究 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数59
  • 收藏数0 收藏
  • 顶次数0
  • 上传人cxmckate6
  • 文件大小0 KB
  • 时间2016-01-20
最近更新