下载此文档

【优秀论文】基于Web文本挖掘的SVM网页文本分类研究.pdf


文档分类:IT计算机 | 页数:约74页 举报非法文档有奖
1/74
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/74 下载此文档
文档列表 文档介绍
筘北对话犬亏硕士学位论文基于谋就诰虻腟网页文本分类研究学科、专业:企业管理畔⒕静赵枫副教授分类号密级论文题目:硕士生:指导教师:答辩日期:年月编号刘
摘要随着难杆俜⒄梗绕涫荳娜蚱占埃琖上信息资源己涵盖了社会生活的各个方面,网络信息过载仗日益突出,这促使诰蚣际鹾蚖信息检索技术迅速发展。广泛使用的处理畔⒌氖侄问撬阉饕妗D壳笆褂媒隙嗟氖腔诠丶字的搜索引擎,在实际应用中存在诸如返回文档数目过大,主题相关性不高等问题,总体查全率和查准率差强人意。对于搜索引擎存在的问题,人们想到了数据挖掘。数据挖掘是从大量数据中提取或“挖掘”知识,将传统的数据挖掘技术与岷掀鹄矗覹文档和疃谐槿「行巳さ摹⑶痹诘摹⒂杏的信息。诰虺晌J萃诰蛞桓鲋匾5难芯苛煊颉挖掘技术能够从虾A康氖葜凶远兀悄艿爻槿∫赜谡庑┦葜械闹J叮植沽舜统搜索引擎的不足并且有更广泛的应用。处理海量数据的一个重要方法就是将它们分类。网页自动分类是谋挖掘领域的一个很重要的研究方向。通过自动分类不仅仅可以将网页按照类别信息分别建立相应的数据库,提高搜索引擎的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供分类信息目录。文本分类把自然语言的文本按其内容划分到一个或多个预先定义好的类别中,是一个非常重要的信息组织和管理手段。支持向量机怯蒝捌淞斓嫉腁笛槭已芯啃∽樘岢的一种新的很有发展前途的机器学习算法。在模式识别、回归估计、概率密度函数估计等方面都有应用。在模式识别方面,对于手写数字识别、语音识别、人脸图像识别、文本分类等问题,惴ㄔ诰ǘ壬弦丫车难八惴或与之不相上下。行矶嗤怀龅挠诺悖顾屎蟇文本信息处理。作为可以广泛应用在网上信息自动分类的方法日益受到研究者的重视。该方法研究小样本情况下的机器学习规律,具有相对较高的性能指标。因为有较强的理论依据和较好的泛化性能,使得它成为继神经网络研究之后新的研究热点,并将推动机器学习理论和技术的重大发展。本文阐述了缤诰虻挠泄乩砺郏鯳文本挖掘的一般处理过程,并设计了一个基于奈谋就诰蛳低常ㄎ牡挡杉?椤⑻卣魈崛∧?
和挖掘模块。接着介绍统计学习理论,深入探讨了建立在该理论基础上的算法。最后将惴ㄓτ玫絎文本挖掘之中,对谋窘蟹掷唷研究了一种用兄鞫暗姆椒ǎ梅椒ㄔ诒Vし掷嘈阅艿那疤嵯拢可有效的提高效率。结果表明惴ㄔ赪文本挖掘方面具有很好的应用前景。关键词:诰颍谋就诰颍С窒蛄炕撤掷
.甀,,甀..,.瑆—А—.
篧,,,,...,.琣,
导师签箩易吗作者签名:刘静作者签名:、:≯眯屏月;。日掘的澄谋痉掷嘌芯俊罚潜救嗽诘际χ傅枷拢诙ū东北财经大学研究生学位论文原创性声明本人郑重声明:此处所提交的硕士学位论文《基于谋就目期:即辍ぁぴ。日东北财经大学研究生学位论文使用授权书《基于谋就诰虻腟网页文本分类研究》系本财经大学攻读硕士学位期间独立进行研究所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发表或撰写过的研究成果,对本文的研究工作做出重要贡献的个人和集体均已注明。本声明的法律结果将完全由本人承担。人在东北财经大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归东北财经大学所有,本论文的研究内容不得以其他单位的名义发表。本人完全了解东北财经大学关于保存、使用学位论文的规定,同意学校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权东北财经大学,可以采用影印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。
第一章绪论研究背景诰虻南肿目前处理畔⒆罟惴旱氖侄问荌乃阉饕妗5牵壳盎关键字的搜索引擎存在一些问题:首先,对任一范围的主题,都可能很容易地包含成百上千的文档。这会使搜索引擎返回的文档数目过于庞大,其中很多与主题的相关性并不大,或所包含的内容质量不高;其次,很多与主题相关的文档可能并不包含相应的关键字。可以说搜索引擎的查全率、查准率疾痪∫猓并且它不能发现试幢澈笤滩氐闹J丁唤鑫P录际醯牟1倭诵碌牧煊颍参4臣际醯难芯刻岢隽诵的方向。对于搜索引擎存在的问题,人们想到了数据挖掘。简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。将传统的数据挖掘技术与岷掀鹄矗从牡岛蚖活动中抽取感兴趣的、潜在的、有用的信息。进行掘,成为数据挖掘一个重要的研究领域挖掘技术能够从A康氖据中自动地、智能地抽取隐藏于这些数据中的知识,它弥补了传统搜索引擎的不足,并且有更广泛的应用。獾难芯肯肿谋就诰蚝鸵恢倍即嬖诘男畔⒓焖饔薪仙畹脑ㄔ矗矶嗉际醵际粲谠子信息检索领域。互联网上信息量大,由于这些信息缺乏结构化、组织的规整性,目前几乎多数的互联网查询工具都面临匹配的查准率低,给出的查询结果大量冗余,但是查全率却不高的问题。对于这个问题的研究,学术界有两派:一是从信息检索角度研究这个问题,主要研究如何处理文本格式和超

【优秀论文】基于Web文本挖掘的SVM网页文本分类研究 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数74
  • 收藏数0 收藏
  • 顶次数0
  • 上传人化工机械
  • 文件大小0 KB
  • 时间2013-05-15