下载此文档

基于向量空间的文本自动分类系统的研究和实现.pdf


文档分类:IT计算机 | 页数:约55页 举报非法文档有奖
1/55
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/55 下载此文档
文档列表 文档介绍
兰州理工大学
硕士学位论文
基于向量空间的文本自动分类系统的研究和实现
姓名:李威
申请学位级别:硕士
专业:计算机应用技术
指导教师:袁占亭;张秋余
20050501
基于向量空间的文本自动分类系统的研究和实现摘要关键词:信息抽取;信息检索;句法分析;汉语切词;阈值谋痉掷本文首先介绍了自然语言理解的一些基本概念和文本自动分类的背景,系统讨论了文本自动分类与信息检索和信息抽取等领域的紧密联系,深入研究了实现中文文本自动分类系统所涉及的各个方面的理论和技术。对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法,进行了详细的理论阐述和算法描述,并借鉴了其他文本自动分类系统的优点,充分考虑了系统的召回率、准确率和系统可实现性。然后,本文提出了一个文本自动分类系统的实现方案,给出了一个基于向量空问模型的文本自动分类系统的体系结构,借鉴了中科院的汉语词法分析系统概率句法分析器对文本进行了分词和句法分析,使从文本抽取出的索引项更大概率的趋向于焦点词,从而提高了系统的准确率和召回率,并利用技术对中文文本自动分类系统的功能模块进行了实现。在实现过程中,对分类算法一简单向量距离分类法进行了改进,提出了阈值的概念,进一步加强了系统的分类功能。最后,针对本系统在分类的准确率上不太理想的现状,对本课题下一步要研究的内容进行了系统地总结,并提出了自己的一些看法。中文信息处理;向量空间模型兰州理笱渡下畚
;篒,現,.也甌琲籗;籘兰¨砉ご笱妒畚甋..,..—..刀,.;;
作斯签名:互址导师签名网抗⋯;【』:盘喳年—互月上一关于学位论文使用授权说明本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得兰州理工大学或其他单位的学位或证书而使用过的材料。与我共同:鞯耐径员狙芯克鞯墓毕拙言诼畚闹凶了明确的说明。作者掺名本人了解兰州理工大学有保留、使用学位论文的规定,即:学校有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文;学校可根据国家或甘肃省有关部门规定送交学位论文。
,本论文研究的中文文本自动分类由于以因特网为主体的信息高速公路的不断普及和发展,信息技术已经渗透到我们社会生活的各个角落,以前所未有的速度和能力改变着人们的生活和工作方式,人们真正处于一个“信息爆炸”的时代。一方面,因特网上蕴含的海量信息远远超过人们的想象;另一方面,面对信息的汪洋大海,人们往往感到束手无策,无所适从,出现了所谓的“信息过载”和“信息迷向”的现象。于是,一个极富挑战性的课题:如何帮助人们有效的选择和利用所感兴趣的信息,尽量剔除不相关的信息,同时保证人们在信息选择方面的个人隐私权利,成为学术界和企业界所关注的焦点。在线文本日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆。如此众多的信息,紧紧依靠大脑来收集和整理所需要的信息显然是不够的。所以,自动收集和整理所需要的各类信息,成为信息产业面临的新的挑战和新的发展契机。根据不同的应用背景和不同的使用目的,信息处理技术已经演化为信息检索、信息过滤、信息分类等方向。由于,目前网上信息的表现形式大多数为文本,而且文本也是广大用户所习惯接受的形式,因此,本文主要讨论文本分类的处理技术。文本分类与文本处理领域的其他分支有十分密切的联系缥谋炯焖鳌⑽谋句览和文本摘要等N谋痉掷嗑褪前凑瘴谋镜闹魈庖约笆孪戎贫ǖ睦啾鹣低辰ň咛文本划归适当类别。现在许多检索工具网站,文献大多是通过手工分类,这样就大大的浪费了人力和财力,也大大影响了网页的覆盖率。文本自动分类技术是当今信息检索和情报检索的一个重要研究课题韭畚把信息检索和信息抽取技术融合到了文本分类中,使文本分类更具有智能性,提取出的关键词表也更加完善。最后在论文的第六章,提出了一套文本自动分类系统的实现方案,并给予了部分实现。首先,介绍一下有关中文搜索引擎的内容。因为本论文的课题来源于甘肃省科系统也是智能信息搜索引擎中的一部分。从年起,谥泄J寂畈7⒄埂4旯诳J挤⒄姑嫦蛑形信息检索的中文搜索引擎【保侥壳耙丫度胧褂没蚴栽诵械闹饕S幸韵录父觯搜狐海痺...骸八押笔怯砂匦殴居月日在京隆重推出的有“中文网路神探”之称的大型网上中文查找工具,其技术是由麻省理工学院支持的。它是以提供分类目录为主的中文搜索引擎,其分类原则是以图书分类为基础,与日常应用习惯相结合,由编辑人员分类,因而分类质量较高,但兰州砉し蜓в彩畚
.形乃阉饕娴牟蛔

基于向量空间的文本自动分类系统的研究和实现 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数55
  • 收藏数0 收藏
  • 顶次数0
  • 上传人化工机械
  • 文件大小0 KB
  • 时间2012-09-05