下载此文档

基于语义相似度的群智能文本聚类方法研究.pdf


文档分类:IT计算机 | 页数:约67页 举报非法文档有奖
1/67
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/67 下载此文档
文档列表 文档介绍
学校代码: 10289
分类号: TP391
密级: 公开

于学号: 092070042






群江苏科技大学



本硕士学位论文




研基于语义相似度的群智能文本聚类方法


研究




研究生姓名陶红导师姓名高尚
江申请学位类别工学硕士学位授予单位江苏科技大学

科学科专业计算机应用技术论文提交日期 2012 年 3 月 10 日


研究方向智能计算与技术论文答辩日期 2012 年 3 月 17 日

答辩委员会主席吴陈评阅人



二 0 一二年三月十七日
分类号: TP391
密级: 公开
学号: 092070042

工学硕士学位论文

基于语义相似度的群智能文本聚类
方法研究




学生姓名陶红
指导教师高尚教授





江苏科技大学
二 O 一二年三月
A Thesis Submitted in Fulfillment of the Requirements

for the Degree of Master of Engineering


Search of Group Intelligent Text Clustering Methods
Based on Semantic Similarity




Submitted by

Tao Hong

Supervised by

Professor Gao Shang








Jiangsu University of Science and Technology

March, 2012
江苏科技大学学位论文原创性声明

本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取
得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰
写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律结果由本人承担。



学位论文作者签名:

年月日
江苏科技大学学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家
有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权江苏科技大
学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫
描等复制手段保存和汇编本学位论文。

本学位论文属于:
(1)保密□,在年解密后适用本授权书。
(2)不保密□。





学位论文作者签名: 指导教师签名:

年月日年月日
摘要

摘要
当今世界正处于一个信息爆炸的时代,用户查询信息时常常被信息淹没,迷失在
信息中,这大大降低了检索的效率。如何快速高效的进行信息的分类管理,为用户提
供准确有用的信息,是一个需要迫切解决的问题。在这样的背景下,文本挖掘技术正
受到越来越多的关注。文本聚类是文本挖掘的一个重要组成部分,它是聚类方法在文
本处理领域的重要应用。
文本聚类由于不需要类别的信息,能自动完成文本分组,已经得到广泛应用,如
多文档自动文摘系统、搜索引擎、数字图书馆等。目前大部分聚类算法是基于向量空
间模型的,这使得文本聚类面临高维性、高稀疏性和忽略语义信息的问题,影响了算
法的性能和准确性。
本文首先介绍了文本聚类中一些概念和方法,包括文本间距离计算、文本表示模
型、文本预处理过程、聚类效果评价和常用的聚类算法等;接着介绍了《知网》的组
织结构、相关概念和语义相似度的计算方法,同时也提出了一种改进的文本间相似度
计算方法,将其和 K-均值算法结合,通过实验数据,证明了该方法的正确性;最后介
绍了本文的两种群智能算法,并提出了本文的基于语义相似度的群智能文本聚类算法。
在文本预处理的特征提取阶段计算权重时,既考虑了词频和文档频率,也结合了
词的词性和词在文本中的位置这两个因素;针对向量空间模型忽略了词的语义信息的
问题,本文利用《知网》,通过词的语义信息,来计算文本相似度;针对前人研究的成
果,提出了本文的算法,它是在文本相似度的基础上,融合了 K-均值算法、蚁群算法
和模拟退火算法,利用了它们各自的优点,避免了各自的缺点,通过实验数据,可以

基于语义相似度的群智能文本聚类方法研究 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数67
  • 收藏数0 收藏
  • 顶次数0
  • 上传人quality
  • 文件大小0 KB
  • 时间2014-01-16