下载此文档

基于知网语义相似度的中文文本聚类方法应用研究.pdf

文档分类：IT计算机 | 页数：约51页举报非法文档有奖

1/51

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/51 下载此文档

文档列表 文档介绍

西安电子科技大学硕士学位论文基于知网语义相似度的中文文本聚类方法研究姓名:许君宁申请学位级别:硕士专业:情报学指导教师:刘怀亮 20100101 摘要摘要当前人们正处于一个“信息爆炸”的时代。在线信息日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆等等,很大一部分信息属于非结构化或半结构化的。面对网上海量的半结构化或非结构的文本信息, 如何快速高效的进行分类组织管理,为用户准确提供有用信息,是所有信息工作者和研究人员迫切希望解决的问题。如何在没有分类指导的情况下对自由文档进行分类并标识,为越来越多的研究人员所关注。本文在对中文文本聚类现状研究的基础上,对中文文本聚类的关键技术进行了归纳性总结,其中包括文本自动分词、特征选取、特征重构、文本表示、文本间的相似性度量及聚类算法。分析了几种用于文本聚类的特征选取方法及其对聚类性能的影响;介绍了几种中文文本表示模型及聚类方法并指出其不足,重点分析了聚类中最常用的算法,以及各种算法对聚类结果的影响。针对中文文本处理面临的模型表示及语义关联的难题,本文着重从语义上分析文本。首先采用了词性过滤进行文本预处理的方法,删减了大部分无用的或对分类贡献不大的特征,其次通过特征语义聚类使得文本特征集更能体现文本的语义内涵,再根据词语频率TF(term frequency)和词语倒排文档频率IDF(inverse document frequency)选择文档的特征集,使得特征集更具有分类功能,经过以上三层处理之后,得到本文中高效低维的特征集,加快了聚类的速度并提高了聚类精度。建立了一种基于语义特征并体现特征分类强度的文本表示模型,将文档表示为一组特征词集合,利用特征词间的语义相似度计算文本间的相似度。这样真正从语义上具体分析文本之间的相似度,使结果更接近人的主观衡量,且能够将文本间的相似度量化,更利于计算机识别处理。基于这种文本表示模型,构建了基于知网语义相似度的聚类模型。最后用程序实现了该聚类算法,通过实验分析证明了本文提出的聚类方法的有效性。关键词: 聚类特征抽取语义相似度文本模型 ABSTRACT ABSTRACT Atpresent we arein锄”information explosion” number ofonline information,including news,e-magazines,e-mail,technical reports,documents,and on—linelibraries,etc.,alargepart ofwhich belong tounstructured orsemi— face ofmassive online semi—structured or non-structural text message,how fastand efficient istheclassification anization ofthem,and how toprovide accurate and usefulinformation for users isthatallinformation workers or researchers are eager tO theclassification and identification offreedocuments isdone intheabsence ofspecificguidance has drawn moreand more researchers’attention. Inthispaper,based on theextensive research ofthe current situation ofChinese text clustering,key technologies of text clustering are summarized,including the automatic text segmentation,text feature selection,text feature reconstruction,text representation,the measure of text similarityand theclustering of several feature selection methods for textclustering and theirinfluence on clustering is provided;introduction of some Chinese text representatio

基于知网语义相似度的中文文本聚类方法应用研究来自淘豆网m.daumloan.com转载请标明出处.