下载此文档

【word】+语义分析与词频统计相结合的中文文本相似度量方法研究.doc


文档分类:办公文档 | 页数:约18页 举报非法文档有奖
1/18
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/18 下载此文档
文档列表 文档介绍
【word】,朱巧明,李培峰(,江苏苏州215006;,江苏苏州215006)摘要:基于统计的文本相似度量方法大多先采用TF—IDF方法将文本表示为词频向量,,,,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,,语义词典和TF—IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,,采用提出的方法得到的F一度量值明显优于只采用TF—IDF方法或词语语义的方法,:向量空间模型;语义分析;词频;概率分布;文本相似度中图分类号:TP391文献标志码:A文章编号:(2012)03—0833—04doi:.1001——li’,ZHUQiao—ming,LIPei—feng(&Technology,SoochowUniversity,SuzhouJiangsu215006,China;,SuzhouJiangsu215006,China)Abstract:BasedonthestatisticaltextsimilaritymeasurementsmethodusedTF-IDFmethodtomodeltextdocumentsastermfrequencyvectors,-marionoftextdocuments,thesimilarityvaluewasn’,,thispaperpresentedanoveltextsimilaritymethodwhichfirstlypre—processedtext,thenchosethetermswithhigherTF—IDFvalueasthefeatureitems,nextusedsemanticdictionaryandTF—putethetextsimilarity,fi—nallyusedseveralK-’SF-measureissuperiortotheothers’:vectorspacemodel;semanticanalysis;termfrequency;probabilitydistribution;textsimilarity?0引言文本聚类作为信息处理的一个重要方向,通过将大量信息组织成少数有意义的簇,并保证同一簇内的文本之间是相似的,,,文本相似度量方法在信息检索,图像检索,文本摘要自动生成,,,利用词语的词频信息将文本建模为高维而稀疏的向量,并利用向量间余弦相似度,,

【word】+语义分析与词频统计相结合的中文文本相似度量方法研究 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数18
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wxc6688
  • 文件大小44 KB
  • 时间2019-11-02
最近更新