【word】,朱巧明,李培峰(,江苏苏州215006;,江苏苏州215006)摘要:基于统计的文本相似度量方法大多先采用TF—IDF方法将文本表示为词频向量,,,,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,,语义词典和TF—IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,,采用提出的方法得到的F一度量值明显优于只采用TF—IDF方法或词语语义的方法,:向量空间模型;语义分析;词频;概率分布;文本相似度中图分类号:TP391文献标志码:A文章编号:(2012)03—0833—04doi:.1001——li’,ZHUQiao—ming,LIPei—feng(&Technology,SoochowUniversity,SuzhouJiangsu215006,China;,SuzhouJiangsu215006,China)Abstract:BasedonthestatisticaltextsimilaritymeasurementsmethodusedTF-IDFmethodtomodeltextdocumentsastermfrequencyvectors,-marionoftextdocuments,thesimilarityvaluewasn’,,thispaperpresentedanoveltextsimilaritymethodwhichfirstlypre—processedtext,thenchosethetermswithhigherTF—IDFvalueasthefeatureitems,nextusedsemanticdictionaryandTF—putethetextsimilarity,fi—nallyusedseveralK-’SF-measureissuperiortotheothers’:vectorspacemodel;semanticanalysis;termfrequency;probabilitydistribution;textsimilarity?0引言文本聚类作为信息处理的一个重要方向,通过将大量信息组织成少数有意义的簇,并保证同一簇内的文本之间是相似的,,,文本相似度量方法在信息检索,图像检索,文本摘要自动生成,,,利用词语的词频信息将文本建模为高维而稀疏的向量,并利用向量间余弦相似度,,
【word】+语义分析与词频统计相结合的中文文本相似度量方法研究 来自淘豆网m.daumloan.com转载请标明出处.