第40卷第12期 2013年12月 puter Science Dec 2013 基于LDA主题模型的文本相似度计算王振振何明杜永萍(北京工业大学计算机学院北京100124) 摘要U)A(Latent Dirichlet舢location)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于U)A主题模型的文本相似度计算方法,该方法利用U)A为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。关键词主题模型,U)A,文本相似度,Gibbs抽样中图法分类号TP301 文献标识码 A rI'extSiⅡlil砌ty C哪lputiIlgBased蚰7I'opic M0dd LDA WANG Zhe矿zhen HE Millg C}U Yong-ping (Department of(二omputer Science,Be讲flg U11iversjtyof风hnology,Be幻堍100124,ChiIla) Absh絮t Latent Dirichlet灿location(LDA)is aJl unsupervised rnodel which e】【hibitssupe渤打ty on 1at朗ttopic rnode- ling of data intheresearch of recent paper pres朗ted amethod which hproves text sirnilarity calcula— tionby uSillgU)A modeL This method models corpus aJldtext谢thU)九Par锄eterS are estinlated、Ⅳith Gibbss锄一 pliIlg ofMCMC and theword probability caJl he hidden relationship between thedifferent topics andthe啪rds from texts,get thetopic distribution,pute thesirndarity bet、^陀enthe texL FimUy,the text larity rIlatrixclusteringexpe洒ents areca而eel out to assess theeffectofclusterin晷Expe涵entalreSults show thatthe method can irllprove the text similadty accurate mte and clustering quality e“ectively. Key唧ords Topic model,Latent Dirichlet~location(U)A),Te】(t sirIldarity,Gibbss锄pling 引言互联网作为一个分布式的、开放的信息平台近年来得到飞速发展,互联网上的信息也以
基于LDA主题模型的文本相似度计算 来自淘豆网m.daumloan.com转载请标明出处.