下载此文档

基于BTM主题模型特征扩展的短文本相似度计算.pdf


文档分类:IT计算机 | 页数:约59页 举报非法文档有奖
1/59
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/59 下载此文档
文档列表 文档介绍
摘要摘要 IHIIIIMIIIIII Y2578653 随着因特网和各种移动终端的发展,计算机对各种文本类信息处理的重要性日益凸显。短信、微博、电子商务的普及更使得用简短的文字表示信息越来越重要。每天TB级数据的产生,标志着大数据时代的来到。从简单的文本中挖掘舆论倾向,从商品评论中挖掘消费心理,短文本的挖掘有助于帮助政府更贴近了解民意倾向,帮助企业更好的了解用户需求。然而,短文本不像长文本那样具有丰富的语义特征,语义和特征矩阵的稀疏特性导致难以对它进行挖掘。本文的重点在于改善短文本特征矩阵的稀疏性问题,并用改善后的短文本矩阵进行相似度计算。在长文本的领域,主题模型的发展和应用已经日趋成熟。但是对于有着数据稀疏性的短文本来说,主题模型还不能脱离长文本的影子。很多论文致力于如何把短文本通过相关信息扩充成长文本再进行建模计算。由于很多的短文本相关信息并不是那么容易找到,并且这种方法,其结果的好坏对于用来扩充的信息的准确度有着很大的依赖性,所以这种方法不具有通用性。本文结合2013年5月 IW3C2会议上提出的在短文本建模方面有具有优势的BTM主题模型对短文本进行特征扩展后,再用扩展后的特征矩阵进行相似度计算,实验证明了本方法取得了很好的效果。本文首先介绍了VSM的原理,以及如何使用VSM对短文本建模进而进行短文本的相似度计算。其次,本文简要介绍三种文本相似度计算公式(距离公式), 实验对比了夹角余弦和JS距离两种相似度计算方法的好坏,最终确定了使用JS 距离作为本算法中的距离计算方法。然后简要介绍了LSI、pLSI、LDA、和BTM 主题模型的原理。简要介绍LDA模型原理、参数估计方法、GibbsLDA模型的输入输出。重点介绍BTM模型建模及推断过程、BTM参数估计方法和BTM模型的输入输出的文档形式和参数。并且实验对比了两种模型在相似度计算中的效果,作为刚刚提出的文本模型,相比较于传统的针对长文本建模的主题模型,和使用外部背景资料进行扩充的短文本处理方法,BTM模型利用整个短文本语料库的丰富信息进行建模和推断,很好的改善了短文本语义稀疏的问题,在短文本建模以及概率推断上有着很大优势。最后,本文提出了使用BTM主题模型对短文本特征扩展来改善短文本特征基于BTM特征扩展的短文本相似度计算稀疏的问题,后用改善后的短文本特征矩阵计算短文本相似度的方法,首先对短文本特征选择进行去噪处理,建立短文本的特征矩阵,由于该矩阵具有稀疏性, 所以用BTM模型的推断结果对短文本的稀疏的特征矩阵进行特征扩展,将扩展后的矩阵作为相似度计算的输入。最后用JS距离衡量短文本相似度。本文详细介绍了LDA模型和BTM模型的输入输出格式、参数,并在论文的末尾附上了 BTM模型预处理代码。本文使用百度知道语料集,通过开源平台Weka中的KNN 算法的分类结果来衡量相似度算法的好坏。结果表明,本方法的效果较好。关键词:BTM模型;短文本相似度;向量空间模型;特征扩展 Abstra ct With the development of the and various mobile terminals,the importance ofprocessing textinformation puters isincreasingly prominent. The popularity ofSMS,twitter and merce makes itmore and more important to express information by short produce of TB-level data indicating thatthe era ofbigdata public opinion trends from simple texts,unearthing consumer。S psychology from product reviews,government Canunderstand thepublic tendency more closer,and enterprises Can have a better understand of user needs with the help of short texts ,short texts’featuresparsemakes itdifficult tocarry main work ofthis paper is toimprove thesparsity ofshort-text fieldoflong text, topic model’Sdev

基于BTM主题模型特征扩展的短文本相似度计算 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数59
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2830622664
  • 文件大小0 KB
  • 时间2016-06-21
最近更新