摘要随着因特网和各种移动终端的发展,计算机对各种文本类信息处理的重要性日益凸显。短信、微博、电子商务的普及更使得用简短的文字表示信息越来越重论倾向,从商品评论中挖掘消费心理,短文本的挖掘有助于帮助政府更贴近了解富的语义特征,语义和特征矩阵的稀疏特性导致难以对它进行挖掘。本文的重点在于改善短文本特征矩阵的稀疏性问题,并用改善后的短文本矩阵进行相似度计把短文本通过相关信息扩充成长文本再进行建模计算。由于很多的短文本相关信息并不是那么容易找到,并且这种方法,其结果的好坏对于用来扩充的信息的准确度有着很大的依赖性,所以这种方法不具有通用性。本文结合年嵋樯咸岢龅脑诙涛谋窘7矫嬗芯哂杏攀频腂主题模型对短文本进行特征扩展后,再用扩展后的特征矩阵进行相似度计算,实验证明了本方法取得本文首先介绍了脑恚约叭绾问褂肰对短文本建模进而进行短文本的相似度计算。其次,本文简要介绍三种文本相似度计算公式嗬牍,实验对比了夹角余弦和距离两种相似度计算方法的好坏,最终确定了使用主题模型的原理。简要介绍P驮怼⒉问兰品椒āP偷输入输出。重点介绍P徒<巴贫瞎獭参数估计方法和型的输入输出的文档形式和参数。并且实验对比了两种模型在相似度计算中的效果,作为刚刚提出的文本模型,相比较于传统的针对长文本建模的主题模型,和建模以及概率推断上有着很大优势。最后,本文提出了使用魈饽P投远涛谋咎卣骼┱估锤纳贫涛谋咎卣要。每天级数据的产生,标志着大数据时代的来到。从简单的文本中挖掘舆民意倾向,帮助企业更好的了解用户需求。然而,短文本不像长文本那样具有丰算。在长文本的领域,主题模型的发展和应用已经日趋成熟。但是对于有着数据稀疏性的短文本来说,主题模型还不能脱离长文本的影子。很多论文致力于如何了很好的效果。距离作为本算法中的距离计算方法。然后简要介绍了、和使用外部背景资料进行扩充的短文本处理方法,P屠谜龆涛谋居锪库的丰富信息进行建模和推断,很好的改善了短文本语义稀疏的问题,在短文本摘要
稀疏的问题,后用改善后的短文本特征矩阵计算短文本相似度的方法,首先对短文本特征选择进行去噪处理,建立短文本的特征矩阵,由于该矩阵具有稀疏性,所以用P偷耐贫辖峁远涛谋镜南∈璧奶卣骶卣蠼刑卣骼┱梗ɡ┱后的矩阵作为相似度计算的输入。最后用距离衡量短文本相似度。本文详细介绍了P秃虰模型的输入输出格式、参数,并在论文的末尾附上了P驮ご泶搿1疚氖褂冒俣戎5烙锪霞üT雌教╓械腒算法的分类结果来衡量相似度算法的好坏。结果表明,本方法的效果较好。关键词:P停欢涛谋鞠嗨贫龋幌蛄靠占淠P停惶卣骼┱基于卣骼┱沟亩涛谋鞠嗨贫燃扑
.甌瑃,。瓾痜疭,瑃甌,.,
;籪’.瓵籹基于卣骼┱,.,瓵,甌..
录目短文本建模以及相似度计算现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..笛榻峁第三章主题模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯主题模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯概率隐性语义索引主题模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..魈饽P汀魈饽P图蚪椤魈饽P椭刑囟ㄓ锪系纳晒獭摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..课题背景及其意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.短文本相似度计算⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本文主要内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本文的组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第二章向量空间模型和相似度计算公式⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..向量空间模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.余弦相似性⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.距离⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一嗬搿实验⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..笛槭菁跋喙乇曜肌相关工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯隐性语义索引魈饽P筒问兰啤魈饽P汀⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..
⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..输入预处理程序代码撑魈饽P筒问兰啤实验⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.笛榻峁胺治觥引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.相关工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.≡瘛⒏⋯⋯⋯⋯⋯⋯⋯⋯⋯.第五章总结和展望⋯⋯
基于BTM主题模型特征扩展的短文本相似度计算 来自淘豆网m.daumloan.com转载请标明出处.