下载此文档

基于主题模型的文本相似度计算研究和实现.pdf


文档分类:IT计算机 | 页数:约46页 举报非法文档有奖
1/46
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/46 下载此文档
文档列表 文档介绍
摘要摘要当前互联网已经发展到移动互联网时代,不仅仅只有传统的PC机可以浏览互联网,手机、平板电脑等各种移动设备也可以接入互联网,计算机的信息处理已经进入大数据时代。而这些大数据中,很多都是以文本的形式出现,比如 Google每天的搜索日志,Twitter以及微博每天的更新评论数据,Facebook以及腾讯每天用户产生的新数据等,这些数据不是GB量级的,而是每天都是TB 量级的数据,如何对这些浩瀚的文本进行分析挖掘以帮助企业决策或者提高产品的用户体验是当前文本挖掘的主要问题。本文的主要工作在于文本的相似度计算以及文本相似度计算的相关技术,主要的研究工作在于探讨一种鲁棒的相似度计算方法,使其应用范围尽可能的广泛。首先介绍了向量空间模型及其存在的问题,然后是探讨了针对这些问题的一些解决方案,主要工作如下: 首先,简要介绍了向量空间模型的基本原理以及基于向量空间模型的相似度计算方法。接着以同样的方式简要介绍了一下主题模型以及基于主题模型的相似度计算方法。并且详细介绍了主题模型的集合意义和代数意义,从中可以看出主要模型较之向量空间模型有更加丰富的数学和统计基础。其次,简要介绍了LSI,pLSI,LDA模型以及它们的参数估计方法。LDA方法之后主题模型才刚刚兴起,本文介绍了当前针对主题模型一些研究进展情况, 主要进展其中在加入新的可观测变量,面向特点任务,以及引入语义信息者三个方面。然后本文介绍了一种基于pLSI的词共现聚类算法,并在共现词组的基础上建模文本,认为文本的共现词组越多其相似度越大,基于这样的假设建立的相似度算法在实验上验证是有效的。最后提出了基于LDA模型的中文文本建模方法,实验Gibbs抽样算法得出文本的主题空间,并以文本的主题空间为相似度计算对象,运用JS距离度量文本的相似度,实验证明该方法比传统的基于向量空间模型的方法要好。关键字:文本相似度,向量空间模型,主题模型,Gibbs抽样基于主题模型的文奉相似度计算研究与实现 Ab stract The Intemet has developed to the mobile Intemet age,it is not only the traditional PC can browse the ,cell phones,tablet PCs and other mobile devices can access puter information processing has entered the age ofbig data,many of which are theform oftext,such as Google search logs,Twitter andmicro blogging daily updated data,Facebook,and Tencent dailyuser-generated data,etc.,these datawere notGB level,but TB levelofthedata. How toanalyze these huge data tohelp corporate decision-making or improve the user experience main work ofthispaper is putation;the main research work is toinvestigate thesimilarity of arobust method ofcalculating thewidest possible range thevery startwe introduced the vector space model and itsproblems,and then to explore some solutions fortheseproblems,the mainwork is asfollows: First,a briefintroduction tothebasic principles ofthe vector space model and similarity calculation method based on vector space thesame way briefly introduced thetopic model,as well as topic—based model ofsimilarity calculation detailed collection ofsignificance andalgebraicsigni

基于主题模型的文本相似度计算研究和实现 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数46
  • 收藏数0 收藏
  • 顶次数0
  • 上传人beny00001
  • 文件大小0 KB
  • 时间2016-05-19