下载此文档

文本相似度研究(毕业设计论文doc).doc


文档分类:论文 | 页数:约43页 举报非法文档有奖
1/43
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/43 下载此文档
文档列表 文档介绍
摘要
在中文信息处理中,文本相似度的计算广泛应用于信息检索,机器翻译,自动问答系统,文本挖掘,论文抄袭识别,其中的中文分词环节在搜索引擎,自然语言的处理中起着至关重要的作用,长期以来一直是人们研究的热点和难点。对于中文文本相似度计算,分词是基础和前提,采用高效的分词算法能够极大地提高文本相似度计算结果的准确性;分词中最关键的问题是消歧与未登陆词的识别,本文采用词性转换概率表来进行分词的消歧处理,使用有向拓补图的最短路径来进行分词的处理,得到了比较好的效果。在计算相似度的过程中使用了词频与词序相结合的方法,使用TF-IDF特征法和二部图的最大匹配来计算词频的相似度,但这种方法在颠倒句子中词的顺序时也会得到相同的相似度,必须使用一种能区分词序的算法,马尔科夫模型的状态转移矩阵表示一个词转移到另一词的概率(本文把单个词语作为马尔科夫模型中的一个状态来看待),后在文本相似度计算中,使用一种将最长公共子序列、。
本文使用现代汉语词典与紫光输入法中提供的文本格式词库,来制作适合本项目用的特定格式的索引词库,极大地提高了分词的效率,词性的标注使用1998年人民日报的词性标注,最后测试使用新浪,搜狐,人民网,新华网等各大新闻网站的文本新闻作为测试数据集得到了较好的效果,较准确地统计了两文本文件的相同语数,相似度,并高亮显示相同的部分数据。
关键词:文本相似度;马尔科夫模型;向量空间模型;中文分词;特征向量法
Abstract
In the information processing,the calculation of text similarity has been applied widely in retrieval,machine translation,question answering systems,text mining,paper copy identify ,which the aspects of Chinese words plays a crucial role in the search engine and natural language processing,has long been a focus for researchers and the Chinese text puting,word segmentation is the foundation and prerequisite,the efficient segmentation algorithm is used to greatly improve the accuracy of text similarity calculations;The most critical issue of word segmentation is disambiguation and recognition of not landing text uses part fo speech transition probability table for word disambiguation processing,use plement to the extension of the shortest path to carry out word processing,have been fairly good used the method bining the use of TF-IDF features of law and the maximum bipartite graph matching to calculate ther similarity of word frequency,however,which may return the same similarity of word with reversing order of words in ,we should uses the method which can distinguish the order of the state transition matrix of Markov model represent the probability of one word to another word(the text takes a word as a state of Markov model).And bine the mon subsequence,Markov stat

文本相似度研究(毕业设计论文doc) 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数43
  • 收藏数0 收藏
  • 顶次数0
  • 上传人aidoc1
  • 文件大小0 KB
  • 时间2015-08-28