摘要
在中文信息处理中,文本相似度的计算广泛应用于信息检索,机器翻译,自动问答系统,文本挖掘,论文抄袭识别,其中的中文分词环节在搜索引擎,自然语言的处理中起着至关重要的作用,长期以来一直是人们研究的热点和难点。对于中文文本相似度计算,分词是基础和前提,采用高效的分词算法能够极大地提高文本相似度计算结果的准确性;分词中最关键的问题是消歧与未登陆词的识别,本文采用词性转换概率表来进行分词的消歧处理,使用有向拓补图的最短路径来进行分词的处理,得到了比较好的效果。在计算相似度的过程中使用了词频与词序相结合的方法,使用TF-IDF特征法和二部图的最大匹配来计算词频的相似度,但这种方法在颠倒句子中词的顺序时也会得到相同的相似度,必须使用一种能区分词序的算法,马尔科夫模型的状态转移矩阵表示一个词转移到另一词的概率(本文把单个词语作为马尔科夫模型中的一个状态来看待),后在文本相似度计算中,使用一种将最长公共子序列、。
本文使用现代汉语词典与紫光输入法中提供的文本格式词库,来制作适合本项目用的特定格式的索引词库,极大地提高了分词的效率,词性的标注使用1998年人民日报的词性标注,最后测试使用新浪,搜狐,人民网,新华网等各大新闻网站的文本新闻作为测试数据集得到了较好的效果,较准确地统计了两文本文件的相同语数,相似度,并高亮显示相同的部分数据。
关键词:文本相似度;马尔科夫模型;向量空间模型;中文分词;特征向量法
Abstract
In the information processing,the calculation of text similarity has been applied widely in retrieval,machine translation,question answering systems,text mining,paper copy identify ,which the aspects of Chinese words plays a crucial role in the search engine and natural language processing,has long been a focus for researchers and the Chinese text puting,word segmentation is the foundation and prerequisite,the efficient segmentation algorithm is used to greatly improve the accuracy of text similarity calculations;The most critical issue of word segmentation is disambiguation and recognition of not landing text uses part fo speech transition probability table for word disambiguation processing,use plement to the extension of the shortest path to carry out word processing,have been fairly good used the method bining the use of TF-IDF features of law and the maximum bipartite graph matching to calculate ther similarity of word frequency,however,which may return the same similarity of word with reversing order of words in ,we should uses the method which can distinguish the order of the state transition matrix of Markov model represent the probability of one word to another word(the text takes a word as a state of Markov model).And bine the mon subsequence,Markov stat
文本相似度研究(毕业设计论文doc) 来自淘豆网m.daumloan.com转载请标明出处.