下载此文档

文本相似度算法基本原理.doc

文档分类：IT计算机 | 页数：约2页举报非法文档有奖

1/2

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/2 下载此文档

文档列表 文档介绍

1

文本相似度算法基本原理
文本相似度含义
文本相似度来自于相似度概念，相似度问题是一个最基本的问题，是信息科
学中绕不过去的概念，在不同的应用方向其含义有所不同，但基本的内涵表示了一个信息结构
1

文本相似度算法基本原理
文本相似度含义
文本相似度来自于相似度概念，相似度问题是一个最基本的问题，是信息科
学中绕不过去的概念，在不同的应用方向其含义有所不同，但基本的内涵表示了一个信息结构与另外一个信息结构的一致程度，从某个角度研究时特征量之间的距离大小 [10]。比如，在机器翻译方面是指词这个基本单位的可替代性，在信息检索方面是指检索结果与检索内容的一致性，在自动问答方面是指搜索的结果与输入的问题的匹配程度。这充分表明文本相似度研究和应用领域十分广泛，所表达的含义也十分不同。从本文研究的角度来看，文本相似度可以描述为：有 A、 B 两个对象，二者之间的公共区域越多、共性越大，则相似程度越高；若二者没有关联关系，则相似程度低。在文本相似度研究方面，一个层次是研究文档中以篇章、句子、词语衡量相似程度，这不同层次衡量算法也不同，研究的标准和依据也不同，算法的复杂程度也不同。从这个意义上，可以运用在新闻领域对新闻稿件进行归档，按照新闻的领域分门别类的存放在一起；也可以运用在信息检索进行信息查询，作为一个文本与另一个文本之间相似程度测量的基本方法。

文本相似度计算方法分类
当前研究文本相似度都是以计算机作为计算工具，即利用计算机算法对文本
进行分类，在各个领域应用十分广泛，比如包括网页文本分类、数据智能挖掘、信息识别检索、自动问答系统、论文查重分析和机器自主学习等领域，其中起最关键作用的是文本相似度计算算法，在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。
特别是随着智能算法、深度学习的发展，文本相似度计算方法已经逐渐不再是基于关键词匹配的传统方法，而转向深度学习，目前结合向量表示的深度学习使用较多，因此度量文本相似度从方法论和算法设计全局的角度看，一是基于关键词

文本相似度算法基本原理来自淘豆网m.daumloan.com转载请标明出处.