1
文本相似度算法基本原理
文本相似度含义
文本相似度来自于相似度概念,相似度问题是一个最基本的问题,是信息科
学中绕不过去的概念,在不同的应用方向其含义有所不同,但基本的内涵表示了 一个信息结构
1
文本相似度算法基本原理
文本相似度含义
文本相似度来自于相似度概念,相似度问题是一个最基本的问题,是信息科
学中绕不过去的概念,在不同的应用方向其含义有所不同,但基本的内涵表示了 一个信息结构与另外一个信息结构的一致程度,从某个角度研究时特征量之间的 距离大小 [10]。比如,在机器翻译方面是指词这个基本单位的可替代性,在信息 检索方面是指检索结果与检索内容的一致性,在自动问答方面是指搜索的结果与 输入的问题的匹配程度。这充分表明文本相似度研究和应用领域十分广泛,所表 达的含义也十分不同。从本文研究的角度来看,文本相似度可以描述为:有 A、 B 两个对象,二者之间的公共区域越多、共性越大,则相似程度越高;若二者没 有关联关系,则相似程度低。在文本相似度研究方面,一个层次是研究文档中以 篇章、句子、词语衡量相似程度,这不同层次衡量算法也不同,研究的标准和依 据也不同,算法的复杂程度也不同。从这个意义上,可以运用在新闻领域对新闻 稿件进行归档,按照新闻的领域分门别类的存放在一起;也可以运用在信息检索 进行信息查询,作为一个文本与另一个文本之间相似程度测量的基本方法。
文本相似度计算方法分类
当前研究文本相似度都是以计算机作为计算工具,即利用计算机算法对文本
进行分类,在各个领域应用十分广泛,比如包括网页文本分类、数据智能挖掘、 信息识别检索、自动问答系统、论文查重分析和机器自主学习等领域,其中起最 关键作用的是文本相似度计算算法,在信息检索、数据挖掘、机器翻译、文档复 制检测等领域有着广泛的应用。
特别是随着智能算法、深度学习的发展,文本相似度计算方法已经逐渐不再 是基于关键词匹配的传统方法,而转向深度学习,目前结合向量表示的深度学习 使用较多,因此度量文本相似度从方法论和算法设计全局的角度看,一是基于关 键词
文本相似度算法基本原理 来自淘豆网m.daumloan.com转载请标明出处.