下载此文档

文本相似度算法基本原理.doc


文档分类:IT计算机 | 页数:约2页 举报非法文档有奖
1/2
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/2 下载此文档
文档列表 文档介绍
1


文本相似度算法基本原理
文本相似度含义
文本相似度来自于相似度概念,相似度问题是一个最基本的问题,是信息科
学中绕不过去的概念,在不同的应用方向其含义有所不同,但基本的内涵表示了 一个信息结构
1


文本相似度算法基本原理
文本相似度含义
文本相似度来自于相似度概念,相似度问题是一个最基本的问题,是信息科
学中绕不过去的概念,在不同的应用方向其含义有所不同,但基本的内涵表示了 一个信息结构与另外一个信息结构的一致程度,从某个角度研究时特征量之间的 距离大小 [10]。比如,在机器翻译方面是指词这个基本单位的可替代性,在信息 检索方面是指检索结果与检索内容的一致性,在自动问答方面是指搜索的结果与 输入的问题的匹配程度。这充分表明文本相似度研究和应用领域十分广泛,所表 达的含义也十分不同。从本文研究的角度来看,文本相似度可以描述为:有 A、 B 两个对象,二者之间的公共区域越多、共性越大,则相似程度越高;若二者没 有关联关系,则相似程度低。在文本相似度研究方面,一个层次是研究文档中以 篇章、句子、词语衡量相似程度,这不同层次衡量算法也不同,研究的标准和依 据也不同,算法的复杂程度也不同。从这个意义上,可以运用在新闻领域对新闻 稿件进行归档,按照新闻的领域分门别类的存放在一起;也可以运用在信息检索 进行信息查询,作为一个文本与另一个文本之间相似程度测量的基本方法。


文本相似度计算方法分类
当前研究文本相似度都是以计算机作为计算工具,即利用计算机算法对文本
进行分类,在各个领域应用十分广泛,比如包括网页文本分类、数据智能挖掘、 信息识别检索、自动问答系统、论文查重分析和机器自主学习等领域,其中起最 关键作用的是文本相似度计算算法,在信息检索、数据挖掘、机器翻译、文档复 制检测等领域有着广泛的应用。
特别是随着智能算法、深度学习的发展,文本相似度计算方法已经逐渐不再 是基于关键词匹配的传统方法,而转向深度学习,目前结合向量表示的深度学习 使用较多,因此度量文本相似度从方法论和算法设计全局的角度看,一是基于关 键词

文本相似度算法基本原理 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数2
  • 收藏数0 收藏
  • 顶次数0
  • 上传人cengwaifai1314
  • 文件大小34 KB
  • 时间2022-05-29