下载此文档

基于概念语义相似度的文本信息检索研究.docx


文档分类:IT计算机 | 页数:约51页 举报非法文档有奖
1/51
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/51 下载此文档
文档列表 文档介绍
第一章绪论
间语义相似度计算是国内外研究的热点之一。目前主要从三个方面研究,分别是
简单直观的基于距离的语义相似度计算模型,基于信息内容的语义相似度计算模
型和基于属性的语义相似度计算模型[11][12][13]。
国内关于概念语义相似度计算近年发表了了大量的文献,文献[14]提出了一
种 K2CM (keyword to concept method)方法,从词语--文档--概念所属程度和词语-
-概念共现程度两个方面来计算词语--概念相关程度,并把相似度计算方法运用
到查询扩展方法中提高查询效果。文献[15]提出了一种在计算概念语义相似度
时,综合考虑语义重合度、语义距离和层次深度三个因素的方法,并把该方法运
用于智能检索系统中。文献[16]提出了一种改进的基于语义距离的概念相似度计
算方法,充分利用了本体的层次结构,考虑了概念所处层次结构的深度和节点分
类细致程度。文献[17]在计算概念相似度时考虑了概念的名称、实例、属性,分
类结构以及概念间关系等。
本文所做工作
本文首先在信息检索、语义Web和本体学习的基础上,参照斯坦福大学提供
的“wine”本体实例,创建了一个关于“葡萄酒”领域的中文本体。然后对概念语
义相似度计算方法进行研究和改进,并在此基础上提出了一种基于语义的信息检
索方法,并实验所述方法的有效性。
本文的主要内容组织如下:第二章简要介绍了信息检索的基本知识,并详细
论述了全文检索工具包Lucene;第三章主要对语义Web和本体(Ontology)技术
进行概述,并创建了一个关于“葡萄酒”领域的本体;第四章对概念语义相似度
计算方法进行了综合的研究,改进了基于语义距离的计算方法,最后提出了综合
的语义相似度计算方法并实验验证该方法的有效性;第五章提出了基于概念语义
相似度的文本信息检索方法,并对其中改进的查询扩展机制和排序过滤机制进行
了详细的论述。最后,把此方法与传统的信息检索进行实验分析比较。第六章是
总结和对未来工作的展望。
3
基于概念语义相似度的文本信息检索研究
第二章信息检索技术概述
信息检索的概念及类型
信息检索的概念
信息检索是从信息资源集合中找出所需信息内容的过程[18 ]。广义而言,信息
资源检索包括两个过程,一是信息资源的存储,所谓存储是对有关信息进行选择,
并对信息特征进行著录、标引和组织,建立信息数据的过程;二是信息资源的检
索,所谓信息检索是根据提问制定检索策略和表达式,利用信息数据库查找信息
资源的过程。从狭义上讲,信息检索仅指信息资源的检索。
信息检索的类型
信息检索按照不同的标准可以分为不同的类型,比较普遍的划分方法。
(1)按照信息检索的内容划分可分为文献信息检索、数据信息检索和事实信
息检索。
文献信息检索:文献信息检索按照其信息系统、内容及结果可以分为线索检
索和全文检索:线索检索是从存储有标题项、作者项、出版项或文摘项的检索系
统获得有关的信息检索;全文信息检索是从存储整片论文、专利说明乃至整本书
著作等一次文献检索系统中获得全文信息。
数据信息检索:从存储有大量数据、图表的检索系统中获取数值性信息,以
具有数量性质、并以数值形式表示的数据为检索的目的和对象,如利用各种手册、
年鉴、图谱、表谱等。检索的结果是经过测试、评价过得各种数据,可以直接用
于比较分析或定量分析。数据信息检索是一种确定性检索。
事实信息检索:是从存储有大量知识信息、事实信息、和数据信息的检索系
统中获得某一事项的具体答案,如利用各种百科全书、年鉴、和名录等,是对特
定事件或事实的检索,包括事物的性质、定义、原理以及发生的时间、地点、经
过等。检索的结果是有关某以事物的具体答案。
(2)按信息资源检索技术划分,可分为全文文本检索、超文本检索、多媒体
检索和网络信息检索。
全文文本检索:也称全文数据库检索,它通过计算机将文件的全貌包括文字
4
第二章信息检索技术概述
和图形、图像等信息转化成计算机可读形式,直接采用自然语言来设置检索入口,
检索时以文中任意信息单元作为检索点,计算机自动进行高速比照,完成检索过
程。
超文本检索:是指超文本(Hypertext)的内容排列是非线性的,它按知识单元
及其他关系建立起来的知识结构网络。超文本的检索是通过超文本链接
(Hyperlink)来实现的,超文本链接起信息导向作用,用户在从一个页面转到另一
个页面的过程中获取自己所需要的信息。
多媒体检索:是指能够支持两种以上媒体的数据库检索,多媒体数据库存储
以及数据库检索技术对文字、图像、图形、动画、声音等媒体的数据进行统一的
存取与管理成

基于概念语义相似度的文本信息检索研究 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数51
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2024678321
  • 文件大小510 KB
  • 时间2018-08-02