下载此文档

中山大学硕士学位论文.doc


文档分类:论文 | 页数:约57页 举报非法文档有奖
1/57
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/57 下载此文档
文档列表 文档介绍
中山大学硕士学位论文
基于内容的全文检索方法研究
及其在数据库eBaseIII系统中的实现
唐国华
导师李磊教授
专业计算机软件与理论
研究方向数据库与知识库
答辩委员会委员(签名):
主席:
委员:
二00一年六月八日
摘要 4
Abstract 5
致谢 6
第一章前言 7
论文贡献和内容 7
第二章全文检索理论及方法 9
全文检索系统的基本框架 9
全文检索系统理论及模型 10
信息检索的数学模型 10
向量空间检索模型 13
基于向量空间模型的检索策略 17
著名的全文检索系统 24
SMART全文检索系统 25
LSI++检索系统 25
TRS全文检索软件 25
第三章 全文检索软件的实现 26
前言 26
特征提取方法 26
中文特征项的选取问题 26
基于字串预分割的二元语法策略 27
英文特征项的选取 29
隐含语义索引在全文检索软件中的应用 30
特征项-文档矩阵表示 30
加权方法 30
计算奇异值分解 31
查询映射及匹配 31
基于SOM的文档索引策略 32
文档索引问题 32
基于SOM的索引算法 33
实验结果与分析 35
FullTextRetrieval系统 35
测试配置 36
测试结果 36
第四章数据库eBaseIII的系统实现 40
数据库eBaseIII简介 40
eBase系列简介 40
非结构化数据与关系数据库 40
全文检索在eBaseIII数据库系统中的实现 41
数据建模 41
逻辑框架 43
功能框架 47
在eBaseIII中实现特征向量字段索引的合理性 48
全文检索功能在eBaseIII中的使用示例 49
小结 51
第五章应用前景 52
第六章总结 55
本文工作总结 55
今后全文检索发展方向 55
参考文献 57
摘要
大量电子文档的出现使得人们有必要开发自动全文检索系统以代替手工检索。传统的自动全文检索方法主要有三种:概率检索,布尔检索和向量空间检索。概率检索和布尔检索已经逐渐被淘汰。现在大部分的全文检索系统都采用基于向量空间模型的检索方法。本文重点描述向量空间模型及其扩展。
特征项抽取是全文检索的一个重要环节。特征项的选择和提取是全文检索系统一个基本的问题,同时又是一个重要的问题。本文对各种特征项抽取方式进行了详细的论述,通常是选取词作为特征项,但对于中文文本而言,因为词与词之间没有天然的分隔符,所以传统的中文全文检索系统大多是以字为特征项。我们提出了基于中文字串预分割的二元语法策略,它既保留了以字为特征项的各种优点,同时又在一定程度上解决了以字为特征项进行检索的误组配问题。
查询与文档的匹配也是全文检索的一个关键部分,基于字面的匹配是最为直接简单的方法,而且被实践证明是有效的,而我们结合了隐含语义索引和自组织神经网络索引方法,则在基于字面检索的基础上,实现了基于内容的检索,实验结果表明,该方法能够有效地提高检索的速度和性能。
我们对自行开发的数据库管理系统eBASEIII进行扩展以实现全文检索功能。我们在基于字面检索的基础上,引入隐含语义索引和神经网络的方法,将非结构化数据检索转化为概念空间的分类和特征向量的匹配,有效地将全文检索功能嵌入到数据库中,在保证检索性能的前提下,提高了检索速度。
关键字:自动全文检索,向量空间模型,特征项抽取,字串预分割,二元语法,隐含语义索引,神经网络,基于字面匹配,基于内容检索,eBaseIII
Abstract
The huge number of textual documents available in electronic form emphasizes the need of automatic full-text retrieval system instead of manual indexing retrieval system. There are three approaches to traditional full text retrieval system: probability, boolean and vector space model. The probab

中山大学硕士学位论文 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数57
  • 收藏数0 收藏
  • 顶次数0
  • 上传人国霞穿越
  • 文件大小550 KB
  • 时间2018-09-08
最近更新