郑州大学现代远程教育
毕业设计
题目:基于Web的信息检索系统的研究
入学年月2012年秋_____
姓名___陈凯_______
学号 **********
专业_信息管理与信息系统
联系方式__**********_
学习中心______________
指导教师______________
完成时间_2014___年__9__月__6__日
基于Web的信息检索系统的研究
目录
第 I 条 一、前言 2
第 II 条二、信息检索的研究目的 2
节 (一)研究目的 2
第 III 条三、信息检索的原理与技术方法 3
节 (一)、信息检索原理 3
节 (二) 信息检索的技术方法 5
第 IV 条四、信息检索仿真实验 11
节 (一)、文本处理与倒排文档的建立 11
第 V 条总结 28
第 VI 条参考文献 28
第 VII 条致谢 29
摘要
基于Web的信息检索系统的研究,讨论了信息检索的原理、评价方法、研究现状和发展方向,也研究了主流的信息检索算法,对信息检索进行了仿真实验。重点介绍了信息检索的理论、算法和技术框架。提出了面向Web的个性化语义信息检索技术。为了解决或减少检索算法中Hash地址的“碰撞”,把HASH的思想和索引顺序表检索的思想,以及二分检索法的思想结合起来提出一种基于HASH表的二分检索法,通过理论分析和实验证明,该算法检索效率极高。
关键词:信息检索; 原理;算法;软件框架
一、前言
1990年以前,没有任何人能够检索互联网上的信息。应该说,所有的网络信息检索工具都是从1990年的Alan Emtage等人发明的Archie开的,虽然它只可以实现简单意义上的FTP文件检索。随着world wide web 的出现和发展,基于网页的信息检索工具出现并迅速发展起来。1995年基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的Eric Selberg等发明。伴随着网络技术的发展,网络信息检索技术工具也取得了十足的发展,已成为人们获取信息的重要手段。
本文对信息检索的研究内容和研究目的、信息检索的研究现状、传统检索模型等基础内容进行简单介绍;在此基础上,重点介绍了个性化信息检索的相关理论、算法和技术框架。
二、信息检索的研究目的
(一)研究目的
随着计算机的普及和互联网的发展,要想从海量的信息中找到自己需要的信息无疑是一项极具挑战性的工作。显然,仅仅依靠人工搜索和提取,其操作过程将非常繁琐,并且速度和效率极低,信息质量也得不到保证。解决人们获取信息的困难,迫切需要一些自动化的工具帮助人们快速找到真正需要的信息,这就是信息检索的任务。信息检索是互联网上最基础、最核心的技术。一个搜索引擎就是一个检索系统,它掌控着人们从信息海洋中获取有用信息的路径。
三、信息检索的原理与技术方法
(一)、信息检索原理
广义地讲,信息检索包含信息储存和信息检索两个过程。信息储存是对文献进行收集、标引及著录,并加以有序化编排,编制信息检索的工具的过程;信息检索是从大量的信息中查找出用户所需的特定信息的过程。而实施检索的主要方法就是利用各种检索工具()。
信息存储过程
信息标引
主题概念分析
信息
选择
收集
信息资源
信息检索系统
检索(标引)语言
检索结果
主题概念分析
检索提问
信息需求
信息用户
信息检索过程
信息检索的原理
信息储存的工作内容,主要是由标引人员通过对原始文献的阅读分析,对文献中的信息进行鉴别、提炼和浓缩,并采用特定的方式予以整理、保存起来。它大致有如下几个步骤:
(1)选择文献。根据信息检索系统的主题、性质及任务等,结合原始文献本身的研究水平、角度及其信息质量,对原始文献进行适当的评价,从中筛选出符合要求的文献。
(2)文献的概念分析。对所选文献进行仔细的主题分析,提炼出文献所论述的内容主题,归纳为代表文献内容的若干主题概念,并确定这些主题概念之间的关系。
(3)词汇转换。把文献的主题概念转换为适当的文献标识(或标引词),并以这此标识来表达文献的主题内容。这种转换需要严谨地建立在两个依据之上:一是必须以对文献的主题概念分析为依据,二是必须以信息检索语言为依据。前者主要决定转换什么的问题,即需要对文献中的哪些信息主题做出转换;后者主要决定怎样转换的问题,即把主题概念转换为哪些标识。
(4)信息检索工具的编制。概括地讲,检索工具是信息检索系统的核心和概括,它主要包括两个有序化的序列,即文献序列和文献标识序列。
文献序列是由文献描述体或文献本身按照一定的方式组织形成的有序化序列,构成文献库
基于web的信息检索系统说明书 来自淘豆网m.daumloan.com转载请标明出处.