第4章网络信息资源检索
概述
网络检索工具—搜索引擎
综合性搜索引擎
专业性搜索引擎
特色搜索引擎
1
网络信息资源的定义、特点
定义:
从字面上理解,网络信息资源是指“通过计算机网络可以利用的各种信息资源的总和”。具体的说是指所有以电子数据的形式把文字、图像、声音、动画等多种形式的信息存贮在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。
2
网络信息资源的的特点:
(1)数量庞大,增长迅速。最大的搜索引擎Google已收录200亿网页,且每年以级数的速度在增长。据预测,到2008年Google收录网页将超过1000亿。
(2)内容丰富,形式多样。通过因特网可以获取学习、娱乐、工作、生活、购物等各方面的信息。另外,资源有有文本、视频、音频、动画多种表现形式。
(3)变化频繁,价值不一。比较大的网站的一般信息一般每天更新一次,特别是新闻信息实时更新,大网站的内容更新快且真实可靠,小网站或个人网站虽不乏优秀和可参考的信息,但质量良莠不齐。
(4)结构复杂,分布广泛。网络信息主要采取万维网WWW---网页形式—超链接结构,但网上还有大量的FTP文件,论坛信息,新闻组信息,不同的信息结构需要不同的检索工具。
(5)信息分散、无序。互联网是一个基于TCP/IP协议的联结各国、各机构数以万计的计算机网络的通信网,对网络信息资源本身的组织管理无统一标准和规范,网络信息分散于不同国家、不同地区服务器上,采用不同的操作系统及数据结构,字符界面、图形界面、菜单方式、超文本方式等,缺乏集中统一的管理机制。
3
网络信息资源的类型
按人类信息交流的方式分类:
非正式出版信息。如电子邮件、电子会议、专题组和论坛、电子公告板新闻等。
正式出版物。即用户可以查询到的各种数据库、联机杂志、电子版工具书、报纸、专利信息等。
从网络信息检索角度,按信息查询方式对网络信息进行分类:
(1) 互联网(WWW)信息。
(2) FTP信息。
(3) 信息。
(4) /Newsgroup信息资源。
(5) USTSERV/Mailing List 信息。
(6) Gopher信息。
4
若按组织形式分,可将网络信息资源分为以下三种类型:文件型、数据库型、超媒体型。
按时效性分,可将网络信息资源分为动态信息、电子报纸、电子期刊、电子图书、联机馆藏目录、联机数据库等。
按信息的媒体形式分为:文本信息、超文本信息、多媒体信息。
按网络信息服务方式分为:网站信息、新闻组信息、论坛信息、文件服务信息。
按信息格式分为:HTML、TXT、DOC 、PDF、 RM、 MP3……。
5
网络信息检索的一般方法
(1)偶然发现。
(2)顺“链”而行。
(目录型检索工具)
6
网络检索工具—搜索引擎
搜索引擎概念
搜索引擎基本原理
搜索引擎的原理,可以看作三步:
从互联网上抓取网页
建立索引数据库
在索引数据库中搜索排序。
7
搜索引擎类型
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
(1)目录式搜索引擎:
(2)全文搜索引擎:
(3)元搜索引擎:
超搜索---据库来源于五大搜索引擎Google、雅虎、百度、iAsk以及搜狗。
8
综合性搜索引擎
Google的使用
百度的使用
新浪爱问的使用
搜狐搜狗的使用
9
Google的使用
两位斯坦福大学的博士生 Larry Page 和 Sergey Brin 在 1998 年创立了 Google。 Google是目前因特网上最大的搜索引擎
2006年4月12日Google公司宣布Google的全球中文名称正式取名为“谷歌”。
. (屏蔽了一些网站)
10
第4章 网络信息资源检索 来自淘豆网m.daumloan.com转载请标明出处.