下载此文档

网络通讯数据的获取及协议分析.pdf


文档分类:论文 | 页数:约9页 举报非法文档有奖
1/9
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/9 下载此文档
文档列表 文档介绍
网络智能搜索系统

(信息工程学院,计算机系,计算机科学与技术专业祝永坚)
(学号:2000131042)

内容提要:该文介绍了一种网络资源智能搜索系统,一定程度上解决了人们目前面临的
搜索网络资源的问题,使得用户可以检索各种资源形式,而不仅限于网页形式的资源。系统
采取智能的策略获取描述资源的描述字,使得搜索结果尽可能满足用户的需求。该文介绍的
系统区分基于文字内容的资源和非基于文字内容的资源,对基于文字内容的资源采用相关性
评估算法来评估资源满足用户需求的程度。
关键词:网络搜索;搜索引擎;搜索策略
教师点评:实现一个能搜索各种形式资源的搜索系统,有一定的智能性。其获取描述资
源的策略具有一定的创新性,能较好的描述资源,使得非基于文字内容的资源的搜索成为现
实。(点评教师:陆楠职称:副教授)
一、引言
上的信息数量巨大且分散,无法单纯的依靠手工劳动来查找或组织所有的信息。
于是,出现了代替手工查找的系统工具,即搜索引擎。目前已经出现了很多搜索引擎,有的
是全方位的搜索引擎,有的是专业搜索引擎。全方位的搜索引擎特点可以支持任何类型的资
源搜索,但只能搜索由文字内容组成的资源;专业搜索引擎能很好的满足某专业的网络资源
搜索问题,但是仅限于某专业方面的资料。人们经常希望搜索到的结果就是自己所需的资源
形式,因此人们希望出现这样的搜索系统,它能搜索用户希望的各种资源形式,但是不仅限
于特定专业。
本文介绍的系统很大程度上满足了人们的这种搜索需求。该系统能按照用户的设定需
求爬行各个网站,采用智能策略来获取描述资源的描述字,最后得到满足用户需求的结果。
同时本系统还区分开基于文字内容的资源和非基于文字内容的资源,对于基于文字内容的资
源,系统采用相关性评估算法来评估资源满足用户需求的程度。

二、系统组成
系统主要由三部分组成:搜索模块,检索模块和用户输入界面。如图 1 所示:
用户输入界面
搜索模块搜索结果检索模块结果

图 1 系统结构
搜索模块负责根据用户设定的参数,如网站地址,是否搜索外部链接,搜索深度等,
对网站进行遍历。搜索模块采用广度优先算法对网站进行遍历,并根据已定的策略来获取资
源链接和描述该链接的描述字,最后得到一个搜索结果集,检索模块使用该结果集进行检索。
检索模块根据用户通过用户输入界面提供的参数,检索由搜索模块得到的结果集,并
对基于文字内容的链接和非基于文字内容的链接加以区分,对于基于文字内容的链接,采用
相关性算法获取资源的相关性,最后得到一个结果集,通过用户操作界面显示出来。
用户输入界面负责处理用户的操作,对用户的输入进行校验,并将结果显示给用户。

三、搜索模块
HTML 语言
1
作为一个搜索 资源的系统,必须了解网页的形式。目前网页的编码格式已有多
种,但是占大部分的是 HTML 文档,对于 HTML 的组成及相关情况可参考
/?number=2616 Hypertext Transfer Protocol -- HTTP/,在此不再
详述,该网站是 协议标准的官方网站。本文分析资源链接与描述资源链接的描述字
之间的关系,并对 HTML

网络通讯数据的获取及协议分析 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息