复旦大学
硕士学位论文
Web信息检索的关键技术研究
姓名:顾健
申请学位级别:硕士
专业:计算机应用技术
指导教师:黄萱菁
20040524
摘要篲谌找娉晌R桓鲋匾5男畔⒗丛础H绾味訵迫切需要解决的问题。因此,基于男畔⒓焖骷际踉嚼丛绞艿饺嗣堑闹厥樱现了一个畔⒓焖飨低常⑹褂酶孟低澈拖喙啬?椴渭恿说谑唤煳谋炯索会议和年度苹形募扑慊募焖飨低车钠啦猓〉本文介绍了焖鞯暮诵募际酰ㄈ志涞募焖髂P停翰级焖髂型、向量空间检索模型和概率检索模型。介绍了最短片断检索算法,并且给出了针对最短片断算法改进的扩展布尔检索算法,提高了阉饕娴募焖骶ǘ取本文论述了利用链接信息优化焖鞯募际酰樯芰四壳傲餍械亩嘀至接分析方法,并对其逐一作了详细的讨论。对这些方法作了分类和评价,总结了目前的链接方法的优缺点,揭示了其背后的本质和理论假设,并作了一些讨论和本文同时描述了一种利用链接信息检索丶试吹乃惴ǎ晗附樯芰该算法的体系结构和实现细节。该算法的核心为基于网页的文档评分计算其链接评分,并将综合网页内容、结构评分和链接评分得到网页的综合评分。其本质是增加链接分析的有效性,从而提高焖鞯恼逍阅堋关键词:畔⒓焖鳎疃唐嗡惴ǎ┱共级焖鳎唇臃治随着互联网的发展,信息进行整理和检索,使得用户能够更好地利用系男畔⒆试矗且桓也是当前研究的前沿课题。本文工作主要集中在畔⒓焖髁煊颍杓撇⑹了较好的成绩。展望。
曲一,.甌,猙.:琫甌瑃:瑃..甌’甌瑆瓼琤甌,.,琒珽琇甀.’
第一章概述网,正在以飞快的速度扩展。据统计【浚月,能够访问到的公开的总容量大约为2⑶遥湫畔⒌脑龀に俣雀泳H耍琖网站从万增长到万,只用了个月,平均每月新增近万个网站【。然而在如今的希畔⑿枨蟮脑龀に俣却蟠蟪送嫌涤械男畔量的增长速度。信息的纷繁芜杂在某种程度上限制了姆⒄埂⑾拗屏诵息共享的最大可能性。使用合适的信息处理工具来利用上的资源将给我系奈牡岛痛车奈牡当冉希泻芏嘈碌奶氐悖鞘欠植嫉模旃沟模无结构或者半结构的,并且网页之间还具有很强的互连性。研究数据表明【浚平均每个网页拥有个内部链接和个外部链接。网页的这些特性使得与其他的信息源有着巨大的区别,对传统信息检索技术提出了新的挑战。另一方面,职舜呈莼肪乘挥械牧硪恢址岣恍畔ⅲ椿チM某接拓扑结构,越来越多的学者已经开始致力于这方面的研究。新一代的搜索引擎合理地利用链接信息提高了焖鞯淖既仿屎驼倩芈剩唇有畔⒁渤为当前畔⒓焖鞯囊桓鲅芯咳鹊恪本文主要探讨畔⒓焖髦械墓丶际酰诰浼焖髂P偷暮诵募焖算法,以及关于如何在现有检索技术的基础上,利用车牧唇有畔ⅲ动地得到更高质量的检索结果,进一步提高畔⒓焖鞯男阅堋信息检索与阉饕信息检索,通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。它是整理、利用信息的有效方法,在产生之前,信息检索就本文的目的及意义我们正处于一个信息爆炸的时代,信息发布及更新的速度远大于整理、利用信息的速度。万维网且桓鼍薮蟮模植既虻男畔已经拥有超过万个不同的网站,而网页们的学习与工作带来极大的便利与极高的效率。在这种背景下,搜索引擎应运而生,并且获得了巨大的成功,比较著名的有,琁,等。复旦大学硕士论文
已经是一个备受关注的学术研究领域了。相对上的信息来说,具有规模较小、内容较为一致等特点,如新闻报道获取和网络信息导航工具。信息检索已经发展到网络化和智能化的阶段。信息检系募焖飨低常簿褪峭ǔK档乃阉饕妫窃诖车男畔⒓焖飨搜索需要处理几千万甚至上亿的网页。二是检索要求。信息太多,查准和排序就特别重要,查全率显得相对次要。现有的阉饕嫠淙荒芄槐憬莸匕镏没д业剿枰5奈牡担欠回给用户的是一批原始的相关文档,还是不能高效、准确地反馈给用户最需要的信息。因此,畔⒓焖骰褂泻艽蟮挠呕嗟兀梢远栽嫉南喙匚牡底鼋与本论文密切相关的系统评测文本检索会议,简称俏谋炯焖髁煊蜃权威的国际会议之一,代表了当今世界文本检索领域的最高水平。在吴立德老师、黄萱菁老师、牛军钰老师的指导下,作者参加了第十一届会议的。另外,作者还参年度苹形男畔处理与智能人机接口技术评测中的中文计算机全文检索系统的评测。本文的组织第二章将介绍畔⒓焖鞯姆⒄估泛脱芯肯肿础=樯鼙玖煊虻闹匾Q究组织和会议,畔⒓焖鞯难芯肯肿矗约白钚碌姆⒄骨魇啤第三章介绍畔⒓焖鞯暮诵募际酰ㄈ志涞募焖髂P停约耙种基于最短片断算法改进的扩展布尔检索核心算法。这种算法应用于焖鳎提高了检索结果的准确率,取得了不错的效果。第四章,系统介绍了各种利用链接分析优化焖鞯募际酰ㄗ钪的和算法,分析了它们的优缺点,并对这些算法作了分类和评然而传统的信息检索算法及系统通常都是为特定语料集设计的。这些语料集库或是媸图书馆的目录等【俊5鼻埃
Web信息检索的关键技术研究 来自淘豆网m.daumloan.com转载请标明出处.