搜索引擎的设计与实现芀膁蚅目录膆摘要 3莀ABSTRACT 4芈第一章绪论 6蒀第二章搜索引擎概述 10肀第三章搜索引擎的设计 11蒃 11蚀 12蒁 14芈 17螆 19芄 24肈 26衿 27袀第四章用户接口设计 、登陆 30薆第五章测试与评价 32聿第六章结论和展望 33羇参考文献 35螂致谢 36莀附录 37腿膄蒄腿腿摘要薅互联网的快速发展使得网络中的信息量越来越大,普通用户对信息的检索越来越困难。搜索引擎的出现大大的该少了这种情况,互联网的快速发展也使搜索引擎的不断的发展着,而搜索引擎的逐渐转向商业化运行,使得搜索引擎的技术细节越来越隐蔽。本文以搜索引擎的三个基本功能:网页爬取、网页处理、查询服务为出发点,并按这三个功能将系统进行功能模块划分,技术作为基础,实现了一个搜索引擎。羁网页中存在着大量链接的同时也具有众多的冗余信息,例如,导航信息条、广告栏、版权信息等,这些冗余信息大大限制了网页的可用性,因此在本文中网页爬取的重点就是如何快速的提取这些链接,而网页处理的重点则是去除网页中的冗余信息。本文利用正则表达式的灵活性实现了对网页中链接地址的提取和网页中冗余信息的剔除。在获取链接地址进行网页爬取的同时对网页信息进行提取,同时基于最大化匹配算法实现中文分词算法,e提供的接口功能成功实现对提取网页信息的索引,经过网页信息的提取和分词预处理,检索过程建立的索引更小,检索的效率和结果更加理想,并基于此索引为用户的查询请求提供服务。膂艿羅关键词:搜索引擎;网页爬取;;中文分词;,.,,Pages’ProcessingandProvidingServives,thispaperdividesthesystemintothreefunctionalmodules,,,threearealargenumberoflinks,,webpagescontainalotofredundantinformationg,navigationtools,advertisingfields,copyrightinformationandsoon,’flexibility,’,thispaperrealizesChineseWordSegmentationbasedonMaximumMatching,andachievesindexingofpages’informationwiththeinterfaceoftheinformationextract
搜索引擎 来自淘豆网m.daumloan.com转载请标明出处.