摘要
搜索引擎技术的出现帮助为web用户在浩如烟海的福音,目前搜索引擎已经是临的主要困难是检索质量不高,用户满意度不高。
本文试图通过分析“天网”搜索引擎的日志来得到用户访问“天网”系统的一般性规律,并从分析结果出发改造搜索引擎。为此,我们安排了两组实验,一组实验是试探性的,我们统计了用户访问“天网”系统的查询、翻页、点击行为,希望从中得到一些规律;另一组实验是针对性的,我们针对cache系统设计了一组实验,希望能验证cache系统的必要性和可行性,并对cache系统的构成、组织进行模拟测试。通过这些工作,我们发现了用户访问“天网”系统的一些规律,发现了用户的查询词序列、点击url序列、以及索引端的单词访问序列都具有较强的集中性、长期稳定性以及短期相关性,它们从不同角度说明了访问局部性,这个计算机科学中经常讨论的核心现象之一,在海量网络信息环境下的具体体现。
从实验分析结果出发,论文还报告了对“天网”系统三个方面的改进:新增“位置相关性”模块来提高查询质量;改造Cache系统来提高响应速度;增加自动目录导航服务来引导用户,从而全面提高了天网系统的能力和质量。
关键词:搜索引擎,日志分析,位置相关性,目录导航服务
Abstract
Search engine can greatly help web users to quickly discover and locate information on www. Now it has e the second most used service on www. Now primary problems of search engine are low quality of search result, and low satisfaction of users and so on.
This thesis tries to find the general rules of users' access to the Tianwang search engine. We analyzed the log of the Tianwang search engine. There were two groups of experiments, one was exploratory, just generally making statistics about the users’ behaviors of querying, paging, and clicking in the result pages and so on; the other was object-driven, focused on cache system. We tried to validate that cache system is indeed indispensable and feasible. Finally, we found that the sequence of the users’ query words, the pages clicked, and the terms requested to the indexer all possess strong locality.
From the analysis result of experiments, we rebuilt Tianwang System from three aspects. We added position relativity module to improve search quality, reconstructed cache system to reduce response time, and added the service of automate directory navigation to improve the degree of users’ satisfaction.
Keywords: search engine, log analysis, position relativity, directory navigation service
目录
摘要 i
Abstract ii
第一章引言 1
研究背景 1
研究方法 2
本文主要贡献 3
全文组织 4
第二章相关研究 5
搜索引擎 5
搜索引擎发展历史 5
搜索引擎分类 6
搜索引擎发展趋势 8
搜索引擎存在的问题 9
基于Robot的搜索引擎基本原理 1
搜索引擎的日志分析:方法、技术和应用 来自淘豆网m.daumloan.com转载请标明出处.