基于搜索日志的用户行为分析及应用.docx


文档分类:IT计算机 | 页数:约128页 举报非法文档有奖
1/128
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/128
文档列表 文档介绍

独创性(或创新性)声明
本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
申请学位论 处,本人承担一切相关责任。本人签名: 日期: 丝:盖:2:三垒
关于论文使用授权的说明
学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)
非保密论文 于保密范围,适用本授权书。本人签名: 日期:笙垄:z:!查 一.
导师签名: 日期: 塑量:三:堑
北京邮电大学博_上学位论文
捅要
搜索引擎的出现,成为互联网发展史上又一个重要的里程碑。越来越多的互联网用户开始选择搜索引擎作为其获得网络资源的首选工具。但是搜索引擎的表现并不总是尽如人意,很多时候当用户输入一个查询,搜索引擎返回成千上万个搜索结果,然而很少有用户愿意浏览三页以上的搜索结果。此外,由于用户的水平存在较大差异,不少用户构造的查询并不能完全表达其搜索意图。对搜索日志的挖掘能够有效的解决这一系列问题。本文着眼于搜索日志的分析和应用,主要对用户搜索行为模型、搜索行为分类、网页排序算法的优化、异常搜索行为的检测等问题进行研究,论文工作主要包括以下几个方面:
(1)对搜索日志进行基本分析,包括搜索日志各个属性及其相互之间的关系,发现了大规模中文搜索引擎用户的一些基本搜索特征。首次引入了中文分词算法,使关于查询词的分析结果更接近中文搜索引擎实际情况。首次分析了网页URL深度和被点击次数的关系,并根据对不同时期搜索日志的分析,发现了中文搜索引擎用户的搜索行为变化趋势。
(2)分别从抽象和具体的角度对用户的搜索行为进行了分类。首次从搜索日志中提取用户搜索行为模型,并从抽象的角度概括用户搜索行为的各种表现形式。通过网页分类的相似性及网页向量的相似性对模型进行了校正。为基于搜索行为的相关研究提供了基础。引入了历史查询分析,并计算了历史查询的影响因子。
(3)提出了一种基于预定义类别的搜索分类算法,将基于朴素贝叶斯理论的网页分类技术和用户搜索日志相结合,使搜索分类能够体现用户的搜索意图,,提高了分类的准确率。
(4)提出了一种网页排序优化算法。该算法在原有网页排序结果的基础上,结合用户搜索日志,采用混合频繁模式树算法,能够有效发现搜索事务的关联规则,并对查询词进行扩展。选择对原排序结果的前N个网页进行优化排序,既保证了搜索结果的相关性和覆盖率,同时使排序结果更能够体现用户的搜索需求。此外,将用户搜索行为模型应用于网页排序优化算法,通过计算历史查询词的影响因子,使排序结果能够实时体现用户搜索意图。
(5)分析了异常搜索行为潜在的安全威胁,并根据不同异常搜索行为的特征对其进行了分类,包括基于内容的异常搜索及基于流量的异常搜索。提出了一个异常搜索行为检测框架,并采用优化的决策树算法对不同异常搜索行为进行检测。
关键词: 搜索引擎、数据挖掘、搜索同志、搜索分类、网页排序、搜索行为模型、异常搜索行为检测
北京邮电大学博士学位论文
Abstract
The world wide application of search engine call be a milestone of the evolution of .More and more people are willing to choose search engine嬲the primary tool for hunting resources from the performance of search engine is not always time search engine will return thousands of related web pages when we input a ,few pages are us舒-ul and few people would like to view the results over
3 result p

基于搜索日志的用户行为分析及应用 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数128
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wz_198613
  • 文件大小13.25 MB
  • 时间2018-06-25