下载此文档

主题相关的PageRank算法的改进策略的研究和实现.pdf


文档分类:IT计算机 | 页数:约86页 举报非法文档有奖
1/86
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/86 下载此文档
文档列表 文档介绍
中国海洋大学
硕士学位论文
主题相关的PageRank算法的改进策略的研究和实现
姓名:刘文
申请学位级别:硕士
专业:计算机软件与理论
指导教师:姚文琳
20090101
主题相关的算法的改进策略的研究和实现摘要随着网络技术的迅猛发展,殉晌P畔⒎⒉肌⒔换ゼ盎袢〉闹饕9ぞ撸它涉及新闻、广告、消费、金融、教育、电子商务等许多领域。哂兴母特点:庞大性、动态性、异构性、半结构化的数据结构环境。此外,拱含丰富和动态的超链接资源。面对庑┕逃刑氐悖嗣且4诱庑┖A康氖据中查找数据和信息,使用最多的就是搜索引擎技术。就搜索引擎技术领域来说,可以通过分析一个网页或整个网站链接和被链接的数量、对象,建立身的链接结构模式,通过分析和研究、等基于链接结构的搜索结果排名算法,可以指导网站链接结构优化,有组织,有规划地提高网页在搜索结果中的排名,避免盲目处理造成的混乱结果。本文主要针对目前主流的算法,集中研究了算法的形成思路、计算方法等。在实现了算法的基础上,针对算法在基于的海洋文献智能信息检索系统应用中的缺陷,对算法加以改进,在算法中增加了文本文档可能性的判断和主题相关性的判断,提出了惴ǎ⑹迪指盟惴ā由于现在网络资源的繁多,为了提高系统的查准率,本文引入了技术咎寮际,设计并实现了基于本体的海洋领域智能文献信息检索系统,分析了传统网络信息检索方面的在知识检索中准确率不高的缺点,提出了基于的海洋领域智能文献信息检索系统的实现结构框架,将法应用于基于的海洋文献智能信息检索系统中,并做出验证。经实验证明,算法行岣吡烁孟低臣焖髯既沸院陀行裕证了所提出的惴ɡ砺鄣暮侠硇裕橹ち怂惴ㄔ诤Q笪南字悄苄畔检索系统的应用中的正确性。关键词:搜索引擎;算法;主题相关;算法
,:辬,.,琭,,..,瓵·.,÷.
甒:篜;;
过的研究成果,也不包含未获得——或其他教育机构的学位或证书使用过学位论文作者签名。州茏导师签字:占㈣文签字日期:矽书鮦日学位论文作者签名:石叫签字日期:螅蚮砂月妇学位论文版权使用授权书签字日期:≥卯彦年,调独创声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ示谢意。
第滦髀课题背景随着网络技术的发展和网络的普及,已经深入到社会生活的各个角落,成为人们日常信息获取的最主要的信息源。据统计,截至年氯镜阕苁嘉颍瑆页面总数约为冢一乖谝悦刻万的速度增长【,面对如此浩瀚的信息海洋,人们如何准确、有效的发现自己所需的信息呢当前,人们从网络中获取信息的主要手段是使用俣取】等通用搜索引擎【,通过向目标搜索引擎提交查询关键字,搜索引擎返回查询结果,人们再在返回结果中人为过滤出有用信息。目前的搜索引擎接收到用户的查询请求后,首先对用户提交的关键字进行分词、截词处理【,生成一个中间查询关键字的集合,然后再对该集合内的每一个词在索引库中进行匹配,根据匹配的布尔值返回结果,如果返回值为真,则将该项索引对应的结果地址和该恼R作为查询结果返回。所以,这是一种机械的匹配,其存在的主要缺陷有:槿屎筒樽悸什桓哂捎谀壳暗牟檠饕J枪丶值挠残曰灯ヅ洌欢一个词往往有多种表达方式,因此注定查询结果的查全率和查准率得不到保证。阎荒芊⑾中畔ⅲ皇侵J丁对于目前的搜索引擎,网页中的内容只不过是一堆二进制代码,这时搜索引擎和网页的关系就如同一个文盲和一篇课文的关系,由于搜索引擎不会“读课文圆荒艽油持械玫饺魏沃J丁荒艽硗宕屎鸵淮识嘁逦侍猓颐侵5篮B肀鹈殖扑怼⒙硗酚悖如在中输入海马,得到项查询结果,而输入水马,得到项查询结果,输入马头鱼,得到,畈檠峁曳祷亟峁邢嗤页面很少;相同的词在不同的语境下会产生不同的意思,单纯的机械匹配显然无法解决一词多义的现象。薹ㄋ阉魈峁┩持械囊畔ⅰR畔⑹侵改切┟挥斜晃淖种苯颖硎出来,但隐含在网页内容中的信息。由于目前搜索引擎的检索策略采用的是关键字匹配,不存在任何推理机制,因此不能发现网页上的隐含信息。主题相关的算法的改进策略的研究和实现
课题来源和研究的目标与内容产生上述问题的原因主要是网页内容是一种无结构的或者半结构的数据,只能供人阅读,计算机却不能理解。要解决以上问题,必须赋予网上的资源各种明确的语义信息】,让计算机可以分辨和识别这些语义信息。然而,要想定义一个

主题相关的PageRank算法的改进策略的研究和实现 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数86
  • 收藏数0 收藏
  • 顶次数0
  • 上传人minzo
  • 文件大小0 KB
  • 时间2014-05-14