华北电力大学硕士学位论文摘要
摘要
本文在总结了相关理论及技术的基础上,提出了一个基于翔文档的语义
检索系统,这一系统的主要工作有
利用服解析器对文档进行解析,同时利用深度优先遍历算法对树
按节点访问,获得需要的数据,根据节点的分类将数据处理后,将节点信息存入数
据库的倒排表。使用语言对数据库中的索引表进行查询。
改进了一个文档节点标号法,这一算法能快速找到每一个节点的祖先节
点。
设计了一种新的基于文档的语义查询算法,包括判断两个节点的相关性
算法以及对于多个节点的相关性判断算法,语义相关性判断是一种语义的体现,使
检索结果更准确,符合用户需要。
关键词,文档树,节点,语义
,
,朋吧
, 声袱
,,
魄
扔妇胃盯叮玩,欧
, 】
加叨招,
鱿吐
幼
助,,
,,邝伽
】“‘
,恤,声口
士二口
尸明
本人郑重声明此处所提交的硕士学位论文《基于文档的语义检索》,是本人
在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取得的研究成果。
据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰
写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学位或证书而使用过
的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并
表示了谢意。
学位论文作者签名习叶日期冰夕
关于学位论文使用授权的说明
本人完全了解华北电力大学有关保留、使用学位论文的规定,即①学校有权保管、
并向有关部门送交学位论文的原件与复印件②学校可以采用影印、缩印或其它复制手
段复制并保存学位论文③学校可允许学位论文被查阅或借阅④学校可以学术交流为
目的,复制赠送和交换学位论文⑤同意学校可以用不同方式在不同媒体上发表、传播学
位论文的全部或部分内容。
港密的学位论文在解密后遵守此规定
作者签名闺。子导师签名为牵季
日期口日分日期迎取吵
知识水坝***@pologoogle为您整理
华北电力大学硕士学位论文
第一章引言
课题的提出
由于网络和技术应用的不断发展,人们发现在朴应用和传统桌面应用之
间存在着连接的鸿沟,统一平台成为了市场的呼声。如何去解决平台差异、语
言差异、数据差异和协议差异,实现大范围的跨企业实体的商务应用系统对接,这
是摆在开发人员面前的一大问题。作为在目前应用环境中最为合理的解决方案之一
的技术顺应市场的这一需求。翔技术具有
跨平台的特性,不同数据库或者系统平台之间的数据共享可以依靠技术来解决。
技术不仅仅是互联网和数据库之间的中间媒介,它可以做更多事情。的最
大优点是它强大的数据表达能力,不仅可以表达关系模型和对象模型的数据,而且
还可以表达不规则的、易变的数据。
使计算机更好的理解用户的查询需求,有效地提高查全率和查准率,是当前搜
索引擎发展的热点,合理的基于文档的语义搜索引擎的设计便是很好的一种解
决方案,本文正是在目前己有的基于文档的语义检索的技术基础上,对它进行
改进,提出新的文档的语义检索系统。
如何利用双相关技术,以及新的语义查询算法的提出是本文要研究的主要问
题。
,国内外研究动向
年推出的网络信息资源主题分类类目体系拉开了网络信息资源检索
的序幕,使得搜索引擎的研究和开发成为网络信息检索研究的重要课题,近年里
搜索引擎的研究和发展一直是网络信息检索研究的热点。
当前普遍应用的信息管理技术主要为数据库技术和信息检索仃技术。因
此,以纵文档为对象的信息检索的研究及技术方法也主要来自于这两个领域。
面向数据库的方法。将文档分解后保存在关系数据库或面向对象数据
库中,通过标准的数据库查询语言来实现文档的检索。查询的输出可以通过使
用样式表转换为枷文档。这种方法的优点是数据关系、约束以及完整性可
以被建模和检查,可以使用标准的数据库引擎,以及类似于的查询语言,并且
能充分利用数据库的成熟技术,如并发性、同步等等。缺点是将数据导入数
据库比较困难,而且难于处理模式的变化。
面向的方法。将每个粗文档看作是一个具有附加标记的文本文档,可
知识水坝***@pologoogle为您整理
华北电力大学硕士学位论文
以直接使用传统的技术来处理和检索翔文档。标签的处理可以根据具体应用,
优点是可以实现基于关键词的全文检索,并进行相关性排序,但缺乏数据库管理的
基本特性。
翔文档既有文本内容,又包含结构化信息,因此,比较理想的方式是上述两
种方法的结合,以充分利用数据库技术和信息检索技术的各自优势。关于与
的结合也一直是数据库领域和文
基于XML文档的语义检索(可复制论文) 来自淘豆网m.daumloan.com转载请标明出处.