河北大学
硕士学位论文
Deep Web数据集成系统中数据标注研究
姓名:常勇
申请学位级别:硕士
专业:计算机应用技术
指导教师:袁方
20090501
摘要随着人们对网络环境下信息检索研究的不断深入,菁上低车南喙研究越来越多地受嗣堑墓刈ⅰ喽杂Φ母拍睿侵那些不能被主流的搜索引擎搜索到、动态地根据用户提交的关键词所生成的菪息。数据标注作为抽取的查询返回结果数据进行标注,使其成为有语义信息的数据,使得计算机可识别、本文在分析描述。本文将谌葜胁缓辛煊蛑J叮部分内容含有领域知识,其余内容不含有领域知识的混合类型。针对这三种类型使用了两种基本标注方法:领域知识标注方法和决策树标注方法,用它们单独以及联合标注这三种类型。为了避免对数据的反复处理,在前面两种基本标注方法的基础上,使用了模板标注方法。同时使用了两种辅助标注方法:实体标注方法和启发式规则标注方法。这两种方法主要是用来检各种标注方法的模型做了介绍并给出了形式化表示,对各种标注方法处理中遇到的相关关键词荼曜⒘煊蛑J毒霾呤摘要怯隨菁上低持幸桓鲋匾5淖槌刹糠郑闹饕9ぷ魇嵌可处理。静檠峁趁婕捌涫荼硐中问降幕∩希樯芰私果模式、标注领域的对象模型并给出了它们的形式化表示,同时给出了数据标注思想的静檠祷亟峁谌莘治H掷嘈停内容中含有领域知识;静檠峁验和修正其他标注方法的标注结果。本文对各种标注方法采用的主要信息做了说明,对问题做了具体分析。实验结果表明,本文使用的标注方法对查询结果数据具有较好的标注效果。
,.篺,籹瑃籺,:瑃甌瓺琣甌瓼..,.
日期:』型阩月丝⒈C芸冢凇!D辍!T隆!T唤饷芎笫视帽臼谌ㄉ鳌:荤鸟河北大学学位论文独创性声明学位论文使用授权声明作者签名:所呈交的学位论文,是本人在导师指导下进行的研究工作中不包含其他人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了致谢。学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存本人郑重声明:及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文日本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。论文。本学位论文属于⒉槐C芑亍朐谝陨舷嘤Ψ礁衲诖颉啊獭
丛年—上月上日年—律先耄龛本人为申请河北大学学位所提交的题为国哔树尧荟绻交惺伺镌树、次许兄’日期:年—上月—日保护知识产权声明的学位论文,是我个人在导师指导并与导师合作卞取得的研究成果,声明人:日期:作者签名::导师签名:研究工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费资助下完成的。本人完全了解并严格遵守中华人民共和国为保护知识产权所制定的各项法律、行政法规以及河北大学的相关规定。本人声明如下:本论文的成果归河北大学所有,未经征得指导教师和河北大学的书面同意和授权,本人保证不以任何形式公开和传播科研成果和科研工作内容。如果违反本声明,本人愿意承担相应法律责任。。.
第滦髀数据集成系统研究的意义及现状随着网络信息量的日益增大,人们对信息检索的效率以及检索到信息的质量要求越来越高。在这样的形势下,与菁上低逞芯康哪康木褪墙ǚ植荚诟鞲稣镜愕慕覫,集成到一个统一的接口上,使得用户想从各个站点获得的结果,在集成接口上提交查询就可获得。而菁上低惩ü山涌诙愿鞲稣镜阌成洳檠缓蠖圆檠峁谐男畔⒘看笤贾挥镜愕脑路梦柿勘萐镜阌懈嗟牧唇印5谴笮虳镜阍诨チM阉饕嬷サ男畔⒍际敲夥训模梢怨ǹ7梦省那榭鲎隽艘淮喂浪恪】,推测出整个显加蚋鎏峁¦数据库的网站,万个数据库,是在年估计的数据库网站数目的抖唷从两次的研究中可以看出,毯男畔⒛谌菰对洞笥诰蔡常喙氐难芯磕谌菰嚼丛蕉嗟氖艿搅巳嗣堑墓刈ⅰ怯隨喽杂Φ囊桓龈拍睢囊趁媸侵改切┎荒鼙灰话的搜索引擎搜索到的、动态地根据用户提交的关键词所生成的页面。谋局是各个站点的数据库。用户对姆梦剩褪俏A舜酉嘤Φ腄菘中获得所需要的内容。镜阋话愣继峁┫嘤Φ牟檠涌冢奖阌没У氖褂谩且取、标注、识别、去重之后返回给用户的是更有价值的信息。国外对哪谌莺凸婺1冉舷低车难芯坑辛酱巍T辏珺对隽艘淮谓衔O晗傅难芯俊Q芯康闹饕=崧廴缦隆】:男畔⒘渴荢~丁笤及男畔⒘浚鳶镜愀叱プ笥遥蚁啾萐镜悖珼被搜索到的机会却很小。在年拢琔笱Ф哉鯠。
数据标注研究的意义及现状在国内,苏州大学崔志明教授等人对中国国内的榭鲎隽送臣品治觥6查询接口往往位于站点浅层,大部分仍是非结构化的,分布于多种不同的主题领域,目前主要的中文搜索引擎已覆盖国内国内还有许多研究单位在和探索。并且在涌诜⑾帧⒔伞⒔峁槿⑹堤迨侗鸬确矫嫒〉昧艘涌诜⑾帧⒔涌诩伞数据集成系统的最
Deep+Web数据集成系统中数据标注研究 来自淘豆网m.daumloan.com转载请标明出处.