计算机工程与应用 2 0 0 6 . 3 3 1 引言本体在软件工程、人工智能、信息检索、 W e b 服务发现[1 ] 等领域中扮演着越来越重要的角色。领域本体可以有效地组织领域中的知识, 使知识更好地共享、重用。但是在利用本体的同时, 如何提高概念相似度计算精度却成了本体应用的一个“瓶颈”。例如在基于本体的知识检索领域, 提高检索的查准率和查全率一直是困扰人们的难题。而概念的相似度计算又是知识检索过程中的进行概念语义扩展的重要步骤, 如何提高概念相似度计算精度就成了提高检索质量的关键技术之一。针对概念相似度计算, 业内已有不少相关的研究。研究方向主要可分为两种: 基于概念信息容量法[2 ] 和基于概念距离法[3 ] 。信息容量是指一个概念及其实例对象所能反映的语义内容大小, 其通过概念及其实例对象的出现概率或者权重来量化。该方法主要通过两个概念的共同父概念的信息容量的大小来确定概念的相似度。与信息容量法相比, 利用概念的距离来计算概念相似度的使用范围要大很多。概念距离有两类常见的计算方法。一种是根据 o n t o l o g y 来计算, 文献[ 4 ] 利用现存的语言本体 W o r d N e t 计算语义项之间的距离来确定概念相似度。文献[ 5 ] 则利用了 H o w N e t 将概念之间的相似度计算转化为对概念的义原之间的相似度计算, 通过计算义原间的距离确定概念相似度。另一种是利用大规模的语料库进行统计[ 6 ] 。基于统计的方法将概念的上下文信息的概率分布作为概念语义相似度计算的参照。根据本体的定义[7 8 ] 和描述, 领域本体反映了一个对给定领域的通用观点, 其通过定义概念与概念之间的关系来描述概念的语义信息。在实际的领域本体中, 由于概念之间不仅仅存在着上下位关系, 概念之间通过其他各种关系可以连接, 这使得概念的组织形式并不完全是一个树型结构, 而是一个网状结构。目前基于概念距离计算概念相似度的算法大多只是针对上下位关系, 而忽略了其他关系, 这就导致了算法不能完整反映出概念的语义, 从而影响了概念相似度计算的准确性。针对以上问题, 本文探索了如何将概念之间的关系引入到概念的相似度计算中。文章首先介绍了概念语义初始相似度的计算和概念非上下位关系相似度的计算, 然后在前面两层相似度计算的基础上, 阐述了概念实际相似度的计算。最后用两组对比实验说明该算法的有效性。领域本体的概念相似度计算陈杰, 蒋祖华( 上海交通大学机械与动力工程学院, 上海 2 0 0 0 3 0 ) E - m a i l : j c h a n w l @ 1 2 6 . c o m 摘要: 随着本体在信息检索、人工智能等领域的广泛应用, 面向本体的概念相似度计算成为了本体研究的一大热点。当前领域本体中概念相似度的研究主要是利用概念的上下位关系进行计算, 但这并没有完整反映出概念的语义信息。论文提出的算法将概念相似度计算分为两层, 一层是概念语义初始相似度层, 其主要利用概念之间的距离来计算概念的初始相似度。另一层是概念非上下位关系相似度层, 其在概念初始相似度的基础上, 计算概念通过非上下位关系体现出的相似度。最后通过综合计算, 得到领域本体中概念的实际相似度。实验证明, 该方法充分利用了本体中概念的语义信息, 得到的结果也比较合理。关键词: 领域本
领域本体的概念相似度计算 来自淘豆网m.daumloan.com转载请标明出处.