现代汉语语义词典规格说明书 - 12 -
12
现代汉语语义词典标准本研究得到国家973重点基础研究项目“面向新闻领域的汉英占有很重要的位置。北京大学计算语言学研究所与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就着手研制面向汉英机器翻译的“现代汉语语义词典”〔SKCC〕,目的是在语法分析的基础上,为电脑自动分析汉语句子和生成英语句子提供更深入的语义信息。1996年至1998年,双方共同承担了台和汉英机器翻译系统”课题〔项目编号: 863-306-03-06-2〕。作为该课题的一个重要组成部分,“现代汉语语义词典”进入到大规模开发阶段,并取得阶段性成果, (名词、动词、形容词) 及部分成语、习用语的语义分类和搭配信息描述[1]。IBM、Intel、Fujitsu, Toshiba, NTT, Canon, Sail-labs等20多家公司与大学先后从北大购买了该词典的许可使用权。
4年多来,北京大学计算语言学研究所在积极应用、推广该词典的同时,仍不断地投入力量进行词典本身的发展。从2001年11月开始,“现代汉语语义词典”的二期开发工作受到了国家973重点基础研究项目“面向新闻领域的汉英机器翻译系统”和“面向中文信息处理的现代汉语动词论旨结构系统和汉语词语语义分类层级系统研究”的支持,由计算语言学研究所和中文系联合承担,对词典规模进行较大幅度的扩充,并对全部词语的语义分类及属性描述进行全面修订。在双方的积极努力下,项目进展得非常顺利。目前,,同时语义属性描写质量有了显著提高。在一个汉英机器翻译系统中的实际应用说明,新版本的SKCC可以为句义分析、词汇歧义消解提供更全面的语义知识,有效地提高翻译精度。
现代汉语语义词典的内容概要
规模与结构
语义词典〔SKCC〕原有词条48,835个,它们全部来自于北大计算语言学研究所开发的《现代汉语语法信息词典》〔5万词版〕。但1999年,后者的规模已由5万词扩充到了7万词[2],此后的继续改良又使得属性信息的质量有了很大提高[2]。相比之下,语义词典却仍然停留在原来的水平上,无论数量还是质量上,二者都已不太协调,不能满足与语法词典配套使用的实际需要。
SKCC的二期工程及时吸收了语法信息词典的最新成果,对原有的“词语”、“词类”、“同形”、“拼音”、“兼类”、“备注”等字段进行了统一检查、修订,而且增加了14,663个名词、动词、形容词,以及1993个区别词、时间词、处所词、方位词、副词、数词。,到达了万余条它们均是从北京大学计算语言学研究所开发的《现代汉语语法信息词典》〔2002版〕[3]中直接继承而来。这不仅保证了语义词典收词的标准性、注音与词性标注的准确性,而且也使得它可通过“词语、词类、同形”3个关键字段与语法信息词典进行链接,相互配合使用,从而使电脑获得更完备的语法、语义信息。
。
词典采用Microsoft Forxpro中文版数据库实现,其中包含全部词语的总库1个,每类词语〔实词〕各建一库,计11个。每个库文件都详细刻画了词语及其语义属性的二维关系。比方,总库中包括词语、拼音、同形、义项、释义、语义类、词类、子类、兼类等8个属性字段。名词库设15个属性字段,动词库设16个属性字段,如此等等〔见表1〕。
现代汉语语义词典规格说明书 - 3 -
3
库名
词条
属性字段
名 词
37522
15
时间词
567
15
处所词
185
15
方位词
204
15
代 词
236
15
动 词
21142
16
形容词
3827
15
区别词
753
15
状态词
997
15
副 词
997
11
数 词
109
11
总 库
66539
8
表1 语义词典SKCC的规模
所有的库都可以通过“词语、词类、同形、义项”这4个关键字段进行链接。这样,12个库文件构成有上下位继承关系的“树”,子结点继承父结点的全部信息,如图1。
总库
名词库
动词库
形容词库
贷次
Adverb
Database
Numeral
Database
现代汉语语义词典规范 来自淘豆网m.daumloan.com转载请标明出处.