硕士研究生学位论文
题目: 中文网页中人物实体的指代消解技
术及其实现研究
姓名: 段孟成
学号: 10548172
院系: 信息科学与技术学院
专业: 计算机系统结构
研究方向:搜索引擎与网上数据挖掘
指导教师: 李晓明教授
二〇〇八年六月
任何收存和保管本论文的各种版本的单位和个人,未经本论文作
者授权,不得对本论文进行复制、修改、出租、改编等有碍作者著作
权之行为,否则,将可能承担法律责任。
本文作者声明,本论文中,对于引用的研究结果都注明出处,其
他内容和研究皆为原创。
北京大学硕士论文
中文网页中人物实体的指代消解技术及其
实现研究
段孟成
北京大学信息科学与技术学院
2008 年 5 月
摘要
指代是自然语言中常见的语言现象,大量出现在日常对话和书面记录中。由
于互联网技术的不断发展,Web 上出现了数以万记的网页,这些网页的内容大多
是以自然语言的形式描述的,其中包含了大量的指代。随着 Web 挖掘研究的日
益广泛,指代消解在信息抽取、内容挖掘等领域的应用越来越多,尤其是在实体
属性抽取,实体关系发现与分析以及人物实体踪迹追踪等研究中,呈现出非常重
要的作用。
本文工作主要是针对中文网页中的人物实体,利用统计的方法进行指代消
解。与其他研究相比,本文有以下方面的特点:首先,处理中文文本,针对英文
中的指代消解研究很多,但对于中文中的研究比较少,而中文相对英文在词法语
法上都有非常大的不同,本文工作中的中文人名性别识别以及中文依存语法分析
都是为中文指代消解所做的工作;其次,处理网页文本,前述研究多是以纯文本
为研究对象,而网页相对于纯文本,还有网页代码,利用这些信息可以帮助进行
指代消解,再次利用互联网上网页众多的特点,建立一个人物实体专有名词的知
识库,对专有名词指代进行消解。
本文详细介绍了中文指代消解系统 CARP 的设计思路和实现技术,对系统
进行了评测,对涉及到的问题进行了探讨。
关键词: 中文, 网页, 人物实体, 指代, 指代消解, CARP
i
北京大学硕士论文
Technology and Implementation of Person
Entity Concerned Anaphora Resolution for
Chinese Web Pages
DUAN Mengcheng
School of Electronics Engineering puter Science, Peking University
May, 2008
Abstract
Anaphora is a mon phenomenon of natural language, which exists in
daily dialogue and writing records. As the continuous development of
technology, there are tens of millions of pages on the Web, and these pages are mostly
in the form of a natural language description, which includes lots of anaphora. With
the Web mining research increasingly widespread, anaphora resolution is exploited
more and more in many research fields. Particularly in the research of entity attribute
extraction, entity relationship discovery and analysis, and person entity track, it plays
a very important role.
This paper mainly concerns the person entity on the Chinese Web. Compared
with other studies, we have the following characteristics: First, we focus on Chinese,
which is very different from English in grammar. Secon
硕士学位论文--中文网页中人物实体的指代消解技术及其实现研究 来自淘豆网m.daumloan.com转载请标明出处.