自然语言处理自然语言理解..pdf


文档分类:IT计算机 | 页数:约108页 举报非法文档有奖
1/108
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/108
文档列表 文档介绍
国家重点基础研究计划973课题“文本内容理解的数据基础”
自然语言处理

自然语言理解
俞士汶
北京大学计算语言学研究所(ICL/PKU)
Email: ******@pku.
2009年3月11日, 中信所(ISTIC)
主要内容
¾ 关于研究对象与目标
¾ 自然语言处理的主攻方向
¾ 综合型语言知识库概要
¾ 前进目标——自然语言理解
¾ 领域知识工程与领域知识库
¾ 结语与致谢
北京大学计算语言学研究所 .
学科定位
《学科分类与代码表》(中国国家标准 GB/T13745--92 )
语言学
——应用语言学
——计算语言学()
(三级学科“计算语言学”属于文科)
俞士汶主编《计算语言学概论》,商务印书馆,2003年
计算机科学技术
——人工智能
——自然语言处理()
(三级学科“自然语言处理”属于理工科)
两个三级学科的研究对象与内容基本相同,
新兴交叉学科在学科体系中已有一席之地。
(从北大ICL/PKU、北大软微学院语言信息工程系到教育部计算语言学重点实验室)
北京大学计算语言学研究所 .
不同的术语与所指
计算语言学(Computational Linguistics, CL)
自然语言处理(Natural Language Processing, NLP)
自然语言理解(Natural Language Understanding, NLU)
人类语言技术(Human Language Technology , HLT)
语言信息处理(Language Processing Technology,LPT)
(大致相同,又各有侧重。)
中文信息处理(Chinese Information Processing, CIP)
——汉字信息处理(Chinese Characters Processing)
——汉语信息处理
(Chinese Information Processing, CIP)
我们聚焦于汉语信息处理,实质是以汉语为核心的多语言信息处理。
北京大学计算语言学研究所 .
“自然语言处理”在研究什么?
(1)机器翻译与机器辅助翻译(最早)
(2)信息检索(索引技术)与信息提取
(3)文本与知识管理(术语提取、分类、摘要、述评)
(4)人工系统的自然语言界面
(5)词典计算机辅助编纂
(6)面向语言本体研究与教学研究的应用
……
NLP是IT的任务子集,作为计算机处理的对象,发生了变化:
表现形式(字符串) ━》词、句子、篇章
字符信息(数据集) ━》语言信息(知识)
需要对相关的理论、方法与技术以及“语言及其认知机制”
有个概括的了解。
北京大学计算语言学研究所 .
研究得怎么样?
看看机器翻译的水平,以Google Translate Beta为
„ 2009年1月3日完成的翻译实例
(1)北京大学俞士汶教授应邀将于2009年3月到中国科学技术信息
研究所进行学术交流。
(2)你得藏在一个你看得见他,可是他看不见你的地方。
(3)车臣武装分子和世界其他地区的恐怖分子是一丘之貉,应该合
力打击他们。
(4)新一届测绘学名词审定委员会的主要特点是年青化,吸收了一
些工作在教学、科研前沿的青年专家学者,充分发挥他们接触
新知识多,对名词工作热情高、活力大的特长,同中老年专家
共同做好新一届委员会的名词审定工作。
„ 2009年1月13日完成的翻译实例
(5)胡六点横看成岭侧成峰,见仁见智。
(摘自《参考消息》2009年1月13日第10版台报社论)
人贵有自知之明,然而机器却什么都敢干。
难怪有人说规则翻译是傻子,统计翻译是疯子。
北京大学计算语言学研究所 .
关于“语言”
英国《新科学家》周刊 2005年4月9日的文章
——生命进化的十大奇迹:脑(第3项)和语言(第4项)
脑常常被视作进化过程中的最高成就,因为它赋予了人类一
些高级特征,例如语言、智慧、意识。
语言是进化的终极发明。在令人类区别于动物的特征中,
语言处于核心地位。语言也许称得上是人类的决定性特
征之一。我们的祖先如何实现了语言从无到有
的飞跃,这也许是科学史上最大的谜。语言是
生物进化的最后一笔。这是因为语言令那些掌
握了它的动物超越了纯生物的范畴。
语言系统是动物进化到人的两大标志之一。
北京大学计算语言学

自然语言处理自然语言理解. 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数108
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2982835315
  • 文件大小0 KB
  • 时间2015-11-03