中文信息处理概论
朱晓旭
苏州大学计算机科学与技术学院
自然语言处理
自然语言指人类使用的语言
如汉语、英语等。
语言是思维的载体,是人际交流的工具。
语言的两种属性
文字(形状、拼写)
声音
人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上。
语言研究的层面
语音
语法(包括词汇层和句法层)
语法研究要回答的问题是:一句话为什么可以这么说而不能那么说?
语义
语义研究要回答的问题是:这句话说了什么?
语用
语用研究要回答的问题是:为什么要说这句话?
语音层面歧义
TTS技术
一个极端的例子
施氏食狮史(赵元任)
石室诗士施氏,嗜狮,誓食十狮。氏时时适市视狮,十时,适十狮适市,是时,适施氏适市,施氏视是十狮,拭矢试,使是十狮逝世,适石室,石室湿,氏使侍拭石室,石室拭,始食是十狮尸,始识是十狮尸,实十石狮尸,试释是事。
语法层面歧义
词法歧义
词性兼类:
工作(动名兼类)
在(动副兼类)
词语切分歧义:
乒乓球拍卖完了
鱼在长江中游
句法歧义
结构歧义:
张三和李四的朋友
组合关系歧义:
观赏鱼
语义层面歧义
一词多义
后门
青蛙恐龙
同志
Can you can the can?
结构语义歧义
吃饭
吃食堂
语义层面歧义(续)
他说:“她这个人真有意思(funny)”。她说:“他这个人怪有意思的(funny)”。于是人们以为他们有了意思(wish),并让他向她意思意思(express)。他火了:“我根本没有那个意思(thought)”!她也生气了:“你们这么说是什么意思(intention)”?事后有人说:“真有意思(funny)”。也有人说:“真没意思(nonsense)”。
-《生活报》1994. 11. 13. 第六版
语用层面歧义
水!水!
请客
旧时年关,有人在家设宴招待帮助过他的人,一共请了四位客人。时近中午,还有一人未到。于是自言自语:“该来的怎么还不来?”,听到这话,其中一位客人心想:“该来的还不来,那么我是不该来了?”,于是起身告辞而去。其人很后悔自己说错了话,说:“不该走的又走了”,另一位客人心想:“不该走的走了,看来我是该走的!”,也告辞而去。主人见因自己言语不慎,把客人气走了,十分懊悔。妻子也埋怨他不会说话,于是辩解道:“我说的不是他们。”最后一位客人一听这话,心想“不是他们!那只有是我了!”,于是叹了口气,也走了。
中文信息处理
中文
汉语
蒙文
藏文
。。。
狭义的中文信息处理
汉语信息处理
中文信息处理的层面
字符层
处理中文的输入、输出、存储
内容层
机器翻译
信息检索
信息过滤
自然语言理解
中文信息处理绪论 来自淘豆网m.daumloan.com转载请标明出处.