语料库语言学
第1页,共27页,编辑于2022年,星期二
什么是语料库?
语料库(corpus,复数形式corpora)顾名思义就是存放语言材料的仓库(或数据库)。现指存放在计算机里的原始语料文本或经过加工后带有语言学信息标语言模型迅速崛起,成为主流技术。主要用法如下:
1)汉语文本中交集型切分歧义的研究
2)汉语基本名词短语识别研究
3)基于结构词义空间的汉语词义排歧模型
第13页,共27页,编辑于2022年,星期二
语料库的分类
按应用取向分为:通用型和专用型语料库
按信道分为:笔语和口语语料库
按语言属性分为:单语、双语、多语语料库
按语言变体分为:本族语、译语、学习者语料库
按时间分为:共时和历时语料库
按语料状态分为:静态和监控语料库
第14页,共27页,编辑于2022年,星期二
国外语料库的介绍
类型
时间
容量
语料
用途
SEU
1959年起
100万
书面语50%
口语50%
第一个大型计算机语料库
LLC
1975-1981
50万
口语
以计算机自动化处理方式获取SEU语料库的英语口语原始语料
BROWN
1960s
100万
书面语
研究当代美国英语
LOB
1970s
100万
书面语
研究当代英国英语
COBUILD
1980s
书面语75%
口语25%
在语料库支持下从事词典学研究
LONGMAN
1988-1990
2800万
书面和口语
编纂词典和供学术界使用
BNC
1991-1995
1亿
书面语90%
口语10%
其口语语料库可以精细分析语音研究
ICE
1988年起
2000万
书面语40%
口语60%
对讲英语的不同国家的英语进行对比研究
第15页,共27页,编辑于2022年,星期二
国内语料库介绍
汉语现代文学作品语料库(1979年),527万字,武汉大学
现代汉语语料库(1983年),2000万字,北京航空航天大学
现代汉语词频统计语料库(1983年),182万字,北京语言大学
台湾中央研究院平衡语料库,500万词,是世界上第一个带有完整词类标记的汉语平衡语料库。
中文五地区共时语料库(1995年),香港城市大学
汉语精加工语料库
特殊英语语料库 中国英语(China English)语料库 ,河南师范大学
军事英语语料库(Corpus of Military Texts) ,解放军外语学院
《人民日报》语料库(2700万字) ,北京大学计算机语言学研究所
第16页,共27页,编辑于2022年,星期二
语料库语言学的不同研究方法
由于语料库语言学依赖自然数据,因而语料库语言学从本质上说是实证性的,其语言观是经验主义的语言观。按照研究中对语料库依赖程度的不同,可以把依赖语料库的研究方法大致分为三类:
1) 语料库指导的方法24
2)基于语料库的方法25
3)语料库的驱动方法26
第17页,共27页,编辑于2022年,星期二
语料库研究的方法论特色
(1)数据的区别性特征:语料库语言学数据以其验证性、大数
量性、自动化、计量性等特征有别于其它类型的数据。
(2)特征性分析技术:包括频数统计、词语索引分析、搭配分
析、词从、主题词等。
(3)自下而上与自上而下兼用的精密分析过程 :经典语料
库语言学研究中的归纳与推演,数据观察与理论讨论,往往
是层层展开,步步深入,穷尽一切可能,逐渐逼近,到达结论。
第18页,共27页,编辑于2022年,星期二
语料库研究方法的局限性
(1)语料库语言学理论尚需要体系化和简约化。
(2)其研究思路和方法存在一定的分歧。
(3)分析方法和技术需要进一步突破
(4)语料库研究的应用尚需要更深入的探讨。
第19页,共27页,编辑于2022年,星期二
国内语料库研究的局限性
(1)缺乏应有的精密分析过程,显示不出应有的分析力
量(analytical power)。
(2)一些研究将事实与译论混在一起,将语料库数据与
直觉数据杂合,宏观概述多而语境分析少。
(3)数据与观察与结论之间,不同理论之间跳跃大,缺
失环节多,没有语料库语言学所熟悉的范式特征。
第20页,共27页,编辑于2022年,星期二
语料库语言学需要解决的问题
语料库设计的目的。
收集语料时的文本形式、文本所有权和版权问题。
需要不断
语料库语言学 来自淘豆网m.daumloan.com转载请标明出处.