语料库语言学(Corpus Linguistics)
(1)一个语言数据的集合,可以由书面文本构成,也可以由录音言语的转写本构成。
(2)一个语篇的集合,尤其指完整的和自身需求的语篇集合。
(3)语料库是输入到计算机中一大批语言材料的结集。
(4)语料库是载有语言信息的大量语言资料的集合。
语料库的主要目的是鉴定关于语言的假说——例如,确定一个特定的语音,单词,或句法结构的使用是如何变化的。
语料库(corpus)
语料库的分类(根据功能)
一般语料库
专门语料库
样本语料库
监控语料库
语料库的分类
以语料的媒体形式分:书面文字材料的电脑文本、转写的口语语料、视频语料、几种形式的混合语料
以语料库设计分:均衡结构语料库、无结构的随机开放式语料库和由若干子语料库叠加而成语料库网
以语言的来源分:单语种与多语种之分,原语料与翻译之分,操母语的人的言语资料与外语学习者的语言资料之分。
以语料的时效分:共时语料与历时语料
以语料的处理方式分:未经标注的文本语料与经过标注的文本语料
语料库的用途
了解语言在现实中的使用情况
频度信息
语境与上下文信息
语法信息
搭配信息
语用信息
语料库语言学(Corpus Linguistics)
论述语言研究中使用语料的原理和实践。
研究任何语料库中的数据。
语料库语言学的两层含义
一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。
二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。
语料库语言学的发展
60年代开始。初期进行词的分析。后来增加了语法属性标注如词性等。
现在人们越来越开始重视对语料库作不同层次的标注,如:语音、构词、句法、语义以及语用等层次的标注
现代语料语言学已经得到越来越多人的承认,其应用也越来越广泛,从语言分析、语言教学、词典编撰到人工智能等领域都开始应用语料库。
语料库语言学的应用
言语研究: (1)语言学理论。(2)语言史研究。(3)句法、词法及自动语法分析。
词汇研究:编篡工具参考书籍。
语义学。
社会语言学。
心理语言学。
机器翻译及文本校对。
外语教学。
Chomsky对语料库语言学的批判
实证主义
理性主义
语料库对语言学家而言,不再是有用的工具。(必须寻求概括语言能力而不是语言的使用)
叙述一种语言的语法的唯一途径是描述它的规则而不是列举它的句子。
即使语言是一个有限的构造,语料库方法论也不一定是研究语言最好的方式。
除此以外,语料库语言学的实用性也有很多问题。
语料库语言学 来自淘豆网m.daumloan.com转载请标明出处.