·词与分词连写
<TD bgColor=#f6f6f6><FONT color=#00>·</FONT>词与分词连写<B>汉字文本的词与分词连写问题</B>
中文具有不实行分词连写的传统。这说明,在通常情况下,中文具有不分词连写也不会妨碍书面交流的能力。但这并不是绝对的,中文中词的界线有时确实因为没有分词连写而显得有些模糊,甚至会造成误解。
中文为什么可以不分词连写呢?我认为,这是由于汉字的字符集很大,就算常用的国标一级汉字也有3008个。而日常常用的词也就是那么五、六千个,因此字与字之间可能形成词的组合的可能性很小,因而词在汉字文本中比较容易被人筛选出来,从而一般不会影响人们对文本的理解。例如下面这个句子:
为实现中国的语文现代化而奋斗!
人们会毫不费力地把它理解为:
为实现中国的语文现代化而奋斗!
而不会把它理解为:
为实现中国的语文现代化而奋斗!
但是,让我们再来看一看PhilipZhang[1]常常举的一个例子:
韩廷顿首先到台湾国中学作报告。
你会怎样理解这个句子呢?如果没有词连写和间隔的功能存在,这个句子可以有多种读法:
韩廷顿\首先到台湾国中学作报告。
韩廷顿首先到台湾\国中学作报告。
韩廷顿首先到台湾国中学\作报告。
韩廷顿首先到\台湾国中学作报告。
从语法上来说,这些句子都是正确的!为什么会这样呢?这里所发生的就是因中文不实行分词连写而造成的词界线模糊和歧义现象。当然,这种现象在日常文字生活中并不十分常见。如果对于我们人类来说,中文是不是分词连写都关系不大的话,然而对于计算机理解自然语言来说这种区别就非常大了。
我们的计算机专家费了九牛二虎之力,绞尽脑汁,都还是不能让计算机令人满意地为汉字文本做自动分词。他们动用了巨型的词库,想出了种种人工智能方法,结果还是令他们难堪。我不知道为什么中国人会如此“冷酷”地对待计算机,如此“滥用”我们的计算机专家,竟然拿我们人类之所长来“虐待”计算机。因为毕竟,分词对于我们来说简直是小事一桩,顺手加一个空格的事,而对于一般的计算机来说却会耗尽它的内存(巨型词库),让它左右为难(歧义现象)。如果计算机有灵,它会让我们算算这道题:23223432534534345
·词与分词连写 来自淘豆网m.daumloan.com转载请标明出处.