第十一章 98版五笔字型输入法
一、98版五笔字型输入法概述
汉字是一种图形文字。每个汉字都是由字根组成的,而字根又是由笔画组成的。98版五笔字型认为,汉字的基本笔画只有5种:横、竖、撇、捺、折,所有其他的笔画都是这5种笔画的变形。
另外,汉字的字根很多,大约有600~1000种,但在汉字编码时,可以把笔画结构特征相似、笔画形态及笔画多少大致相同的“笔画结构”归属到同一类,并将它作为汉字编码的“单元”,简称为“码元”。在98版五笔字型中,汉字的码元只有260多个,其中主码元有150个左右,次码元有90个左
右。这260多个码元都分布在键盘中除Z键以外的25个键位上。
在输入汉字时,用户可以凭着视觉优势,并按照一定的取码规则,判断一个汉字是由哪些码元组成,然后敲键盘中对应的键。系统按照用户键入的码元进行编码,并显示符合该编码的汉字。
例如:“李”是由“木”和“子”2个码元组成,“木”码元位于S键上,“子”码元位于B键上。用户按SB(再按一下空格键)就可以输入“李”字。
“明”是由“日”和“月”2个码元组成,“日”码元位于J键上,“月”码元位于E键上,用户按JE(再按一个空格键)就可以输入“明”字。
98版五笔字型与86版五笔字型相比有以下重大创新和独到之处:
(1)在98版五笔字型中引入了码元的概念,并以码元为单位给汉字编制代码。
(2)在98版五笔字型中,笔画顺序和码元选取更加符合国家语言文字规范。
例如:与86版五笔字型相比,原来需要拆分的字根,如“夫、末、甘、甫、气、丘、毛、羊、母等,现在都作为码元不必拆分,可以整字取码。
(3)创造了“无拆分编码法”。由于码元本身不是字根或部件,它只是一种编码符号,因此在利用码元对汉字进行编码时,就不必对整字进行拆分,而是可以利用汉字作为平面图形文字在认知中的视觉优势,直接为码元编码,这样可避免汉字拆分与“文字规范”之间的尖锐矛盾。
正是由于98版五笔字型具有上述特点,98版
五笔字型一经面世,就受到人们普遍关注。专家们以及专业媒体认为,98版五笔字型是目前最先进的汉字形码编码法。
二、98版五笔字型输入法基础
汉字是形音义三位一体的图形文字,形体复杂,笔画繁多。它的最小结构单位是笔画。
书画同源,汉字是由图画演变发展而成的。汉代文字学家许慎说“独体为文,合体为字”。意即笔画构成独体,再由独体拼合而成为字。原来,文和字并不是一个概念。至于笔画,在文字学史上,长短、曲折都无一定之规。但在形码设计中,其对象是已经规范化了的现代汉字,其图形结构和笔画都有了严格规定。这就为形码设计提供了
一个共同的基础。有了规范的字形,才能够给笔画下个定义。
王码作者曾将笔画定义为:“书写汉字时,一次写成的、一个连续不断的线段”。并按照这种定义,将汉字的笔画划分为5种:横、竖、撇、捺、折。在编码时,使用数字1、2、3、4、5分别作为这5种笔画的代号,详见表11-1。
笔画是构成汉字的最小构成单位。相同的几个笔画采用不同的结构形态,可以构成不同的构字单位(字根或码元)和汉字。因此,笔画之间的关系很重要,它们包含了汉字图形中非常有用的特征信息。98版五笔字型将汉字笔画之间的构型关系分成3种:
*相分离:如八、小、三,以及旦、札、只的最后一笔;
*相连接:如刀、人、几,以及广、里、夫的最后一笔;
*相交叉:如十、九、又,以及于、中、事的最后一笔。
笔画之间的三种构形关系是汉字图形中直观易辨、非常有用的特征信息。在汉字形码设计中,
当仅仅提取笔画或码元结构信息还不足以区分汉字的字形时,就有必要在编码中使用笔画的“构形信息”。
在98王码中,我们用数字来表示笔画的三种构形关系,如表11-2所示。
98王码在处理中、日、韩三国汉字的大字符集的21003个汉字的编码时,就用到了上述笔画的构形信息。
汉字的最小结构单位是笔画,单笔画有横、竖、撇、捺、折,共5种。
由2个以上单笔画以散、连、交的方式,可以构成笔画结构。笔画结构中成为汉字的,或构字能力较强的结构,在文字学中叫作字根或部件。汉字的字根或部件大约有600~1000个。由字根或部件,用积木组字的方法,可以构成汉字。汉字的字数成千上万,其中:
*国标GB2312—86中有6763个汉字;
*台湾BIG5字集中有13053个汉字;
*国际标准GBK字集中有21003个汉字。
汉字结构共有三个层次,即笔画、字根(部
件)和汉字。这三个层次之间的关系是:笔画构成字根(部件),字根(部件)构成汉字。
提示:笔画、字根(部件)和整字都是文字学的概念,这些概念虽然和编码学以及信息处理中作为编码单元的码元有一定的关系,但它们绝然不是一回事,尤其没有一一对
第十一章 98版五笔字型输入法 来自淘豆网m.daumloan.com转载请标明出处.