一 汉字编码
来 源
:
|
当代中国语言学研究2015 \ - |
作 者
:
|
- |
浏览次数
:
|
1 | ||
摘 要
:
|
汉字是记录汉语的书面符号,计算机的汉字处理是汉语信息处理的前提和基础。汉字与拉丁字母属于不同的文字体系,有着本质的区别,外国人在设计和制造计算机时没有、也不会考虑中国人的需要,所以汉字编码、汉字输入等一系列的汉字信息处理问题就成了汉语信息处理的第一个“瓶颈”问题。汉字激光照排系统完整地走过基础研究、原理性样机研制、中间试验、定型生产、大面积推广各阶段,并在市场需求的拉动下最终实现产业化,成功地跨越创新过程中基础研究与产品开发之间的“死亡之谷”,其中的经验值得总结,值得推广。 | ||||||
关键词
:
|
计算机 汉字信息处理 汉字激光照排 激光照排 键盘 汉语信息处理 字符集 铅字 汉字 拉丁字母 748工程 |
在线阅读
一 汉字编码
字体:大中小
汉字要进入计算机,首要问题是“编码”。编码可以分为“内码”和“外码”。确定汉字在计算机内部的表示形式,为每个汉字分配一个唯一的编码,这是内码,也称机内码;设计键位组合,在国际通用的小键盘上用不同的键位组合把成千上万个不同的汉字从字库里“检索”出来,敲打出来,这是外码,也称输入码。这两者,尤其后者,是汉字信息处理的关键。汉字输入码主要分为音码和形码两种类型,也有形码与音码结合的形音码或音形码。
按汉字的读音将其转换成汉语拼音的声母、韵母组成的编码叫音码,音码可分为全拼式、双拼式两种。目前人们普遍使用的“搜狗输入法”“紫光拼音输入法”等都是音码。
音码的优点是易学,但存在四个问题:(1)重码多;(2)汉语拼音的拼式比较长,因此有人设计了双拼、简拼、狂拼等方案;(3)对用户发音或拼音知识要求较高,这对某些人来讲使用不方便,但也不全是坏事,至少对推广普通话有利;(4)处理生字难,读不出来的字就打不出来。
将汉字分解为部件或笔画,并按照规定的顺序排列,用相应的字母或数字符号替代,按一定的规则取舍的符号组合,就是形码。“五笔字型”是形码的代表。
形码的优点是重码率低,但缺点是:(1)学习起来比较难,一般都需要进行专门的培训,不常用又很容易遗忘;(2)大多数形码系统对字根的归类和拆分,与人们头脑中的汉字认知结构不统一,缺乏规范化;(3)拆形输入与人们的思维习惯相左,形成对思维的干扰。基于以上原因,形码很难在大众中普及,于是人们又回过头来再向拼音中找出路。
目前,汉字输入计算机的问题已基本解决,下一步应考虑的是如何统一汉字输入码,使其成为国家乃至国际标准。在制定这个统一编码时要考虑到:(1)要同时适用于汉字的键盘输入和排序检索,并通用于所有汉字,适合处理全汉字集;(2)键盘输入要与识字同步并终身适用,要同时满足各行各业的使用要求,全社会通用;(3)进入基础教育课程,要做到“教学用”与“社会用”无缝衔接。
计算机汉字机内码的编制,可分为几个不同的阶段,有不同的成果。
1980年,在中文信息学会第一任理事长、中国科学院院士陈力为的主持下,我国发布了《通信用汉字字符集(基本集)及其交换码标准》GB 2312—80方案,简称GB(国标,GuóBiāo的缩写)。该方案用两个字节表示一个汉字,能够显示6763个汉字。这个字符集对一般人来说基本够用,但由于很多人名地名没有包括进去,无法满足像户籍登记这样要求字符量大的工作。
1995年12月,中华人民共和国全国信息技术标准化技术委员会制定了《汉字内码扩展规范(GBK)》,该规范包含21003个汉字和一些符号的编码,与GB 2312编码兼容,即GB 2312中的汉字和符号的编码在GBK中保持不变,GBK中的“K”是Kuò(扩)的缩写。但GBK自身并非国家标准,只是由国家技术监督局标准化司、电子工业部科技与质量监督司将其公布为“技术规范指导性文件”。
2000年,国家质量技术监督局又发布了GB 18030—2000《信息交换用汉字编码字符集基本集的扩充》编码方案。这个方案兼容GB 2312和GBK,其编码结构采用单字节(ASCII字符)、双字节(与GB 2312、GBK兼容)、四个字节来表示一个汉字。GB 18030—2000规定了常用非汉字符号和27533个汉字(包括部首、部件等)的编码,是一个全文强制性标准,市场上销售的产品必须符合这个标准。
2005年,GB 18030发布了第二版,同时更名为《信息技术中文编码字符集》,在GB 18030—2000的基础上增加了42711个汉字和多种我国少数民族文字的编码,增加的这些内容是推荐性的。故GB 18030—2005为部分强制性标准,自发布之日起代替GB 18030—2000。从理论上说,该方案定义的编码空间保证了扩充字符的需要,可以一劳永逸地解决汉字和其他所有文字编码的空间和结构问题。
显示更多