第一节汉字处理

当代中国语言学研究

第一节汉字处理

来源：	当代中国语言学研究2019 \ -	作者：	-	浏览次数：	8
摘要：	汉字是记录汉语的书面符号，计算机的汉字处理是汉语信息处理的前提和基础。脱机手写体汉字识别的难点集中于脱机手写体汉字的正确分割、特征提取和对超大规模数据集的分类，脱机手写体汉字识别的复杂性，使系统的实现具有很大困难，到目前为止，除了极其受限的领域，如手写数字识别外，还没有十分成熟的产品，是一门亟待发展的技术。汉字激光照排系统完整地走过基础研究、原理性样机研制、中间试验、定型生产、大面积推广各阶段，并在市场需求的拉动下最终实现产业化，成功地跨越创新过程中基础研究与产品开发之间的“死亡之谷”，其中的经验值得总结，值得推广。
关键词：	计算机手写体汉字激光照排激光照排汉字信息处理印刷体 OCR 键盘汉字重码汉语信息处理

原版阅读

注释

在线阅读

第一节汉字处理

字体：大中小

汉字是记录汉语的书面符号，计算机的汉字处理是汉语信息处理的前提和基础。汉字与拉丁字母属于不同的文字体系，有着本质的区别，外国人在设计和制造计算机时没有、也不会考虑中国人的需要，所以汉字编码、汉字输入等一系列的汉字信息处理问题就成了汉语信息处理的第一个“瓶颈”问题。

一汉字编码

汉字要进入计算机，首要问题是“编码”。编码可以分为“内码”和“外码”。确定汉字在计算机内部的表示形式，为每个汉字分配一个唯一的编码，这是内码，也称机内码；设计键位组合，在国际通用的小键盘上用不同的键位组合把成千上万个不同的汉字从字库里“检索”出来，敲打出来，这是外码，也称输入码。这两者，尤其后者，是汉字信息处理的关键。汉字输入码主要分为音码和刑码两种类型，也有刑码与音码结合的形音码或音刑码。

按汉字的读音将其转换成汉语拼音的声母、韵母组成的编码叫音码，音码可分为全拼式、双拼式两种。目前人们普遍使用的“搜狗输入法”“紫光拼音输入法”等都是音码。

音码的优点是易学，但存在四个问题：（1）重码多；（2）汉语拼音的拼式比较长，因此有人设计了双拼、简拼、狂拼等方案；（3）对用户发音或拼音知识要求较高，这对某些人来讲使用不方便，但也不全是坏事，至少对推广普通话有利；（4）处理生字难，读不出来的字就打不出来。

将汉字分解为部件或笔画，并按照规定的顺序排列，用相应的字母或数字符号替代，按一定的规则取舍的符号组合，就是刑码。“五笔字型”是刑码的代表。

刑码的优点是重码率低，但缺点是：（1）学习起来比较难，一般都需要进行专门的培训，不常用又很容易遗忘；（2）大多数刑码系统对字根的归类和拆分，与人们头脑中的汉字认知结构不统一，缺乏规范化；（3）拆形输入与人们的思维习惯相左，形成对思维的干扰。基于以上原因，刑码很难在大众中普及，于是人们又回过头来再向拼音中找出路。

目前，汉字输入计算机的问题已基本解决，下一步应考虑的是如何统一汉字输入码，使其成为国家乃至国际标准。在制定这个统一编码时要考虑到：（1）要同时适用于汉字的键盘输入和排序检索，并通用于所有汉字，适合处理全汉字集；（2）键盘输入要与识字同步并终身适用，要同时满足各行各业的使用要求，全社会通用；（3）进入基础教育课程，要做到“教学用”与“社会用”无缝衔接。

计算机汉字机内码的编制，可分为几个不同的阶段，有不同的成果。

1980年，在中文信息学会第一任理事长、中国科学院院士陈力为的主持下，我国发布了《通信用汉字字符集（基本集）及其交换码标准》GB 2312—80方案，简称GB（国标，GuóBiāo的缩写）。该方案用两个字节表示一个汉字，能够显示6763个汉字。这个字符集对一般人来说基本够用，但由于很多人名地名没有包括进去，无法满足像户籍登记这样要求字符量大的工作。

1995年12月，中华人民共和国全国信息技术标准化技术委员会制定了《汉字内码扩展规范（GBK）》，该规范包含21003个汉字和一些符号的编码，与GB 2312编码兼容，即GB 2312中的汉字和符号的编码在GBK中保持不变，GBK 中的“K”是Kuò（扩）的缩写。但GBK 自身并非国家标准，只是由国家技术监督局标准化司、电子工业部科技与质量监督司将其公布为“技术规范指导性文件”。

2000年，国家质量技术监督局又发布了GB 18030—2000《信息交换用汉字编码字符集基本集的扩充》编码方案。这个方案兼容GB 2312和GBK，其编码结构采用单字节（ASCII字符）、双字节（与GB 2312、GBK兼容）、四个字节来表示一个汉字。GB 18030—2000 规定了常用非汉字符号和27533个汉字（包括部首、部件等）的编码，是一个全文强制性标准，市场上销售的产品必须符合这个标准。

2005年，GB 18030发布了第二版，同时更名为《信息技术中文编码字符集》，在GB 18030—2000的基础上增加了42711个汉字和多种我国少数民族文字的编码，增加的这些内容是推荐性的。故GB 18030—2005为部分强制性标准，自发布之日起代替GB 18030—2000。从理论上说，该方案定义的编码空间保证了扩充字符的需要，可以一劳永逸地解决汉字和其他所有文字编码的空间和结构问题。

二汉字输入

汉字输入指的是利用汉字的形、音或相关信息通过各种方式把汉字输入到计算机中去。汉字输入技术是汉字信息处理的关键技术。根据介质不同，可分为键盘输入、手写输入和语音输入。这里主要讲键盘输入，手写、语音输入分别在“汉字识别”和“语音识别”中介绍。汉字键盘输入技术是20多年来中文输入技术的主流，经历了字处理、词处理和句处理三个不同的阶段。

（一）字处理阶段

这一阶段，最主要的工作是研究汉字编码，同时围绕“字”进行了许多研究。如汉字频度统计分析；字根、笔画、结构统计分析；建立计算机的汉字库；颁布《信息交换用汉字编码字符集》国家标准（6763个字）；颁布宋、仿、黑、楷四种字体点阵汉字字模集国家标准等。这一阶段的研究结果是让汉字顺利进入了计算机，并且能让各种字体的点阵汉字的形式显示在屏幕上或打印在纸上，但汉字输入的方法还很不理想。

（二）词处理阶段

大约从20世纪80年代初开始，汉字输入从单纯的字编码发展到词处理，词语成了信息处理的核心。在这个阶段，除了建立汉字库外，还要建立汉语词库、词缀库，甚至语料库。主要研究了词频统计、分词规范、自动分词、词语编码、词库结构以及构词法等问题。在这一阶段，汉字输入方式由字上升到词，这无疑是一个极大的进步。以词为单位，音码的重码率大大下降，输入速度大大加快，“高频先见、用过提前”的技术可以使同音词的选择减少到微不足道的程度。这一阶段，由于采用了语言研究的成果，编码方案由繁而简，由无智能、低智能转向较高的智能转变。“智能ABC”等输入法是这一时期使用十分普遍的优秀成果。

（三）句处理阶段

20世纪90年代中期以后，汉语信息处理的核心对象由词语上升到句子。这一阶段的汉字键盘输入属于高智能技术。这种输入系统能在用户输入一句拼音码后给出正确的汉语句子，而完全不需用户过多地参与选择，是一种与传统的编码和拼音选择输入方法相比更加快捷方便的输入方法。像英文打字一样，想与打是同步一致的，没有任何别的干扰。有关语句输入系统的报道在90年代初就有，如哈尔滨工业大学王晓龙（1993）的《拼音语句汉字输入系统InSun》。进入21世纪以后，由于统计方法的普遍应用，人们可以在更大规模的语料中寻找特征，建立模型，更多好用的句输入系统不断推出，如谷歌拼音、紫光拼音、微软拼音、搜狗拼音等等。

纵观20年来的汉字键盘输入方法研究的历史，可以看出人们从认识到技术螺旋式上升的轨迹：最初人们采用的是简单的音码，以字为单位输入。由于重码率高，使人们纷纷转向字形，在刑码中找出路，乃至出现了“万码奔腾”的局面；继而进入词处理阶段，刑码、音码各有市场；随着输入技术中智能化程度的不断提高，到句处理阶段，拼音编码又占据了主导地位。从表面看，这似乎是从音到形，最后又回到音上，但这绝不是一个简单的回归，输入技术已发生了“质”的变化，跃上了一个新的高度。

汉字输入还有一个新兴领域，就是汉语速录。汉语速记自古有之，但在高技术发展的今天，又出现了现代机器代替手工的快速记录，即速录。20世纪90年代唐亚伟研制开发的“亚伟中文速录机”，依据“双手多键并击”的原理设计专用键盘，仅仅使用11个拉丁字母组合出全部的汉语拼音音节，录入员可以与说者同步的速度将文字录入计算机，形成数字化讲稿文档。亚伟中文速录机实现了由手写速记到机械速录的历史性突破，这一成果被迅速推广应用，催生出了速录行业和速录师职业。2005年，92岁高龄的唐亚伟获得我国中文信息处理领域的最高科学技术奖——钱伟长中文信息处理科学技术奖一等奖。

目前，速录人才与市场需求的差距还较大，需进一步加强培养。

三汉字识别

汉字识别是指对图像中的汉字字形进行模式识别的一种汉字输入技术。根据识别对象特征不同，可分为印刷体识别和手写体识别。

（一）印刷体识别

印刷体识别也称光学字符识别（Optical Character Recognition，OCR）。汉字OCR技术研究始于20世纪60年代。1966年，美国IBM公司的凯西（Casey）和纳吉（Nagy）发表了第一篇汉字识别的文章，用模板匹配法识别1000个印刷体汉字，从此在世界范围内拉开了汉字识别研究的序幕（丁晓青，2002）。国内的汉字识别研究始于70年代末，实用于90年代，2000年以后的研究集中在识别率的提高和鲁棒性（即对各种复杂情况的适应性）的加强上。主要研究者有中国科学院自动化所、北京汉王科技有限公司、中国科学院计算研究所智能计算机研究中心、清华大学电子工程系以及北京信息工程学院、沈阳自动化研究所等单位。代表性的产品有汉王科技OCR、清华紫光TH-OCR、尚书OCR和台湾的丹青OCR。

（二）手写体汉字识别

手写体汉字识别的研究，最早始于20世纪70年代中期的日本，我国则在80年代初期开始该项研究。手写体汉字识别还可分为联机识别和脱机识别两种。

联机识别指的是用笔在图形输入板上写字，人一面写，机器一面认，是一种方便的“想打”型的汉字输入手段。一般是采用基于结构模式识别的方法，主要通过采集汉字的结构、笔画、字根、笔段和笔顺等信息进行整理和分析，然后提取汉字特征码，通过汉字特征库进行比较，识别出汉字。到20世纪90年代，大陆和台湾研制的联机手写汉字识别实用系统已有十多种，例如中国科学院自动化研究所研制的汉王笔、台湾研制的蒙恬笔等。这些系统能实时识别10000个以上的规整书写的简繁体汉字，笔顺无限制或少限制，少数常用字可以连笔，熟练使用后识别率可达90%以上。目前手写输入已成为智能手机上普遍使用的方法。

脱机识别指的是对通过扫描仪等设备转换成的图像上的原始手写文稿中的文字符号进行识别。一般采用统计模式识别汉字的方法。脱机手写体汉字识别的难点集中于脱机手写体汉字的正确分割、特征提取和对超大规模数据集的分类，脱机手写体汉字识别的复杂性，使系统的实现具有很大困难，到目前为止，除了极其受限的领域，如手写数字识别外，还没有十分成熟的产品，是一门亟待发展的技术。

四激光照排

激光照排，就是把每一个汉字编成特定的编码，存储到计算机，输出时用激光束直接扫描成字。汉字激光照排系统，实际上是电子排版系统的大众化简称，是王选院士及其团队的研究成果。

传统的图书报纸都是用铅字印刷，工人需先用火熔化金属铅，然后再铸成铅字，一本书的出版周期要300—500天。电子计算机问世后，欧美国家开始使用计算机进行文字输入、编辑和输出，极大地提高了办公效率。这对使用汉字的中、日两国形成了巨大的刺激。1974年，国家计委发文确立“汉字信息处理系统工程”，简称“748 工程”，“汉字精密照排系统”是其中的一个子项目。当时病休在家的北京大学助教王选抱着试一试的心情和满腔的兴趣开始了这项研究。

王选用轮廓加参数的数学方法描述汉字字形，通过高倍率字形信息压缩技术解决了激光照排的第一道难关——汉字信息的存储问题；继而，他又研制出了激光照排的控制器，后被称为栅格图像处理器，解决了第二道难关——汉字压缩信息的高速还原和输出。1979年，历经千辛万苦的汉字激光照排系统原理性样机调通，7月27日，我国第一张用激光照排系统输出的报纸样张在未名湖畔诞生。1985年，激光照排Ⅱ型系统通过国家鉴定，在新华社投入运行。该系统被命名为“华光”，意为“中华之光”。1987年5月，《经济日报》排出了世界上第一张用汉字计算机激光照排系统实现的屏幕组版、整版输出的中文报纸。1993年，国内99%的报社和90%以上的黑白书刊均已采用国产激光照排系统，延续了上百年的中国传统出版印刷业得到彻底改造，告别了“铅与火”，大步跨进“光与电”时代。西方国家用了40年时间，才从第一代照排机发展到第四代激光照排系统，而王选及其团队发明的汉字激光照排系统，却使我国印刷业从落后的铅字排版一步跨进了世界最先进的技术领域，发展历程缩短了近半个世纪，使印刷行业的效率提高了几十倍。到2001年，全国15万家各类印刷厂的年总产值就已经达到1500亿元。汉字激光照排被公认为继毕昇发明活字印刷后中国印刷术的二次革命。不仅是汉字实现了平面媒体精密照排，中国各少数民族的许多文字继而也实现了精密照排。

这项成果先后获得1项欧洲专利和8项中国专利，并获首届中国发明专利金奖。王选本人先后荣获“国家最高科学技术奖”“联合国教科文组织科学奖”“日内瓦国际发明展览会金奖”“国家科技进步一等奖”“毕昇奖”等几十项奖励。

汉字激光照排系统完整地走过基础研究、原理性样机研制、中间试验、定型生产、大面积推广各阶段，并在市场需求的拉动下最终实现产业化，成功地跨越创新过程中基础研究与产品开发之间的“死亡之谷”，其中的经验值得总结，值得推广。

显示更多

来源：	当代中国语言学研究2019 \ -	作者：	-	浏览次数：	8
摘要：	汉字是记录汉语的书面符号，计算机的汉字处理是汉语信息处理的前提和基础。脱机手写体汉字识别的难点集中于脱机手写体汉字的正确分割、特征提取和对超大规模数据集的分类，脱机手写体汉字识别的复杂性，使系统的实现具有很大困难，到目前为止，除了极其受限的领域，如手写数字识别外，还没有十分成熟的产品，是一门亟待发展的技术。汉字激光照排系统完整地走过基础研究、原理性样机研制、中间试验、定型生产、大面积推广各阶段，并在市场需求的拉动下最终实现产业化，成功地跨越创新过程中基础研究与产品开发之间的“死亡之谷”，其中的经验值得总结，值得推广。
关键词：	计算机手写体汉字激光照排激光照排汉字信息处理印刷体 OCR 键盘汉字重码汉语信息处理