您的IP是216.73.216.3,欢迎访问中国社会科学年鉴数据库 !

当前位置: 首页 > 当代中国语言学研究2015 > 文献详情

当代中国语言学研究

第十四章 语言信息处理研究

来 源
当代中国语言学研究2015 \ -
作 者
-
浏览次数
1
摘 要
语言信息处理是语言学、计算机科学、数学、认知科学等学科交叉形成的应用型学科,是利用计算机对中国各民族的语言、文字信息进行处理,包括输入、输出、转换、存储、检索、内容分析等,也称“中文信息处理”。1957年开展的俄汉机器翻译试验可以认为是中文信息处理的起步,之后1974年汉字信息处理系统工程(748工程)列入国家科技发展计划, 1980年公布了第一个汉字编码国家标准,奠定了中文信息处理的基础。本章从汉字处理、语音识别与合成、自动分词标注、句法歧义分析、机器翻译、语言资源、语言监测、古汉语信息处理等几个方面,梳理中文信息处理的发展及重要成果,分析面临的挑战。李宇明:《语料库中语言知识的标记。
关键词

语料库

机器翻译

语言

语音

语言信息处理

语义

句法

词义

语言资源

语料

中文信息处理

注释
收藏

在线阅读

第十四章 语言信息处理研究

字体:

语言信息处理是语言学、计算机科学、数学、认知科学等学科交叉形成的应用型学科,是利用计算机对中国各民族的语言、文字信息进行处理,包括输入、输出、转换、存储、检索、内容分析等,也称“中文信息处理”。

1957年开展的俄汉机器翻译试验可以认为是中文信息处理的起步,之后1974年汉字信息处理系统工程(748工程)列入国家科技发展计划,1980年公布了第一个汉字编码国家标准,奠定了中文信息处理的基础。少数民族语言文字信息化的工作始于20世纪80年代,目前已经实现了蒙古、藏、维吾尔、哈萨克、柯尔克孜、朝鲜、彝、壮、傣、纳西东巴、景颇等12个少数民族的14种文字的输入、存储、输出。少数民族语言信息处理技术及其应用的步伐相对汉语信息处理而言要慢一些。本章主要梳理汉语信息处理。

汉语信息处理是计算语言学的一个独特研究分支,其独特性是由汉语的特点决定的。第一,汉字的特殊性,由于数量庞大,无法直接对应输入键盘,因此汉字的输入便成为首要解决的问题;第二,汉语的词语之间没有分隔标志,汉语词语的识别便成为语言分析层面的第一道难关;第三,汉语的形态变化贫乏,难以凭借形态来确定词的句法功能,句法歧义特别复杂,使得汉语语句自动分析这一关键技术研究进展缓慢。

自20世纪70年代末期开始,在基本解决了汉字进入计算机的难题之后,汉语的词、句、段、篇等的信息处理从形式到内容的研究便相继展开。这一方面源于国际计算语言学的迅速发展,另一方面源于机器翻译、信息检索、问答系统等实际应用需求驱动。

30余年的汉语信息处理研究,大致可以分为三大块:(1)引介国外理论并结合汉语特点探讨汉语信息处理的理论、方法;(2)语料库、知识库的建设;(3)面向应用的实验、实际系统的研制开发。处理技术方面,随着语言理论的发展以及语言数据资源的开发,基于理性主义的规则方法和基于经验主义的统计方法,虽交替占据主流的地位,但二者始终并存,并显露出深度融合的端倪。目前,互联网上的大规模数据既含有十分丰富、细致的信息,同时又包含许多噪声与冗余数据,因而无论对语言信息处理技术,还是对数据资源的利用来说都处在了一个螺旋式上升的起点处。

本章从汉字处理、语音识别与合成、自动分词标注、句法歧义分析、机器翻译、语言资源、语言监测、古汉语信息处理等几个方面,梳理中文信息处理的发展及重要成果,分析面临的挑战。

第一节 汉字处理

汉字是记录汉语的书面符号,计算机的汉字处理是汉语信息处理的前提和基础。汉字与拉丁字母属于不同的文字体系,有着本质的区别,外国人在设计和制造计算机时没有、也不会考虑中国人的需要,所以汉字编码、汉字输入等一系列的汉字信息处理问题就成了汉语信息处理的第一个“瓶颈”问题。

一 汉字编码

汉字要进入计算机,首要问题是“编码”。编码可以分为“内码”和“外码”。确定汉字在计算机内部的表示形式,为每个汉字分配一个唯一的编码,这是内码,也称机内码;设计键位组合,在国际通用的小键盘上用不同的键位组合把成千上万个不同的汉字从字库里“检索”出来,敲打出来,这是外码,也称输入码。这两者,尤其后者,是汉字信息处理的关键。汉字输入码主要分为音码和形码两种类型,也有形码与音码结合的形音码或音形码。

按汉字的读音将其转换成汉语拼音的声母、韵母组成的编码叫音码,音码可分为全拼式、双拼式两种。目前人们普遍使用的“搜狗输入法”“紫光拼音输入法”等都是音码。

音码的优点是易学,但存在四个问题:(1)重码多;(2)汉语拼音的拼式比较长,因此有人设计了双拼、简拼、狂拼等方案;(3)对用户发音或拼音知识要求较高,这对某些人来讲使用不方便,但也不全是坏事,至少对推广普通话有利;(4)处理生字难,读不出来的字就打不出来。

将汉字分解为部件或笔画,并按照规定的顺序排列,用相应的字母或数字符号替代,按一定的规则取舍的符号组合,就是形码。“五笔字型”是形码的代表。

形码的优点是重码率低,但缺点是:(1)学习起来比较难,一般都需要进行专门的培训,不常用又很容易遗忘;(2)大多数形码系统对字根的归类和拆分,与人们头脑中的汉字认知结构不统一,缺乏规范化;(3)拆形输入与人们的思维习惯相左,形成对思维的干扰。基于以上原因,形码很难在大众中普及,于是人们又回过头来再向拼音中找出路。

目前,汉字输入计算机的问题已基本解决,下一步应考虑的是如何统一汉字输入码,使其成为国家乃至国际标准。在制定这个统一编码时要考虑到:(1)要同时适用于汉字的键盘输入和排序检索,并通用于所有汉字,适合处理全汉字集;(2)键盘输入要与识字同步并终身适用,要同时满足各行各业的使用要求,全社会通用;(3)进入基础教育课程,要做到“教学用”与“社会用”无缝衔接。

计算机汉字机内码的编制,可分为几个不同的阶段,有不同的成果。

1980年,在中文信息学会第一任理事长、中国科学院院士陈力为的主持下,我国发布了《通信用汉字字符集(基本集)及其交换码标准》GB 2312—80方案,简称GB(国标,GuóBiāo的缩写)。该方案用两个字节表示一个汉字,能够显示6763个汉字。这个字符集对一般人来说基本够用,但由于很多人名地名没有包括进去,无法满足像户籍登记这样要求字符量大的工作。

1995年12月,中华人民共和国全国信息技术标准化技术委员会制定了《汉字内码扩展规范(GBK)》,该规范包含21003个汉字和一些符号的编码,与GB 2312编码兼容,即GB 2312中的汉字和符号的编码在GBK中保持不变,GBK中的“K”是Kuò(扩)的缩写。但GBK自身并非国家标准,只是由国家技术监督局标准化司、电子工业部科技与质量监督司将其公布为“技术规范指导性文件”。

2000年,国家质量技术监督局又发布了GB 18030—2000《信息交换用汉字编码字符集基本集的扩充》编码方案。这个方案兼容GB 2312和GBK,其编码结构采用单字节(ASCII字符)、双字节(与GB 2312、GBK兼容)、四个字节来表示一个汉字。GB 18030—2000规定了常用非汉字符号和27533个汉字(包括部首、部件等)的编码,是一个全文强制性标准,市场上销售的产品必须符合这个标准。

2005年,GB 18030发布了第二版,同时更名为《信息技术中文编码字符集》,在GB 18030—2000的基础上增加了42711个汉字和多种我国少数民族文字的编码,增加的这些内容是推荐性的。故GB 18030—2005为部分强制性标准,自发布之日起代替GB 18030—2000。从理论上说,该方案定义的编码空间保证了扩充字符的需要,可以一劳永逸地解决汉字和其他所有文字编码的空间和结构问题。

二 汉字输入

汉字输入指的是利用汉字的形、音或相关信息通过各种方式把汉字输入到计算机中去。汉字输入技术是汉字信息处理的关键技术。根据介质不同,可分为键盘输入、手写输入和语音输入。这里主要讲键盘输入,手写、语音输入分别在“汉字识别”和“语音识别”中介绍。汉字键盘输入技术是20多年来中文输入技术的主流,经历了字处理、词处理和句处理三个不同的阶段。

(一)字处理阶段

这一阶段,最主要的工作是研究汉字编码,同时围绕“字”进行了许多研究。如汉字频度统计分析;字根、笔画、结构统计分析;建立计算机的汉字库;颁布《信息交换用汉字编码字符集》国家标准(6763个字);颁布宋、仿、黑、楷四种字体点阵汉字字模集国家标准等。这一阶段的研究结果是让汉字顺利进入了计算机,并且能让各种字体的点阵汉字的形式显示在屏幕上或打印在纸上,但汉字输入的方法还很不理想。

(二)词处理阶段

大约从20世纪80年代初开始,汉字输入从单纯的字编码发展到词处理,词语成了信息处理的核心。在这个阶段,除了建立汉字库外,还要建立汉语词库、词缀库,甚至语料库。主要研究了词频统计、分词规范、自动分词、词语编码、词库结构以及构词法等问题。在这一阶段,汉字输入方式由字上升到词,这无疑是一个极大的进步。以词为单位,音码的重码率大大下降,输入速度大大加快,“高频先见、用过提前”的技术可以使同音词的选择减少到微不足道的程度。这一阶段,由于采用了语言研究的成果,编码方案由繁而简,由无智能、低智能转向较高的智能转变。“智能ABC”等输入法是这一时期使用十分普遍的优秀成果。

(三)句处理阶段

20世纪90年代中期以后,汉语信息处理的核心对象由词语上升到句子。这一阶段的汉字键盘输入属于高智能技术。这种输入系统能在用户输入一句拼音码后给出正确的汉语句子,而完全不需用户过多地参与选择,是一种与传统的编码和拼音选择输入方法相比更加快捷方便的输入方法。像英文打字一样,想与打是同步一致的,没有任何别的干扰。有关语句输入系统的报道在90年代初就有,如哈尔滨工业大学王晓龙(1993)的《拼音语句汉字输入系统InSun》。进入21世纪以后,由于统计方法的普遍应用,人们可以在更大规模的语料中寻找特征,建立模型,更多好用的句输入系统不断推出,如谷歌拼音、紫光拼音、微软拼音、搜狗拼音,等等。

纵观20年来的汉字键盘输入方法研究的历史,可以看出人们从认识到技术螺旋式上升的轨迹:最初人们采用的是简单的音码,以字为单位输入。由于重码率高,使人们纷纷转向字形,在形码中找出路,乃至出现了“万码奔腾”的局面;继而进入词处理阶段,形码﹑音码各有市场;随着输入技术中智能化程度的不断提高,到句处理阶段,拼音编码又占据了主导地位。从表面看,这似乎是从音到形,最后又回到音上,但这绝不是一个简单的回归,输入技术已发生了“质”的变化,跃上了一个新的高度。

汉字输入还有一个新兴领域,就是汉语速录。汉语速记自古有之,但在高技术发展的今天,又出现了现代机器代替手工的快速记录,即速录。20世纪90年代唐亚伟研制开发的“亚伟中文速录机”,依据“双手多键并击”的原理设计专用键盘,仅仅使用11个拉丁字母组合出全部的汉语拼音音节,录入员可以与说者同步的速度将文字录入计算机,形成数字化讲稿文档。亚伟中文速录机实现了由手写速记到机械速录的历史性突破,这一成果被迅速推广应用,催生出了速录行业和速录师职业。2005年,92岁高龄的唐亚伟获得我国中文信息处理领域的最高科学技术奖——钱伟长中文信息处理科学技术奖一等奖。

目前,速录人才与市场需求的差距还较大,需进一步加强培养。

三 汉字识别

汉字识别是指对图像中的汉字字形进行模式识别的一种汉字输入技术。根据识别对象特征不同,可分为印刷体识别和手写体识别。

(一)印刷体识别

印刷体识别也称光学字符识别(Optical Character Recognition,OCR)。汉字OCR技术研究始于20世纪60年代。1966年,美国IBM公司的凯西(Casey)和纳吉(Nagy)发表了第一篇汉字识别的文章,用模板匹配法识别1000个印刷体汉字,从此在世界范围内拉开了汉字识别研究的序幕(丁晓青,2002)。国内的汉字识别研究始于70年代末,实用于90年代,2000年以后的研究集中在识别率的提高和鲁棒性(即对各种复杂情况的适应性)的加强上。主要研究者有中国科学院自动化所、北京汉王科技有限公司、中国科学院计算研究所智能计算机研究中心、清华大学电子工程系以及北京信息工程学院、沈阳自动化研究所等单位。代表性的产品有汉王科技OCR、清华紫光TH-OCR、尚书OCR和台湾的丹青OCR。

(二)手写体汉字识别

手写体汉字识别的研究,最早始于20世纪70年代中期的日本,我国则在80年代初期开始该项研究。手写体汉字识别还可分为联机识别和脱机识别两种。

联机识别指的是用笔在图形输入板上写字,人一面写,机器一面认,是一种方便的“想打”型的汉字输入手段。一般是采用基于结构模式识别的方法,主要通过采集汉字的结构、笔画、字根、笔段和笔顺等信息进行整理和分析,然后提取汉字特征码,通过汉字特征库进行比较,识别出汉字。到20世纪90年代,大陆和台湾研制的联机手写汉字识别实用系统已有10多种,例如中国科学院自动化研究所研制的汉王笔、台湾研制的蒙恬笔等。这些系统能实时识别10000个以上的规整书写的简繁体汉字,笔顺无限制或少限制,少数常用字可以连笔,熟练使用后识别率可达90%以上。目前手写输入已成为智能手机上普遍使用的方法。

脱机识别指的是对通过扫描仪等设备转换成的图像上的原始手写文稿中的文字符号进行识别。一般采用统计模式识别汉字的方法。脱机手写体汉字识别的难点集中于脱机手写体汉字的正确分割、特征提取和对超大规模数据集的分类,脱机手写体汉字识别的复杂性,使系统的实现具有很大困难,到目前为止,除了极其受限的领域,如手写数字识别外,还没有十分成熟的产品,是一门亟待发展的技术。

四 激光照排

激光照排,就是把每一个汉字编成特定的编码,存储到计算机,输出时用激光束直接扫描成字。汉字激光照排系统,实际上是电子排版系统的大众化简称,是王选院士及其团队的研究成果。

传统的图书报纸都是用铅字印刷,工人需先用火熔化金属铅,然后再铸成铅字,一本书的出版周期要300—500天。电子计算机问世后,欧美国家开始使用计算机进行文字输入、编辑和输出,极大地提高了办公效率。这对使用汉字的中、日两国形成了巨大的刺激。1974年,国家计委发文确立“汉字信息处理系统工程”,简称“748工程”,“汉字精密照排系统”是其中的一个子项目。当时病休在家的北京大学助教王选抱着试一试的心情和满腔的兴趣开始了这项研究。

王选用轮廓加参数的数学方法描述汉字字形,通过高倍率字形信息压缩技术解决了激光照排的第一道难关——汉字信息的存储问题;继而,他又研制出了激光照排的控制器,后被称为栅格图像处理器,解决了第二道难关——汉字压缩信息的高速还原和输出。1979年,历经千辛万苦的汉字激光照排系统原理性样机调通,7月27日,我国第一张用激光照排系统输出的报纸样张在未名湖畔诞生。1985年,激光照排Ⅱ型系统通过国家鉴定,在新华社投入运行。该系统被命名为“华光”,意为“中华之光”。1987年5月,《经济日报》排出了世界上第一张用汉字计算机激光照排系统实现的屏幕组版、整版输出的中文报纸。1993年,国内99%的报社和90%以上的黑白书刊均已采用国产激光照排系统,延续了上百年的中国传统出版印刷业得到彻底改造,告别了“铅与火”,大步跨进“光与电”时代。西方国家用了40年时间,才从第一代照排机发展到第四代激光照排系统,而王选及其团队发明的汉字激光照排系统,却使我国印刷业从落后的铅字排版一步跨进了世界最先进的技术领域,发展历程缩短了近半个世纪,使印刷行业的效率提高了几十倍。到2001年,全国15万家各类印刷厂的年总产值就已经达到1500亿元。汉字激光照排被公认为继毕昇发明活字印刷后中国印刷术的二次革命。不仅是汉字实现了平面媒体精密照排,中国各少数民族的许多文字继而也实现了精密照排。

这项成果先后获得1项欧洲专利和8项中国专利,并获首届中国发明专利金奖。王选本人先后荣获“国家最高科学技术奖”、“联合国教科文组织科学奖”、“日内瓦国际发明展览会金奖”、“国家科技进步一等奖”、“毕昇奖”等几十项奖励。

汉字激光照排系统完整地走过基础研究、原理性样机研制、中间试验、定型生产、大面积推广各阶段,并在市场需求的拉动下最终实现产业化,成功地跨越创新过程中基础研究与产品开发之间的“死亡之谷”,其中的经验值得总结,值得推广。

第二节 语音识别与语音合成

无论从历史发展还是现实使用来看,语音都是人类交际的第一方式,也是人与计算机交流的最好方式。因此,让计算机听懂人的语音,像人一样说话表达,是人机交互的发展方向。要实现这一目标,语音识别与语音合成是两大必不可少的关键技术。

一 语音识别

语音识别是以语音为研究对象,让机器通过识别和理解过程把语音信号转变为相应的文本或命令,使人与计算机能自然进行语音交流的技术。主要包括特征提取、模式匹配及模型训练三个方面。它的目标是让计算机会听人话。

1952年,美国贝尔实验室戴维斯(Davis)等人研制的Audry系统第一次识别出了10个英文数字的发音,这标志着语音识别研究工作的开始。到目前为止,语音识别技术的最重大突破是隐马尔科夫模型(Hidden Markov Model)的应用。我国对语音识别的研究开始于20世纪50年代。1958年,中国科学院声学研究所用频谱分析的方法研究了汉语10个元音的语音识别;1973年该所开始计算机语音识别研究,70年代后期,构建了基于模板匹配的孤立词语音识别系统;1986年3月,中国高科技发展计划(“863”计划)启动,语音识别作为智能计算机系统研究的一个重要组成部分被专门列为研究课题。在“863”计划的支持下,中国开始了有组织的语音识别技术的研究,并决定每隔两年召开一次语音识别的专题会议。从此中国的语音识别技术进入了一个前所未有的发展阶段。90年代以后,语音识别技术的研究水平已基本上与国际相当,如以中国科学院自动化研究所模式识别国家重点实验室为依托的中科模识公司,其汉语连续语音、非特定人听写机系统的错误率可以控制在10%以内。

语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务、汽车导航服务,等等。

近期,语音识别在移动终端上的应用最为火热,语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司都投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。讯飞语音云、搜狗语音助手、百度语音助手、紫冬口译等平台和系统都采用了最新的语音识别技术,市面上其他相关的产品也直接或间接嵌入了类似的技术。

二 语音合成

语音合成,是指以人工的方式产生人类语音,其主要的研究内容为文语转换技术(text to speech,TTS),是指由计算机等电子设备将文字信息转化为语音信息并输出,合成的语音通常要求有较高的可懂度和自然度。语音合成的目标是让计算机会说话,而且尽量说得像人话。

语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的。20世纪80年代,我国开始汉语语音合成技术研究。清华大学、中国科学院声学研究所、中国科技大学、北京交通大学等单位都开展了相关的研究,并取得较好成绩,有些研究成果已转化为产品得到了应用,如清华大学的Sonic系统、中国科技大学的DK—863汉语文语转换系统等。但也毋庸讳言,这些系统合成的句子及篇章语音机器味较浓,其自然度还不能达到用户可广泛接受的程度,从而制约了这项技术大规模进入市场。

随着语音合成技术的发展,特别是基音同步叠加(PSOLA)方法的提出,语音合成系统有了长足的进步,开始向产业化方向成功迈进,大规模应用指日可待。近几年来,出现了一批以安徽科大讯飞信息科技股份有限公司为代表的从事语音产业开发的语音技术公司,推出了多种面向市场的语音合成产品,如讯飞语音合成、盛大语音合成、捷通语音合成等系统。科大讯飞的“智能语音交互关键技术及应用开发平台”项目获得2011年国家科学技术进步二等奖,所提交的参赛系统在2006—2012年连续七届的英文语音合成国际大赛中综合成绩位列第一,表明我国在该技术方面已处于国际领先水平。

目前,由于波形拼接技术的普遍采用,语音合成研究的重点已由早期的音段层级的处理转到了对整段话语特性的建模,对合成语音质量的评价指标也由可懂度转变为自然度。促成这种变化和进步的主要是韵律分析方法及数值建模技术两方面的突破。语音合成系统性能可分为3个层次:表音,即给出清晰、自然的语音;表意,即准确地表达话语意图;表情,即生动地表现说者情感(朱维彬等,2007)。因此,仅仅合成清晰、自然的语音还不够,能够准确、生动地传递语义信息、情感信息将是新一代语音合成系统所追求的目标,这一目标的实现,将涉及理论基础、技术实现及基础资源等方面的研究。

第三节 自动分词标注

词是最小的能够独立运用的语言单位。汉语自古以来就是汉字连书,词与词之间没有界定符号。汉语信息处理的一个基本任务是自动分词,即在计算的意义上清楚界定真实文本中每个词语的边界。在我国,自动分词任务是在20世纪80年代初提出的。彼时,英语的自动词性标注研究取得了突破性的进展,于是在分词研究的同时,开展了汉语的词性标注研究。

一 分词标注规范与分词词表

汉语的词在语言学界一直没有很明晰的界定。有关研究(R.Sproat R et al,1996;刘开瑛,2000)表明,不同的人对于汉语词的概念是不一致的,在同一篇文本中,对词的认同率只有70%左右。

为了能让计算机的分词处理可操作化,首先要制定分词的原则。1992年,经中华人民共和国机械电子工业部提出,由北京航空航天大学、燕山公司系统部、北京师范大学、中国标准技术咨询服务中心、机电部计算机与微电子中心、北京语言学院、水电科学院计算所、中国软件技术公司、机电部第四研究所负责起草,并由国家标准管理部门颁布的《信息处理用现代汉语分词规范》[GB/T 13715—92](下文简称《分词规范》),以国家标准的形式对分词的操作规范予以界定。在《分词规范》中,还特别提出了“分词单位”的概念,从一定程度上避开了关于词的定义的争论。

《分词规范》发布以后,中国台湾计算语言学会于1995年提出了《资讯处理用中文分词规范》(黄居仁等,1997)。该规范在分词规范构架上有较大创新,规定了分词单位定义和基本原则作为规范的不变核心,以及辅助原则(合并原则、切分原则)作为规范的可变准则。对于《分词规范》的进一步完善和修订有较大的参考价值。随后北京大学、清华大学、山西大学等单位以《分词规范》为标准,在建设分词标注语料库的同时,也提出了针对语料加工的规范。

《分词规范》只是一个指导性的意见,其中对分词单位的划分准则——“结合紧密、使用稳定(频繁)”,在实际操作时灵活性很大,于是研制分词词表成为明确界定汉语词的重要途径。从20世纪90年代开始,分词词表的研制成为语言信息处理的重要基础性课题。具有代表性的成果是清华大学孙茂松以8亿字的生语料库RCorpus-TH为定量依据,研制成的《信息处理用现代汉语分词词表》(孙茂松等,2001a)。此外,北京大学俞士汶在以《综合型语言知识库》为代表性成果的研究中,产生了《北大语料库加工规范:切分·词性标注·注音》、《现代汉语语法信息词典》、《人民日报》基本标注语料库等一系列为分词词性标注奠定基础的高质量成果。在通用词表的基础上,构建领域适用的专业词表的工作也蓬勃展开,词表的规模从五六万条到几十万条不等。

二 自动分词与词性标注

汉语自动分词,就是由计算机在中文文本中词与词之间自动加上空格。进行分词的方法最容易想到的就是与词典进行匹配,统称为基于词典的分词方法。梁南元(1987)、刘源等(1994)、揭春雨(1989)等都介绍过基于词典的分词方法,包括“正向最大匹配法”、“逆向最大匹配法”、“双向扫描法”、“逐词遍历法”,等等。其中“正向最大匹配法”最早,是50年代苏联专家在研究汉俄机器翻译时提出的。其思路是:从左往右扫描句子,在词典中选择最长词匹配,匹配上的就切分为一个词,词典中没有的就切分成单个的字。国内首次将这个方法大规模应用到汉语自动分词系统的是刘源、梁南元(1986)。1989年,哈尔滨工业大学的王晓龙等又将其发展为“最少分词法”(也称“最短路径方法”),基本思想是利用词典匹配出所有可能的切分词语,每一种切分可以表示成从句子的开始到句子末尾的一条路径,在所有路径中选择一条切分词数最少的路径作为分词结果。

有时,句中的字串根据词表可以有不同的切分方法,例如句子“他说的确实在理”,正向最大匹配方法的结果是“他/说/的确/实在/理”,逆向最大匹配的结果是“他/说/的/确实/在理”。在具体的上下文中只可能有一种是正确的切分结果,仅通过词表匹配的方法无法做出正确的取舍。这叫作歧义切分。梁南元(1987)定义了交集型和组合型两种切分歧义,是最早对歧义字段进行系统考察的研究。

孙茂松(2001b)对组合型歧义进一步加上了上下文语境的限制。梁南元(1987)、刘挺(1998b)、刘开瑛(2000)等人均通过对大规模样本进行统计调查,得出了一些关于切分歧义的统计数据。消除切分歧义是自动分词研究中的一个重要内容。

自动分词的另一个难点是未登录词的识别。未登录词,是指未收录进词典的但必须切分出来的词,包括各类专有名词(人名、地名、组织机构名等)、缩写词、新词语等。由于自然语言实体词的开放特性,这类词语很难在实际的操作过程中被穷尽性地收入词典。黄昌宁等(2007)对国际中文分词评测活动Bakeoff的语料做分词精度的统计表明,未登录词造成的分词错误比歧义切分造成的错误多5倍以上。

歧义切分和未登录词识别是分词任务中的两个难点,也是分词方法研究中的核心问题,人在阅读的过程中对这两个问题的处理是综合运用各种语言和世界知识,因此目前来看,自动分词不可能彻底解决这两个问题,只能是通过知识的不断积累和策略的不断完善逐渐改进。

自20世纪90年代以来,随着大规模真实文本处理成为语言信息处理的战略任务,基于大规模语料库的统计自然语言处理一直占据主流地位,基于统计的语言模型和方法成为分词标注问题研究的主旋律。基于统计的分词方法的主要思想是从大规模正确的分词语料中学习相应的知识,这些知识是通过概率分布表现出来的,从而建立相应的语言统计模型。“分词规范+词典+分词语料库”(黄昌宁等,2007)体现了基于统计分词的一种模式,即以分词规范为指导制定词典,并加工语料形成分词所需的统计训练语料库,使汉语词在真实的文本中得到可计算的定义。中国科学院计算技术研究所张华平、刘群(2002)将自动分词过程分为两个阶段:(1)预处理过程中的词语粗切分;(2)切分排歧和未登录词识别,提出了“基于N-最短路径方法的汉语词语粗分模型”,在此基础上推出的基于层叠隐马模型的汉语词法分析系统ICTCLAS在2003年汉语特别兴趣研究组(ACL Special Interest Group on Chinese Language Processing,SIGHAN)组织的第一届国际汉语分词评测中取得了多项第一的成绩。

上述的分词方法是以“分”为视角的,另一个视角就是从“合”的角度来看哪些连续汉字能够组成词。基本思路是:通过对大规模标注语料的统计分析,获取汉字构词能力,从汉字在文中组成词的概率角度计算出文本词语切分结果,这便是无词典的分词方法。这种方法主要的统计模型有最大熵模型和条件随机场模型。与基于词典的分词方法相比,无词典的分词方法对未登录词的处理占有优势,对人名、地名、机构名的识别率均有明显的提高,但也存在一定程度的过度识别现象。

显然词语的正确切分必须建立在对整体语义把握的基础上,因此自动分词仅仅依靠匹配、规则、统计信息,不可能达到完全正确。

对文本中的每一个词语打上词性的标签,便是词性标注。对于经过分词的文本来说,词性标注的过程与方法与英语完全是一样的。汉语的词性标注基本是沿着英语词性标注的路线进行的,标注方法以有指导的统计学习方法为主,基本思想是利用一定规模的带有词性标注的语料,训练标注模型,以获得词与词性、词性与词性的概率分布参数。词性标注过程,便是根据模型计算出具有最大概率值的词性序列作为标注结果。典型的词性标注模型和方法包括马尔科夫模型、隐马尔科夫模型、错误驱动方法等,这些方法已经使英语的词性标注达到了实用的性能。

汉语词性标注的本质问题,在于汉语词性的描述体系及词性与句法功能的关系。由于汉语的词类与句法结构并非一一对应,致使兼类词的确定以及兼类词在具体语境中词性的确定都存在较大的分歧(刘开瑛,2000;杨尔弘等,2006)。细致描述词语的功能,形成确定词类对应的知识库,是词性标注研究的一个方面(俞士汶,2004)。《汉语词类分析手册》(袁毓林,2009)利用词语的隶属度对汉语词类划分理论进行了研究,其方法和可操作性对面向计算的词类划分是值得借鉴的。邢富坤通过对《人民日报》标注语料深入的分析,从语言工程实践的角度对汉语的词类体系进行了探索性研究,认为汉语词类体系的本质是基于语义的,先验的语义标准与后验的形式标准之间的矛盾是造成汉语词类问题的根本原因(邢富坤,2010)。

经过近30年的发展,自动分词和词性标注经过算法研究、带标语料建设,已经形成一些成熟系统。如,目前在网络上可以免费下载使用的有中国科学院计算所的ICTCLAS系统[※注](以及后来张华平继续独立开发的分支版本NLPIR/ICTCLAS分词系统[※注])、哈工大的LTP语言技术平台[※注]。ICTCLAS系统基于隐马尔科夫模型实现,主要功能包括中文分词、多级词性标注、命名实体识别、自定义用户词典的导入、关键词提取。哈工大的LTP语言技术平台集分词、词性标注、命名实体识别、句法分析、语义角色标注于一体,核心的分词方法采用的是条件随机场模型。目前自动分词标注已经应用于对分词精度要求不是特别严格的任务中,比如信息检索、情感分析等。

目前分词词性标注研究面临的挑战包括:(1)面向特定的领域和需求,如何快速、有效地移植性能较好的分词系统?如面向特定领域的分词性能提高不是仅依靠添加领域词典就可以实现;对微博、微信等语言的分词系统目前性能还非常低。(2)建立一个适合于汉语的词类标注体系,仍需要语言学家和计算机专家从语言工程和计算体系的角度进行深入研究。

第四节 句法语义分析

一 句法分析

句法分析是语言信息处理过程的一个中间环节,是实现机器翻译、自动文摘、信息抽取等应用任务的重要步骤。句法分析就是根据一定的语法体系确定句子的句法结构或词语之间的依存关系,分析结果一般以树状图形式呈现,故称为句法分析树。获得整个句子的句法结构,称为完全句法分析;而以获得局部成分(如基本名词短语)为目的的句法分析,称为浅层句法分析;词语间的依存关系分析,称为依存句法分析。

句法分析研究主要包括两大部分:一是形式化的语法理论,二是设计分析算法。通常,形式化的语法理论以语法规则库的形式体现,再结合词条信息,形成支持分析算法的基础知识库。

广泛应用于自然语言处理的形式化语法包括基于短语结构的语法和基于词间关系的语法两种。基于短语结构的语法主要有转换生成语法(TG)/管辖约束理论(GB)、树邻接语法(TAG)和基于合一的语法。基于合一的语法又包括词汇功能语法(LFG)、广义短语结构语法(GPSG)、中心词驱动短语结构语法(HPSG)、功能合一语法(FUG)。基于词间关系的语法主要有依存语法(DG)、范畴语法(CG)、词语法(WG)、链语法(LG)(詹卫东,2010)。

在分析方法研究方面,可以归纳为基于规则的方法和基于统计的方法,前者的研究思路是:人工建立语法规则库,分析器通过条件约束来应用规则消除句法结构的歧义。基于规则方法的优点是可以针对特定的领域或目的,编写适于问题的规则,从而高效处理歧义和一些超语法现象;其缺点是由于规则本身是一个开放集,在规则的编写、保证规则的覆盖率及对长句的处理方面都存在较大困难。基于统计的句法分析方法通过对标注树库中蕴藏的知识进行统计分析,获取树库所遵循理论模型中的相关参数,从而赋予语法规则一定的统计概率。基于统计的方法通常是语法驱动的,其研究思路是由生成语法定义被分析的语言及分析出的类别,在训练数据中观察并获得各种语言现象分布的统计数据,并与语法规则一起编码,分析器相当于一个解码过程,并利用统计数据消除句法结构歧义。

根据句法树形成方向的区别,可以将分析算法分成自顶向下、自底向上和两者结合的分析方法。自顶向下的方法是规则推导的过程,根节点是句子,中间节点是短语结构,叶节点是词语。自底向上的过程是利用规则不断将节点归约的过程。

句法分析算法研究始于20世纪60年代,到目前产生了许多具有影响力的分析算法,如基于规则的CYK、欧雷、移进归约、线图、GLR等,冯志伟(1996b)、赵铁军(2000)等对这些算法都做了详尽的介绍。基于概率的上下文无关文法是目前最成功的语法驱动的统计句法分析方法,以该方法为基础,若干个面向多种语言的开源短语结构分析器在国际范围具有较大影响,如Stanford、Berkeley、Bike1等句法分析器(宗成庆,2013)。这些方法都是以英语为分析对象形成的,而语法理论的共性,使这些分析方法能够移植、改进应用到不同的语言。以短语结构语法为基础,针对汉语特点,冯志伟(1995)提出了潜在歧义论,通过几类典型的汉语短语结构歧义分析了如何归纳有效的歧义消解条件;詹卫东(1999)从句法和语义两个层次上研究了短语结构规则在歧义消解中需要用到的范畴知识。苑春法等(1999)通过建立语义类之间的组合关系进行句法结构排歧。周强等(1998)实现了汉语概率型上下文无关语法的自动推导。

使用依存形式进行句法分析源自Hays(1964)和Gaifman(1965),国内周明(2000)最早从事汉语依存句法分析。

汉语句法分析的代表性工作有北京大学和清华大学所做的基于短语结构语法理论的句法分析研究,形成了大规模的短语结构句法树库(周强等,1997);哈尔滨工业大学根据依存句法理论建立了依存句法分析平台,建设了依存句法树库资源,该平台已经向学术界开放协议共享[※注]

使用比较广泛的短语结构句法分析器的性能评价方法是PARSEVAL(Black et al.,1991),其评价指标包括标记正确率、标记召回率(这两项综合形成F1值)及交叉括号数,评价多在宾州树库上进行,最好的英语、汉语句法分析器F1值分别达到92.1%和85.45%(宗成庆,2013)。

依存分析器的性能评价,通常使用无标记依存正确率、带标记依存正确率、依存正确率、根正确率、完全匹配率等指标。英语的依存分析研究语料划分比较一致,评测多采用由宾州树库转化而来的依存树结构。在上述5个指标中,性能最好的分析器,依存正确率可以达到95.2%,而完全匹配率只达到45.2%。汉语的依存分析所使用的语料及语料划分没有统一的标准,主要用到的语料包括宾州汉语树库、台湾Sinica树库及哈尔滨工业大学的汉语依存树库,性能最好分析器的无标记依存正确率指标为90.13%(宗成庆,2013)。

汉语的句法分析离实用还有相当大的距离,一些研究者开始回过头来审视句法分析的理论:形式化体系是否与汉语实际语法系统一致?于是,有些学者开始探求新的适合汉语信息处理的形式化体系,如北京师范大学语言与文字资源研究中心以黎锦熙语法图解法为原型改造设计出一种基于句式结构的汉语图解析句法(彭炜明等,2014);有些学者则将国外新的语言学成果借鉴过来,如北京大学詹卫东从认知语言学中借鉴构式语法理论来作为短语结构语法的补充,用来描述非常规组合形式。有学者将国外的组合范畴语法理论(CCG)引入汉语句法分析,研究了在清华中文树库的基础上自动生成CCG树库的方法(宋彦等,2011)。这些研究目前仍然没有从本质上改善汉语的句法分析结果。这也从另一角度说明我们对语言的认识和描述还很不充分(俞士汶等,2006),还需要对汉语语言事实进行周密的调查、总结,无论在语言句法理论方面,还是分析算法方面,都要结合汉语的特性进行更深入的研究。

二 词义消歧

词义消歧,就是根据上下文语境确定一个多义词在文中的确切含义。词义消歧是词汇级别的语义问题,是众多相关自然语言处理任务的中间任务或环节。词义消歧这个概念在提出机器翻译任务(Weaver et al,1949)的同时就提出了。60多年来众多学者对此进行了坚持不懈的研究,但囿于现有资源与方法,该问题迄今还没有得到较好的解决。

汉语词义消歧作为专项研究是从20世纪90年代初开始的(黄昌宁,1993)。按照国际词义消歧评测任务,词义消歧分为词汇样本任务与全词任务。前者是预先给定若干个多义词,给定包含这些多义词的例句,针这些多义词,进行词义消歧。后者不指定多义词,是对给定全文内的所有词汇进行词义标注,也就是对其中所有多义词进行词义消歧。

词义消歧中对词义的定义及分类一般来源于语义词典。同时,词典中的搭配、例句及解释等信息,为词义消歧提供了资源。汉语词义消歧研究可利用的最主要的词典资源是《知网》(Hownet)与《同义词词林》,也有部分研究利用了《现代汉语语义词典》(CSD)、《现代汉语词典》、《现代汉语辞海》及《中文词汇网络》(Chinese Wordnet)。词义标注语料资源是研究词义消歧方法的重要组成部分,已经公开的中文词义标注语料库资源不多,标注语料基本为新闻语料。主要有国际语义评测系列(Senseval及Semeval)标注语料及北京大学现代汉语词义标注语料库(STC)。

词义消歧目前主流方法为基于统计的方法。从这个角度来看,词义消歧是一个典型的分类问题。词义消歧方法可分为有指导的、无指导的和半有指导的。有指导的方法指主要利用人工标注语料资源进行分类的方法;半有指导的方法指利用几个或很少人工标注语料或知识资源作为初始种子的分类方法;无指导的方法无须人工标注语料资源,可利用其他知识源。

李涓子(1999)、鲁松(2001)、刘鹏远(2008)、吴云芳(2008)、张仰森(2012)等根据已有的资源,分别在词汇样本任务上面对上述方法进行了深入研究,相关研究论文从一定程度上代表了当前汉语词义消歧的状况,所采用的方法都还不能面向全词任务,消歧结果在较大的程度上依赖于对应词义资源的数量与质量。

从1998年起,国际上已经开始组织与词义消歧相关的语义评测(Senseval,后改为Semeval)。其中简体中文词义消歧任务的评测迄今为止已有四届,但是直接参与评测的研究队伍与英文相比少得可怜。国内目前仍有一部分词义消歧的研究者没有利用上述评测数据集,这样也就难以进行较为公平的能够说明问题的横向比较。

从研究方法上看,国内研究水平相对滞后。因对汉语词义消歧的研究起步较晚,很多研究方法是受英语相关研究的启发拓展而得,真正从汉语本身特点出发、开拓性的研究方法不多。如早在2002年,Mihalcea(2002)的研究已经针对词汇各自特点,为每个词汇进行独立的特征选择以及消歧,而我国在2010年才有类似的研究。Mihalcea(2007)又于2007年利用维基百科知识源进行了词义消歧的研究,而国内利用在线百科对汉语词义消歧的研究至今鲜见。早在2001年,国际上就已经建立了4种语言的全词消歧任务国际标准测试集,而中文全词任务国际标准测试集于2013年才建立,且并无队伍参与该项任务。

从资源建设上看,已经公开的中文词义标注语料库较之英语类似资源,规模偏小,中文词义消歧尚缺乏一个大规模中文全词词义标注语料资源。词典资源方面,《知网》在中文词义消歧领域是当前应用最多的资源,该资源也是最体现汉语特点的词典类资源之一。但与英文的WordNet相比,其平台性与开放性还有待提高。基于WordNet开展的百余个项目如WordNet Domains等资源也在词义消歧及其他自然语言处理各项任务中起到极大的作用。

目前中文词义消歧面临的主要挑战包括:(1)数据稀疏。这个问题在词义消歧中显得尤为突出。主要原因在于:含有多义词的句子长度有限,而如果句子中仅有少数词汇在训练语料中出现,则很难对词义做出正确区分。(2)词义的粒度。词义究竟应该细分到何种程度才能够满足自然语言各种处理任务的需要?词义粒度的不同,很大程度上决定了词义消歧的难度和深度。(3)资源建设。一类是词典类语义资源。不但要继续丰富现有内容,同时需要研究者进一步考虑,词义消歧究竟需要何种语义知识。另一类是大规模词义标注语料资源。建设过程的难点在于满足汉语词义消歧应用需求的资源规模难以确定,同时建设者还要考虑语义词典的选取及其是否可公开(付费或免费)使用。

三 语义角色标注

语义角色标注(Semantic Role Labeling,SRL)是以句子为单位,识别出所有与谓词相关的名词性成分,即论元,并且给这些论元赋予一定的角色类型,如施事、受事、工具、地点等。

语义角色标注涉及对汉语语义关系的定义,不同的语言学家给出了不同的划分,如董振东在《知网》中提出事件内部语义关系总计83类,分为主语义角色和辅语义角色两大类;冯志伟(1992)对汉语动词、形容词和部分名词的论元结构进行了研究,提出了30种论元关系;袁毓林(2008)提出语义关系标注体系包括论旨角色标记集、逻辑关系标记集和语篇关系标记集,总共有40种关系标记;鲁川(1995)提出的“意合网络”中归纳出了6大类,共计26种关系;林杏光(1989)提取了汉语的22个基本格等。然而,已经建设的具有一定规模的语义角色标注语料库,并没有完全按照上述的任一体系,如中文命题库(CPB)[※注]是在宾州中文树库的对应句法成分中加入了语义信息;汉语框架库以框架语义学为理论基础,标注了8200个句子(刘开瑛,2006);而汉语名词论元库(Chinese Nombank,Xue NW et al,2006)的标注则是由英语库[※注]的标注框架扩展得到。

语义角色标注包括论元识别和角色确定,通常是在句法分析的结果上进行。标注方法以统计方法为主,标注结果主要应用于信息抽取、商品评论分析、问答系统等多项任务中。

语义角色标注的国际评测从2004年开始,主要以Senseval和CoNLL为代表,每年举办一次,CoNLL从2009年开始,将所处理的语言从英文扩展为包括中文、日文、西班牙文等7门语言。来自香港城市大学的赵海等人设计的基于L-BFGS算法的高斯优化最大熵模型在2009年取得了最好成绩(Hai Zhao et al,2009)。

语义角色标注目前面临挑战包括:(1)鲁棒性差,指对于句法分析的严重依赖和领域适应性差两个方面;(2)数据资源匮乏。中文语义角色标注的语料库规模还很小,CPB只是对宾州中文树库中的760多个文档进行了语义角色标注;汉语名词论元库也只是对宾州中文树库中的名词性谓语动词进行语义角色标注,规模更小。另外,不同的语义资源,其规模、基础理论、应用目的各不相同,描述规范也都不同,对语义的解释往往也是采用较为随意的自然语言,这给计算工程的研究者带来很多不便。

四 倾向性分析

倾向性分析是指根据文本所表达的含义,对作者的观点、态度、倾向性等情感信息进行识别。通常将情感信息分为褒扬、贬抑,或积极、消极两类极性,因此从技术的角度来看,文节的倾向性分析也是一个文本分类问题。

文本倾向性分析研究兴起于20世纪90年代,随着电商、网购、自媒体等网络技术的发展,网民、商界、政界等都对倾向性分析提出了需求,使之成为国内外近年的热点研究内容之一。汉语倾向性分析最先是关于汽车评论的意见挖掘(姚天昉,2006)。2008年,中国中文信息学会信息检索专业委员会为推动国内关于倾向性分析研究的发展,推出了中文倾向性分析评测(Chinese Opinion Analysis Evaluation,COAE),随后每年举办一次。每一年的评测任务体现了该研究领域的发展情况:第一届评测主要内容包括:中文情感词的识别和褒贬分析;中文文本倾向性相关要素的抽取;中文文本的主客观分析、褒贬分析和面向对象的观点检索[※注]。第二届评测主要关注文本情感分析领域和文本观点分析领域,主要内容包括:中文情感词和情感句的识别和分类,中文观点句子的抽取,观点相关要素(即观点句中的评价对象)的抽取,面向给定对象的中文文本观点倾向性检索sup7。第三届评测在前两届的基础上,在任务中融入了领域知识和上下文语境对倾向性的影响,从多领域数据集中抽取观点词和观点句并判断极性,从得到的观点句中抽取评价搭配,结合领域知识和上下文语境对给定的查询对象进行观点检索。第四届评测重点对两种特殊的句子现象进行评测:基于否定句的句子级观点倾向性分析和比较句的识别与要素抽取。此外,还需要对篇章的观点倾向性进行打分。第五届评测重点对于否定句、比较句以及微博观点句进行评测,主要内容包括基于否定句的句子级观点倾向性分析、比较句的识别与要素抽取、微博观点句和评价对象识别。第六届评测的主要内容包括:面向新闻的情感关键句的抽取与判定、跨语言情感分析、微博情感新词的发现与判定、微博观点句和观点要素的识别sup7。

从以上研究内容中可以看出,倾向性分析研究,在语言层面,集中在情感词语表的构建、情感词语表与评价对象搭配及其表达的极性判断,这是倾向性分析中基础的知识,是建立在词语层面的细粒度的知识描述与表达研究。目前,大连理工大学共享了情感词汇本体[※注],是第一个在线的汉语情感词汇知识库,其中包括27466条情感词语知识。

在技术层面,倾向性分析主要是文本分类的方法,主要包括基于简单情感词语统计、机器学习,以及基于语义分析等方法。

在应用层面,已经有一些成型的系统,如:姚天昉等开发的用于汉语汽车论坛的意见挖掘系统,可以通过挖掘电子公告板或门户网站上的意见,将褒贬信息进行综合统计(姚天昉等,2006);产品信息反馈系统Opinion Observer,能够从顾客对产品特征的赞扬或批评的评价信息中统计得出产品特征综合质量(厉小军,2011);微软公司开发的商业智能系统Pluse,能够从海量的评论文本数据中分析出用户的喜好(董晶晶,2012)。

文本的倾向性分析面临的挑战包括:(1)情感表达的语言形式、表达机制及其可计算性。倾向性的表达与修辞有着密不可分的关系,面向计算的修辞理论研究还鲜见;(2)技术的开放性。文本倾向性分析涉及多个研究领域的研究内容,包括机器学习、人工智能、数据挖掘、自然语言处理等,而研究结果也将对多个领域产生影响。

第五节 机器翻译

机器翻译,指的是借助计算机程序将文字或语音从一种自然语言翻译成另外一种自然语言。语言不通是人类交往的最大障碍,因此,机器翻译自然而然地成为语言信息处理的滥觞;而且由于翻译所要求的高度智能化和知识的综合性,机器翻译也成为语言信息处理中最具有难度和挑战性的领域;同时,由于广阔的应用领域和广泛看好的市场前景,机器翻译又是计算语言学中长盛不衰的研究课题,在计算语言学60多年的历史中,人们对它探究的脚步或快或慢,但从来没有停止过。

1946年,电子计算机问世,人们利用它进行非数值运算的第一个领域就是机器翻译。同年,美国洛克菲勒基金会副总裁韦弗(W.Weaver)在与英国伦敦大学工程师布斯(A.D.Booth)讨论电子计算机的应用范围时,就谈到了利用计算机进行语言自动翻译的想法。1949年,韦弗发表了一份题为《翻译》的备忘录,正式提出机器翻译问题。1954年,美国乔治敦大学与国际商用机器公司(IBM)用IBM-701计算机进行了世界上第一次机器翻译试验,把几个俄语句子翻译成英语。两年后,在周恩来总理的提议和领导下,我国就把机器翻译列入1956—1967年科学技术发展远景规划,成为其中的一个课题,课题的名称是“机器翻译、自然语言翻译规则的建立和自然语言的数学理论”(冯志伟,1996a)。在世界上,中国是继美国、英国、苏联之后第四个开展机器翻译研究的国家,比日本还早两年。可以说,中国的机器翻译研究起步并不晚。

1957年,中国的机器翻译研究工作开始进行,中国科学院语言研究所和计算机技术研究所合作,开展了俄汉机器翻译研究,这是中文信息处理的第一项正式工程。1958年在我国制造的104大型通用电子计算机上进行了第一次机器翻译试验,顺利地翻译出了9个不同类型的俄文句子。随后,1961年,在扩大语言材料和句型的基础上,又制定了一套新的俄汉机器翻译系统方案,并且还开展了英汉机器翻译的研究。与此同时,中国科技情报所、哈尔滨工业大学、北京外国语学院、华南工学院等单位也相继成立了机器翻译研究组,并开展了俄汉或英汉机器翻译的研究(刘倬,1983)。

1966年到1975年底,由于众所周知的原因,我国机器翻译研究完全停顿,沉寂了近10年。

1975年底,我国开始恢复机器翻译的研究。同年11月,中国科学技术情报研究所设立了一个由中国科技情报所、语言所和计算所等单位的工作人员组成的机器翻译协作研究组,以冶金题录5000条为试验材料,制订英汉机器翻译方案并上机试验。1978年5月,在计算所Ⅲ机上进行抽样试验,抽样20条,达到了预期的效果。(冯志伟,1996a)同年,中国社会科学院语言研究所机器翻译研究室恢复,黑龙江大学也成立了英汉机器翻译研究组。在这个时期,我国学者还进行了法汉、德汉、日汉以及汉—法—英—日—俄—德多语言机器翻译试验,取得了一定的成效。

1987年,中国人民解放军军事科学院董振东研制了“科译1号”,于1988年实现了商品化,命名为“译星1号”。这是我国第一个商品化的机器翻译系统,它的出现引起了国内外机器翻译界和计算语言学界的瞩目,被列为我国1988年计算机界10件大事之一,1991年获国家“七五”攻关重大成果奖。

之后,我国机器翻译研究呈现一片繁荣景象,一系列实用化商品化的机器翻译系统不断地推向了市场。其中较有代表性的是:北京市高立电脑公司与中国社会科学院语言研究所刘倬等人合作开发的“高立英汉机器翻译系统”;中国科学院计算技术研究所、华建集团公司陈肇雄、黄河燕开发的智能型英汉机器翻译系统863-IMT/EC;国防科技大学史晓东于1994年研制成的英汉机器翻译系统Matrix;中国软件与技术服务总公司开发的汉外机器翻译系统SinoTrans;迈创语通软件公司开发的用于嵌入式设备(如学习机、扫描笔)的迈创英汉汉英双向机器翻译系统,等等。上述机器翻译系统基本上都是利用词典和句法语义知识建立起来的,人们称之为“基于规则的系统”。

然而,这种繁荣并没有持续下去。20世纪90年代以后,人们发现现有的基于规则的机器翻译系统性能很难再进一步提高,当离开实验室,面向社会生活中使用的真实语言的时候,这些机器翻译系统几乎无法给出有用的译文。进入21世纪以后,基于大规模语料库的统计方法在自然语言处理中得到快速发展,以语料库为研究对象和基础的语料库语言学迅速崛起,基于实例和基于统计的机器翻译方法被提出来,统计机器翻译逐渐成为国际机器翻译研究的主流,目前还在进一步发展中。中国科学院计算技术研究所、自动化研究所、哈尔滨工业大学、厦门大学和中科院软件所等在统计机器翻译研究中进行了富有成效的探索和实践。中科院自动化所还在语音翻译研究方面做了大量开创性的工作,先后实现了基于个人计算机、PDA和普通手机的汉英、汉日双向语音翻译系统(宗成庆等,2009)。

沈阳格微软件有限公司在机器翻译应用方面独树一帜。不同于基于规则和基于统计的翻译方法,该公司基于知识管理的协同翻译方法提出了以用户模型为核心的知识管理与机器翻译技术融合的新思想。该方法的关键是将翻译人员作为系统的有机组成部分进行一体化设计,从而实现人机双向对翻译知识的动态积累、实时转化、同步增益,实现翻译过程的人机合一(张桂平等,2008)。该系统成功应用于国家知识产权局百万专利翻译项目,高质量完成了2亿字专利文本的翻译任务,于2008年获得中文信息处理领域的最高科学技术奖——钱伟长中文信息处理科学技术奖一等奖。机器翻译从全自动到人助机译,再到机助人译,反映了人们认识的不断全面、客观和深化。

随着互联网的发展和经济全球化时代的到来,克服语言障碍、实现跨语言自由沟通的需求日益凸显。随着统计机器翻译技术的长足发展,以及互联网上双语资源的涌现,统计翻译技术以其优越的自学习能力以及鲁棒性(即对各种复杂情况的适应性)迅速为互联网机器翻译系统所采纳,如百度、Google、Bing、有道等都研发了互联网机器翻译系统以满足用户多语言翻译的需求。

最后,值得一提的是评测在机器翻译技术发展中的作用。2002年,在美国国防高级研究计划署资助下,美国标准和技术研究所组织了NIST机器翻译评测,大致每年举行一次。NIST评测为机器翻译相关研究提供了公共的测试基准,为研究机构提供了公平竞争的舞台与充分交流的机会,极大地推动了机器翻译相关技术的发展。我国在20世纪90年代就提出机器翻译评测的概念并进行了研究,规模最大、最正式的机器翻译评测是CWMT(China Workshop on Machine Translation),该评测从2008年开始,在每年的全国机器翻译研讨会之前进行。

毋庸置疑,近些年机器翻译在统计方法的推动下,有了很大的进步,涌现出了很多的新理论和新方法,不仅翻译质量较传统的方法有了较大的提高,而且由于可以从大规模语料库中自动获取翻译知识,无须人工撰写规则,大大缩短了机器翻译系统的开发周期,也降低了机器翻译研究的门槛,吸引了更多的研究者投入到机器翻译研究中来,使这个研究领域充满了生机与活力(刘群,2009)。但到目前为止,统计机器翻译中用到的语言知识还很有限,机器翻译初期就遇到的“译文质量”问题仍然存在,如何引入更复杂的语言知识,如何针对语言的复杂性将各种方法有机结合起来,如何在机器翻译中充分发挥人的作用,如何在提高机器翻译技术的同时更关注用户的实际应用,是机器翻译研究下一步应考虑和面对的问题。

第六节 语言资源建设

语言资源有广义和狭义之分,广义的“语言资源”是指语言本体及其社会、文化等价值;狭义的“语言资源”是指为语言信息处理或语言应用研究所用的各种语料库和语言知识库(陈章太,2008)。这里的“语言资源”为狭义概念。

面向语言信息处理,从语言事实中挖掘语言规律、显性化语言知识,统计语言特征是语言资源建设研究的基本内容。语料库加工标注的程度,体现了研究者对语言本身可计算内容的认识、处理程度,也决定了基于语料库的语言信息处理的层面,比如分词标注语料库可以支持分词标注方法的研究,树库可以支持句法分析等。

一 语料库和知识库

语言资源大体可以分为两类:语料库和语言知识库。二者经常是互为依托,相互支持的。一般来说,语料库的加工标注以语言知识库作为理论背景和设计规范参照,同时也为语言知识库提供例证支持和统计信息。语料库是在真实的语言材料上通过标注将其隐含的语言现象显性化,标注仅限于客观描写,在建立的过程中,真实性是第一位的;知识库则是对语言现象背后规律的归纳、泛化,在建立的过程中,理论的科学性是第一位的。

(一)语料库

我国机读语料库的建设始于1979年,最初建设的具有代表性的语料库包括:1979年武汉大学建立的527万字的“汉语现代文学作品语料库”;1983年北京航空航天大学建立的2000万字的“现代汉语语料库”;1983年北京语言大学建立的182万字的现代汉语词频统计语料库;1983年北京师范大学建立的106万字的“中学语文教材语料库”等。

20世纪90年代,统计方法成为语言信息处理技术主流,大规模语料库的构建也蓬勃展开,10余个科研院所先后开展了汉语语料库的建设,包括分词标注、汉语树库、双语对齐、口语等一系列语料库,具有代表性的语料库包括:北京大学计算语言学研究所的《人民日报》标注语料库;清华大学树库;哈尔滨工业大学汉语依存树库;美国宾夕法尼亚大学中文树库和命题库;中国台湾“中研院”现代汉语平衡语料库和中文句结构树资料库。同时蒙语、藏语、维吾尔语、朝鲜语等少数民族语言语料库建设也蓬勃展开。

语言资源有效管理与共享共建一直是各领域所关注的问题。2003年,为了促进语言资源的共享与共建,在国家“973”计划资助下成立了中文语言资源联盟(Chinese Linguistic Data Consortium,CLDC)[※注],该联盟的目标是建成具有国际水平的具有完整性、系统性、规范性和权威性的通用中文语言资源库以及中文信息处理的评测体制。截至2014年4月,中文语言资源联盟官方网站上已列出了95项语言资源,涉及分词和词性标注语料库、句法树库、语音识别语料库、语音合成语料库、自然口语语料库、方言语料库、情感语料库、评测语料库、多语对齐语料库、少数民族语料库和各类型知识库等。

随着语料库建设的推进,语料标注已经从对一般的词汇信息标注发展到了对句法结构、句法功能、句子意义、语义角色功能、复句关系、篇章结构、隐喻、事件、情感、意见、情境、推理等信息标注[※注]。语料库构建是一项系统工程,涉及语料采集、分词及标注、校验辅助工具开发等众多环节。带有标注的语料库的各类标记是隐性语言知识的显性标志,标注体系、标注内容、标注信息的深度等研究始终是语料库建设的核心,标注体系和标注深度决定了语言可以形式化的程度,从而也决定了计算机自动处理语言的程度。面向特定的目标,定义期望从语料中获取的知识体系,即语料标注体系研究。标注体系的制定既需要语言理论做指导,还需要标注实践的支持与反馈。因此标注体系构建和具体语料标注最初是螺旋式的交互过程,直到随着标注语料规模的增加,标注体系基本涵盖了与目标相符合的语言特征,标注体系才可完全确立。标注体系的研究需要语言理论、计算理论、认知科学等跨学科知识综合运用。

国际上关于词汇、句法、语义、文本内容等一系列的评测任务,其对评测任务设计、制定,本身是对语言的可计算对象进行研究的过程,评测对象通过语料标注体现,实际上定义了语料标注的内容,因此各种评测任务对语料库建设起到了导向性的作用。同时,对语言信息处理技术评价的过程也是对资源应用的评价过程。

此外,随着语言信息处理技术的发展,支持汉语研究的在线免费语料库及其检索系统相继推出,如北京大学中国语言学研究中心的CCL语料库[※注]、国家语委语料库[※注]、中国传媒大学传媒语言语料库[※注]、北京语言大学动态流通语料库DCC[※注]及现代汉语语料库BCC[※注]等。面向语言调查的大规模动态流通语料库——国家语言资源监测语料库以每年10亿字次的规模逐年建设中。自2005年起,教育部语言文字信息管理司联合国内6所大学,以该语料库为语言调查的数据来源,进行语言生活的实态调查,对语料中的用字、用语、流行语、新词语、网络用语、字母词、术语等进行提取分析,反映媒体、教材的语言生活面貌,并以年度语言生活状况报告绿皮书的形式向社会发布。

除了上述面向语言信息处理或者面向语言研究、语言调查的语料库之外,还有一种研究型的语料库,这类语料库的建设是以发现语言的形式化规律为目标,以探索实际使用的语言中蕴含的理论为出发点,进行语料的标注,标注的过程是对理论探索、发现的过程,标注的结果可对理论进行归纳、验证。如宋柔建立的汉语广义话题语料库,通过对大规模包括小说、新闻、政论、百科等语料进行广义话题标注,提出了汉语篇章的广义话题结构理论(尚英,2014)。

作为一种语言资源,汉语语料库在语言信息处理相关技术研究、语言研究(如汉语单语研究和汉英/英汉双语研究)、语言教学(对外汉语教材编撰、教学实践、汉语非母语者的汉语二语习得)都产生了积极作用和影响。

(二)知识库

语言知识库是从大量语言事实中提取、归纳总结产生的知识集合。构建语言知识库对研究者来说,既要求具备丰富的语言学理论背景,又要求能够依据语言事实设计出计算机可处理的知识体系。所以,语言知识库的构建比语料库更难。

在中文语言资源联盟[※注]和中国知网论文数据库[※注]中公布的已建或在建的知识库中,俞士汶主持研制的《北京大学综合型语言知识库》、董振东主持研制的《知网》是在汉语信息处理研究中影响力最大、用户最多的两个基础资源。

《北京大学综合型语言知识库》是北京大学计算语言学研究所积20余年的努力与锤炼建成的系列化知识库和语料库,涵盖词、词组、句子、篇章各单位以及词法、句法、语义各层面。主要包括:现代汉语语法信息词典(含8万词的360万项语法属性描述)、汉语短语结构规则库(含600多条语法规则)、现代汉语语义词典、多语言概念词典(含10万个以同义词集表示的概念)、多领域术语库(有35万中英对照术语)等。同时配套建设了现代汉语多级加工语料库,实现词语切分并标注词类的基本标注语料库1.5亿字(其中精加工的有5200万字,标注义项的有2800万字),平行语料库(含对译的英汉句对100万)。

《知网》则是董振东于1988开始建立的一个的常识知识库,其知识是以汉语和英语的词语所代表的概念为描述对象,揭示概念与概念之间以及概念所具有的属性之间的关系。截至2012年,知识库中包括100168个中文词语条目,96370个英文词语条目、114985个中文义项、121042个英文义项、29868个概念定义,总记录达191924条。

语言知识在计算机中的形式化是知识库构建的关键,特别是语义信息和语用信息的形式化到目前为止还没有找到十分有效的表示方法,发掘汉语知识规律的整体水平仍难以满足计算机的需求(詹卫东,2000)。

本体是实现知识共享的一种理念,本体描述了概念及概念之间关系的常识知识。本体理论对于语言知识库构建具有一定的借鉴意义,面向特定领域,通过领域本体知识构建,再结合上层本体知识,可以形成领域推理的知识资源。英文已有SUMO(Doerr et al,2003)、SUMO与WordNet映射扩展而形成的上层本体,中文的核心本体构建的工作还鲜有报告。

目前,汉语语言知识库建设的理论与方法涉及语法、语义、常识等不同层次的语言知识,同时不少知识库借鉴了认知语言学等相关领域的理论研究,已经取得一定成果。同时国家“973”、“863”、自然基金项目、社科基金项目等都对汉语的语义、语用知识资源的建设给予了支持,期望在多学科专家的精诚合作下,对有效知识的发现、形式化、规模化等方面能够有所突破,形成支持汉语信息处理的多层次知识库。

随着语言资源的发展,关于资源如何开发和使用等宏观问题也逐步显现出来,资源的建设与应用面临的挑战包括:(1)符合汉语规律的形式化语言理论。目前汉语语料库加工的语法语义等形式化理论多借鉴国外理论,汉语特有的语言理论研究成果还未善加研究、吸取并形式化。哪种理论更加接近自然语言的本原理性;哪种语言知识应该首先被形式化,都需要深入研究。(2)语料标注深度与规模。真实文本的标注是将静态的知识资源应用于实际的语言环境中的过程。知识的体现需要不同的层次。随着标注层次的不断深入,标注所提供的语言知识越来越丰富,从语言信息处理的技术要求来看,这意味着需要更多的标注数据的支持才能将这些标注的知识显示出来。然而标注层次越深,标注的复杂程度就越高,对人工标注来说本身也成为一种挑战,可能产生的语料规模就越小。因此目前分词标注的语料库规模较大,可以适应统计学习的要求,而带有语义、事件、情境等标注信息的语料库规模还较小,如何在确保标注质量的前提下扩大规模,是语料库建设的一个挑战。(3)异构资源的融合。基于不同语义体系、句法体系标注的语料库中,哪些资源能够融合?以哪种体系为主来融合资源?采用什么技术融合?术语体系和标注符号体系是否相互兼容,是否利于资源共享?这些都需要这一领域的学者来共同研究探讨。(4)关于语言资源的利用。知识资源的开发是费时费力的,就目前开发的资源来看,对语言信息处理技术而言,其利用率相对较低,一方面,使用者对资源的认识程度不同,另一方面,一些资源建设单位未能及时开发相应的资源工具包。这就造成使用者在应用资源的过程中,对知识的挖掘和解析与资源实际蕴含的知识还有一定距离,资源还未得到充分的利用。

此外,就语料库的使用而言,汉语语料库检索系统目前主要还是提供以字为索引的检索,检索内容的丰富性及相应的统计数据的获得还不能与英语语料库的检索系统相比,根本的原因还在于汉语大规模语料分词的精度问题,以及汉语标注体系的适合性与通用性问题,使语料库的开发人员将这些不确定的问题留给了语料库的使用人员,使用语料库的研究者根据需求再进一步处理。

评测资源的构建与资源建设有直接的关系,国内在几个领域开展了系列的评测,也在国际一些评测(如Senseval中词义排歧、语义依存等多项任务)中建议评测任务,提供评测数据资源。然而,目前仍然缺少具有明确问题驱动的、系统化的评测任务设计和评测资源开发。

(三)互联网大数据

互联网的飞速发展,在网络上集聚了大量的结构化(传统的关系型数据库中的数据,可用二维表来表示)、半结构化(部分内容有格式,如:电子邮件、电子表格、带有html格式标签的新闻等)和非结构化(各种文档、图片、视频、音频、文本、传感数据等)数据。大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现在的IT架构以及机器处理和计算能力带来了极大挑战。同时,也为人们深度挖掘和充分利用网络大数据的大价值带来了巨大机遇(王元卓等,2013)。

随着数据生成方式的多样化,非结构化数据成为大数据的主流形式。而在非结构化数据中,作为人类思维载体的语言文字蕴含了大量的信息。一方面这些海量、繁杂又包含大量噪声的数据,向汉语信息处理提出了更高的要求,但同时海量的数据又成为天然的语言资源,如互联网上广泛存在的弱标注数据资源为语言结构学习算法提供了丰富的语言资源(孙茂松等,2014),互联网上信息的高度冗余性使准确抽取知识更加可行,这些资源为解决汉语信息处理中的复杂数据创造了新的可能性。

大数据时代互联网和社会网络的快速发展催生了一种新型数据处理协作方式——“众包”,即将传统上交由特定人员所做的工作以网络工作平台的形式公开征集开放的、非特定的大众群体来完成。众包的思想就是发挥群体智慧。“大众点评网”和“豆瓣”就是两个最典型的例子,无数兴趣相同的人在上面向大家分享心得,同时又共享大家的集体智慧。这种方式为语言资源的采集和加工提供了新的思路。乡音苑[※注]便是利用“众包”的思想采集中国方言的。

大数据时代不仅产生了新型语言资源加工方式,大数据的呈现也亟须更加有效的方式。信息可视化技术的发展为中文信息处理领域带来了一个新的名词——“知识图谱”(Knowledge Graph)。中文知识图谱最早起源于Google Knowledge Graph,它本质上是一种语义网络,其结点代表实体(Entity)或者概念(Concept),边代表实体/概念之间的各种语义关系。知识图谱的直接推动力来自于一系列实际应用,包括语义搜索、自动问答、电子阅读等。实体/概念及其关系是利用网络数据自动获取的。目前中文知识图谱已有百度的知心、搜狗的知立方等。复旦大学的中文知识图谱包含2000万实体、5000万关系,他们将这些实体、关系及其挖掘技术用于研究深度阅读模型,在经典著作《红楼梦》上应用深度阅读模型,构建了包括红楼梦人物、服饰、饮食等重要实体属性信息的知识图谱。知识图谱相对于传统的本体和语义网络而言,实体覆盖率更高,语义关系也更复杂而全面,向基于知识的自然语言处理迈出了一步。

大数据时代使大规模语言数据的获得变得容易,但是,如何有效运用这些数据、如何从数据中获得切实可行的知识,是大数据带给语言信息处理的挑战。

第七节 语言监测

语言监测,指的是利用现代科技手段,实时地、不间断地对能够代表某一社团或某一领域语言使用状况的语料样本进行调查、统计、分析、描写,目的是及时反映语言生活状况,描述语言变化实态,向人们提供语言使用的实际情况,以便对语言资源进行更好的开发和利用,达到保护语言生态、创建和谐语言生活的目的,实现语言资源可持续发展的目标。语言监测是语言资源合理利用和良性发展的基础,也是政府制定宏观语言文化政策的依据。

国外的语言资源建设和语言生活监测工作是在20世纪末开始的,德国德语研究所和美国全球语言监测网的语言监测工作堪称经典。国内学术界在20世纪90年代初开始认识到语言的资源属性,并提出语言资源的观点,但到21世纪初,这一观点才受到关注。2004年,国家教育部语信司开始筹备与有关部委及相关高校共同建设“国家语言资源监测与研究中心”,拉开了中国语言生活监测的序幕。同年6月,“国家语言资源监测与研究中心平面媒体语言分中心”在北京语言大学成立,紧接着,语信司又分别与华中师范大学、厦门大学、暨南大学、中国传媒大学和中央民族大学先后共建成立了网络媒体语言分中心、教育教材语言分中心、海外华语研究中心、有声媒体语言分中心和少数民族语言分中心,形成了涵盖语言文字各个主要应用领域、门类齐全的国家语言资源建设和语言生活监测体系。语言资源建设覆盖了对社会影响力最大、影响面最宽的三个主流大众媒体报纸、广播电视、网络语言以及对民族语言起关键作用的基础教育教材语言,同时还包括少数民族语言和海外华语。

国家语言资源监测与研究中心的主要任务是,利用大规模动态流通语料库,对最能体现国家语言文字政策和反映人们语言文字使用实态的大众传媒和教育教材语言等进行调查研究。一方面,坚持每年通过10亿汉字次的海量语料,对报纸、广播电视、中文网站等大众传媒的语言文字使用实态开展实时监测研究;另一方面,通过总计约1500万汉字次的教育教材语料,每年分别对包括基础教育新课标各科教材、汉语作为第二语言教材等的语言文字使用实态进行考察研究。同时,也运用同样的方法,分语种、分步骤地开展了少数民族语言文字使用实态调查以及海外华语社区的用字用语情况调查。每年的监测研究成果,主要通过基于数据分析的调查报告和数据、图表,以“年度语言生活状况报告”的形式向社会发布,目的是引导社会关注语言生活,把握语言国情,珍爱中华语言资源,共建和谐语言生活。

从2006年开始,在教育部语信司指导下,国家语言资源监测与研究中心在商务印书馆连续出版了以国家语委名义发布的中国语言生活绿皮书《中国语言生活状况报告2005/2006/2007/2008/2009/2011/2012/2013/2014》[※注];出版了新词语编年本《2006/2007/2008/2009/2010/2011/2012/2013汉语新词语》;每年与北京语言大学、中国传媒大学、华中师范大学、中文信息学会、新闻工作者协会以及商务印书馆等单位联合发布年度中国媒体十大流行语、字词盘点——用一个字一个词描述中国与世界;2011年又增加了中国媒体十大新词语,2012年增加了十大网络流行语的发布。这些研究成果,在社会上产生了很大影响,用字词盘点一年的语言与社会生活,已悄然成为一种新的语言年俗。中国语言生活绿皮书《中国语言生活状况报告》系列本也被外国媒体看好,已翻译成英文由德国德古意特(DE GRUYTER)出版社出版。作为中国政府的皮书,成系列地翻译成外文,在国外出版社出版,似乎还不多见。它标志着中国的语言生活研究开始跨出国门,走向世界。

语言监测是一项语言工程,不仅需要大规模语言资源做基础,还需要能处理大规模数据的语言信息处理技术的支持。在研究过程中,国家语言资源监测与研究中心不仅提出了语言监测体系,形成了“资源建设—技术平台—监测数据—服务社会”的框架,定义了一系列语言监测需要的语料统计和计算方法(侯敏,2010;杨尔弘等,2010),还开发了适合语言监测需要的自动分词标注系统(侯敏等,2009),流行语、新词语、字母词自动提取系统,以及语言文字舆情自动监测系统(程南昌,2013)。技术的进步使语言监测的范围不断扩大,由最初的字、词等形式监测向语言舆情、媒体话题、新闻热点、文化传承等内容监测方面发展。

和国外语言监测工作相比,中国的语言监测有自己的特色。其中很重要的一点是,国外对语言生活的监测多由民间承担,力量分散。在中国,由于这项工作受到政府的重视,成为一种行政规划下政府与专家的共同行为,所以取得了较快的进展,并产生了较大的影响。作为多学科交叉领域,推动了应用语言学、社会语言学、中文信息处理等学科的发展。

可以不夸张地说,我国的国家语言资源建设与语言生活监测与研究,在起步、推进、理论、实践等方面都与世界先进国家基本同步或可比,有些方面还走在世界的前列。我国的语言监测已经取得一定的品牌效应。但总体上说,国家语言生活监测工作尚处于起步阶段,在法制、体制、机制诸方面需进一步完善;还必须对语言资源监测研究工作及其服务对象准确定位,同时始终不渝地加强语言监测研究的资源、理论、平台和体制机制建设。语言资源建设是开展语言监测研究的基础和前提,语言监测相关理论建设和现代信息技术平台建设是确保语言监测研究顺利进行不可或缺的两翼,而体制机制建设则是保证语言监测研究顺利、长远、滚动式向前发展的组织保障。处理好这四者之间的关系,切实做好资源、理论、技术平台建设和体制机制建设等基础性工作,才能有助于国家语言资源监测研究工作科学、平稳、健康、可持续地发展(王铁琨,2010)。

第八节 古汉语信息处理

古汉语的呈现方式是古代的典籍文献,要对古汉语进行信息处理,首先要把存在于甲骨、金石、简帛和纸张上的文字输入计算机,即传统典籍的数字化,在此基础上,才可能对典籍进行语言信息处理

传统典籍(古籍)的数字化,就是从保护和利用古籍的目的出发,采用计算机技术,将其中的语言文字和图形符号转化为能被计算机识别的数字符号,建立古籍数据库,实现古籍的电子阅读、检索、查询。

中国的古籍数字化研究始于20世纪70年代末期,至90年代中期得到迅速发展。其主要标志是一些基础性的古籍著作被开发成为真正意义上的数字化产品并走向市场。其中影响较大的是台湾“中央研究院”1984年开发的“汉籍文献电子数据库”、上海人民出版社和香港迪志文化有限公司于1998年共同合作开发《文渊阁〈四库全书〉》电子版。“汉籍文献电子数据库”包含整部二十五史、整部阮刻十三经、超过两千万字的台湾史料、一万字的《大正藏》及其他典籍。合计字数13400万字,且以每年至少1000字的速度持续增加。[※注]《文渊阁〈四库全书〉》电子版是“国家九五重点电子出版项目”。它利用网络、数据库和现代检索技术,将《四库全书》的丰富内容的再加工、重组呈现于电子平台上。它是中华文化与先进科技的结合,也是传统内容与现代工具的结合(张轴材,1999)。

此外,北京书同文数字化技术有限公司研发的《四部丛刊》全文检索版、中易中标电子信息技术有限公司研发的《康熙字典》全文检索版等一批古文献的全文数字化成果,都在古籍的研究和传播上发挥着巨大的影响力。

古籍数字化及30多年的工程实施积淀了一批古文献语料,为中文信息处理研究从现代汉语领域延伸到古代汉语领域创造了客观条件。古汉语的信息处理在许多方面借鉴了现代汉语信息处理的经验、方法乃至直接的技术。由于古今汉语存在着较大的系统差异,古汉语信息处理更加困难,缺乏基础的资源和实用技术。古汉语的分词标注研究,是现代汉语词法分析技术的延伸。陈小荷(2013)对《左传》全部文本做了分词以及词性、专名、词义等标注。对古汉语句子和篇章的处理,主要是进行信息抽取,如对《资治通鉴》领域本体的自动构建(彭炜明等,2010);“《左传》中的春秋社会网络分析”(陈小荷等,2013)。

在古籍数字化过程中,由于典籍本身在传抄、引用、印刻、校改过程中往往出现各种讹误或替代,从而造成一种文献的各版本之间或不同文献相关内容之间在字、词、句等方面存在差异,即所谓“异文”现象,陈小荷(2013)首先提出古籍版本“自动异文发现”任务,并以春秋三传(《左传》、《穀梁传》和《公羊传》)中的春秋经为例,研究并实现了相关的算法。

在古汉语语料资源建设方面,“中央研究院古汉语语料库”的建构始于1990年,最初只搜集上古汉语的生语料(先秦至西汉),其后扩充至中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)。后来,对上古汉语语料进行了分词标注,并在互联网上发布了在线检索系统[※注]。由南京师范大学牵头承担的国家社科基金重大项目“汉语史语料库建设研究”(2010年),对中古汉语语料库的深加工和语料库建设相关理论进行研究。北京师范大学语言与文字资源研究中心尝试进行了古汉语树库的建设,分别选择《论语》、《唐宋八大家文钞·45篇》和《汉语语法教材·例句》作为上古汉语、中古汉语和现代汉语的代表,采用图解析句形式(以黎锦熙图解法为原型改造的句子成分分析法),建立了一个11.4万字规模的古今汉语句法树库,并着重进行了文言句式的历时比较研究(彭炜明,2012)。

古文献信息处理还有很多任务需要探索,比如古籍的自动标点、句子分析、文献内容分析、古今汉语机器翻译,等等。

第九节 发展趋势和尚待解决的问题

中文信息处理已走过了近60年,应该引以为自豪的是我国的中文信息处理研究成果曾经被认定是与“两弹一星”并列的对国家发展具有深刻意义的成就。60年的历史,见证了汉字以其特有的编码进入计算机,还有王选的激光照排、汉王的系列汉字识别、中软公司的中国第一个商品化机器翻译系统“译星”、华建在“863”基础上发展起来的多语言翻译产品、哈工大的整句拼音输入技术、格微软件以知识管理为特色的人机交互协同翻译平台、TRS在全文检索研究基础上发展起来的信息处理系统、科大讯飞的语音合成与识别技术、董振东的汉英概念语义网络HowNet、北京大学计算语言学研究所的《综合型语言知识库》以及源于亚伟速记技术的现已成为产业的亚伟速录机的发明与应用,等等。计算机的智能化应用离不开语言信息处理的研究成果。同时,也应看到,随着计算机硬件水平的提高和互联网的飞速发展,语言信息处理领域还有广阔的天地等待我们去开发,面对大数据处理的挑战,面对国际上虚拟空间的激烈博弈,面对互联网安全与人们信息需求的矛盾,中文信息处理如何克服短板,走出自己的路,继续在国家发展中发挥应有的作用,下面一些问题值得思考。

第一,语言信息处理需要语言研究的支撑。

语言信息处理,处理的对象是语言,语言应是研究的核心。但由于种种原因,尤其是近些年来,信息处理界对语言的研究基本是缺失的,这种情况引起很多有识之士的焦虑。在2009年的《计算语言学》杂志第35卷第4期上,以色列海法大学计算机科学系高级讲师舒丽·维茵特讷(ShulyWintner)发表了一篇题为《什么是自然语言工程的科学支撑?》(What Science Underlies Natural Language Engineering?)的文章,强烈地呼吁“语言学重新返回到计算语言学中”。舒丽的结论是:没有明确的语言学知识作为基础的自然语言处理系统的应用领域是走不远的。针对语言学缺失的原因,舒丽分析说“语言学的理论变得如此晦涩难懂,如此华而不实,如此自以为是,以至于其他领域的研究者事实上无法跨学科参与进来”。此话虽然有些刻薄,但不无道理。要想让中国的语言信息处理有更好的发展,语言学的支撑必不可少。语言学界应该反思:我们究竟为语言信息处理贡献了什么?同时,语言信息处理学界也应把工作范围从技术和工程扩展到科学层面,主动投入面向信息处理的语言研究,与语言学界合作,把这一学科建筑在语言科学的基础之上。

第二,加强研究队伍建设,注重对复合型人才的培养。

一个学科是否有前途,能否快速发展,关键在于是否有一支充满朝气的后备队伍。计算语言学是一门交叉学科,需要文理工兼容的复合型人才,但目前我国高校的体制、学科设置以及人才评价体系都不利于这种文理工兼容的复合型人才的培养。应该打破这种局面,建立一种更加合理的培养和评价机制,使计算语言学不仅后继有人,而且后继有能人,有高人。

第三,在与国际接轨的同时,更要直面中国自己的问题。

几十年来,除了汉字输入、汉语分词等一些汉语特有的领域外,“在计算语言学的诸多领域,我们基本上采取‘跟’的办法”(董振东,2011)。基本路子是外国人研究什么,我们就跟着研究什么。聊以自慰的是,相比国内其他领域,语言信息处理在与国际接轨上做得是比较好的,与先进国家水平相比,落得不是太远,在有些领域甚至取得了一定的话语权。但中国不是外国,中国有自己的国情,汉语有自己的特点,语言信息处理要解决的问题和工作目标和外国是有所不同的。因此下一步,如何在与国际接轨、向国外先进理论和技术学习的同时,直面中国自己的国情,解决中国自己的问题,是信息处理界首先要思考的问题。在这方面,做好顶层设计,调动各路精英合力攻关,是必要的措施。

第四,加强方法研究,应对大数据处理的挑战。

在大数据时代,应进一步加强语言数据的采集、加工、统计和应用的研究。文本大数据是非结构化的,具有远距离相关性,而且词形集合不封闭,词形频率统计具有长尾效应,这些特点严重影响一般的数据统计方法的使用效果,因此需要面对这些特点研究适合文本大数据处理的数学方法和计算方法,研究统计和语言知识相结合的处理方法。

第五,搭建“中华信息技术平台”,各民族语言信息处理事业共同发展。

与少数民族语言信息处理相比,汉语的信息处理是走在前面的。虽然不同的语言有各自的特点,但也有相通之处,尤其在信息处理的技术和工具方面。比如2005年发布的《信息技术中文编码字符集》就兼容了汉字和多种我国少数民族文字的编码。为此,我们建议,尽早搭建“中华信息技术平台”,让少数民族兄弟在语言信息处理上少走弯路,使中国各民族语言信息处理事业能相互借力,均衡发展,共同腾飞!

我们已经生活在一个信息社会中,语言信息处理必然在国家建设和发展中继续承担着重要角色,展望未来,任重道远,我辈须奋力前行。

主要参考文献

陈小荷、冯敏萱、徐润华:《先秦文献信息处理》,世界图书出版公司2013年版。

陈章太:《论语言资源》,《语言文字应用》2008年第1期。

程南昌:《语言文字舆情自动监测方法研究与系统实现》,博士学位论文,中国传媒大学,2013年。

丁晓青:《汉字识别研究的回顾》,《电子学报》2002年第9期。

董晶晶:《文本倾向性分析技术的相关研究》,博士学位论文,安徽大学,2012年。

董振东、董强、郝长玲:《下一站在哪里?》,《中文信息学报》2011年第6期。

冯志伟:《中文信息处理与汉语研究》,商务出版社1992年版。

冯志伟:《论歧义结构的潜在性》,《中文信息学报》1995年第4期。

冯志伟:《机器翻译发展的曲折道路(2)》,《术语标准化与信息技术》1996年第4期。

冯志伟:《自然语言的计算机处理》,上海外语教育出版社1996年版。

侯敏、胡凤国、滕永林等:《语言监测需要多功能、易维护的自动分词标注系统》,《中国语言资源论丛(一)》,商务印书馆2009年版。

侯敏:《语言资源建设与语言生活监测相关术语简介》,《术语标准化与信息技术》2010年第2期。

黄昌宁、赵海:《中文分词十年回顾》,《中文信息学报》2007年第3期。

黄昌宁、童翔:《汉语真实文本的语义自动标注》,《语言文字应用》1993年第4期。

黄居仁、陈克健、陈凤仪等:《〈资讯处理用中文分词规范〉设计理念及规范内容》,《语言文字应用》1997年第1期。

教育部语言文字信息管理司组编:《中国语言生活状况报告(2005—2014)》,商务印书馆2006—2014年版。

揭春雨、刘源、梁南元:《论汉语自动分词方法》,《中文信息学报》1989年第1期。

李涓子:《汉语词义消歧方法研究》,博士学位论文,清华大学,1999年。

李文玲:《中国速记的发展现状及问题》,《河北科技师范学院学报》2008年第3期。

李宇明:《搭建中华字符集大平台》,《中文信息学报》2003年第2期。

李宇明:《语料库中语言知识的标记问题》,苗传江、杜燕玲主编《第二届HNC与语言学研讨会论文集》,海洋出版社2004年版。

厉小军:《文本倾向性分析综述》,《浙江大学学报》2011年第7期。

林杏光:《现代汉语的格关系》,《汉语学习》1989年第5期。

刘开瑛:《中文文本自动分词和标注》,商务印书馆2000年版。

刘开瑛、由丽萍:《汉语框架语义知识库构建工程》,《中文信息处理前沿进展——中国中文信息学会二十五周年学术会议》,2006年。

刘鹏远:《基于知识自动获取的无指导译文消歧方法研究》,博士学位论文,哈尔滨工业大学,2008年。

刘群:《机器翻译研究新进展》,《当代语言学》2009年第2期。

刘源、梁南元:《汉语处理的基础工程——现代汉语词频统计》,《中文信息学报》1986年第1期。

刘源、谭强等:《信息处理用现代汉语分词规范及自动分词方法》,清华大学出版社1994年版。

梁南元:《书面汉语自动分词系统—CDWS》,《中文信息学报》1987年第2期。

刘倬:《我国机器翻译研究的历史和现状》,《中国翻译》1983年第11期。

鲁川:《现代汉语的语义网络》,电子工业出版社1995年版。

鲁松、白硕、黄雄等:《基于向量空间模型的有导词义消歧》,《计算机研究与发展》2001年第6期。

彭炜明、宋继华:《〈资治通鉴〉历史领域本体构建及其应用研究》,《中文信息学报》2010年第2期。

彭炜明、宋继华、王宁:《基于句式结构的汉语图解析句法设计》,《计算机工程与应用》2014年第6期。

尚英:《汉语篇章广义话题结构理论的实证性研究》,博士学位论文,北京语言大学2014年版。

宋继华、杨尔弘、王强军:《中文信息处理教程》,高等教育出版社2011年版。

宋彦、黄昌宁、揭春雨:《中文CCG树库的构建》,《中国计算语言学研究前沿进展(2009—2011)》,2011年。

孙茂松、王洪君、李行健等:《〈信息处理用词汇研究〉九五项目结题汇报——信息处理用现代汉语分词词表》,《语言文字应用》2001年第4期。

孙茂松、邹嘉彦:《汉语自动分词研究评述》,《当代语言学》2001年第1期。

孙茂松、刘挺等:《语言计算的重要国际前沿》,《中文信息学报》2014年第1期。

王宁:《汉字研究与信息科学技术的结合》,《励耘学刊(语言卷)》2005年第一辑。

王铁琨:《献给语言监测研究五周年的一份厚礼》,《北华大学学报》2010年第1期。

王晓龙:《拼音语句汉字输入系统InSun》,《中文信息学报》1993年第2期。

王元卓、靳小龙、程学旗:《网络大数据:现状与展望》,《计算机学报》2013年第6期。

吴云芳、王淼、金澎等:《多分类器集成的汉语词义消歧研究》,《计算机研究与发展》2008年第8期。

邢富坤:《现代汉语词类体系与词性标注研究》,博士学位论文,北京语言大学,2010年。

杨尔弘、方莹、刘冬明:《汉语自动分词和分词标注评测》,《中文信息学报》2006年第1期。

杨尔弘:《支持语言监测的海量数据处理技术》,《术语标准化与信息技术》2010年第2期。

姚天昉、聂青阳、李建超等:《一个用于汉语汽车评论的意见挖掘系统》,《中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集》,2006年。

俞士汶:《综合型语言知识库的建设与利用》,《中文信息学报》2004年第5期。

俞士汶、柏晓静:《计算语言学与外语教学》,《外语电化教学》2006年第5期。

袁毓林:《基于认知的汉语计算语言学研究》,北京大学出版社2008年版。

袁毓林、马辉、周韧等:《汉语词类分析手册》,北京语言大学出版社2009年版。

苑春法、黄锦辉、李文捷:《基于语义知识的汉语句法结构排歧》,《中文信息学报》1999年第1期。

詹卫东:《面向中文信息处理的现代汉语短语结构规则研究》,博士学位论文,北京大学,1999年。

詹卫东:《80年代以来汉语信息处理研究述评——作为现代汉语语法研究的应用背景之一》,《当代语言学》2000年第2期。

詹卫东:《自然语言的自动分析与生成简介》,《术语标准化与信息技术》2010年第4期。

张桂平、蔡东风:《基于知识管理和智能控制的协同翻译平台——知识管理和机器翻译的融合》,《中文信息学报》2008年第5期。

张华平、刘群:《基于N-最短路径方法的中文词语粗分模型》,《中文信息学报》2002年第5期。

张普:《共和国的中文信息处理60年》,《语言文字应用》2009年第3期。

张仰森、郭江:《动态自适应加权的多分类器融合词义消歧模型》,《中文信息学报》2012年第1期。

张轴材:《〈四库全书〉电子版工程与中文信息技术》,《电子出版》1999年第5期。

赵铁军:《机器翻译原理》,哈尔滨工业大学出版社2000年版。

周强、张伟、俞士汶:《汉语树库的构建》,《中文信息学报》1997年第4期。

周强、黄昌宁:《汉语概率型上下文无关语法的自动推导》,《计算机学报》1998年第5期。

朱维彬、吕士楠:《基于语义的语音合成——语音合成技术的现状及展望》,《北京理工大学学报》2007年第5期。

宗成庆、曹右琦、俞士汶:《中文信息处理60年》,《语言文字应用》2009年第4期。

宗成庆:《统计自然语言处理》,清华大学出版社2013年版。

Black,E.,Abney,S.,Flickenger,D.,Gdaniec,C.,Grishman,R.,Harrison,P.,Hindle,D.,Ingria,R.,Jelinek,F.,Klavans,J.,Liberman,M.,Marcus,M.,Roukos,S.,Santorini,B.,and Strzalkowski,T.,A procedure for quantitatively comparing the syntactic coverage of english grammars.In Proceedings of the February 1991 DARPA Speech and Natural Language Workshop.Pacific Grove,CA.,1991.

Doerr,Martin,Hunter,Jane,and Lagoze,Carl,Towards a Core Ontology for Information Integration.Journal of Digital Information,4(1)2003.

Hays,David G.,Dependency theory:A formalism and some observations”.Language,40(4),1964.

Dong Qiang and Dong,Zhendong,Hownet and Computation of Meaning.Beijing:World Scientific Publishing Company,2006.

Sproat,Richard,Shih,Chilin,Gale,Willian,& Chang,Nancy,A stochastic finite state word segmentation algorithm for Chinese.Computational Linguistics,22 (3),1996.

Xue,N.,Palmer,M.,Annotating the Propositions in the Penn Chinese Treebank.In Q.Ma,and F.Xia (eds.),Proceedings of the Second SIGHAN Workshop on Chinese Language Processing,2003.

Zhao,Hai,Chen,Wenliang,Kit,Chunyu,Zhou,Guodong,Multilingual Dependency Learning:A Huge Feature Engineering Method to Semantic Dependency Parsing.CoNLL09 Proceedings of the Thirteenth Conference on Computational Natural Language Learning:Shared Task ,2009.

显示更多

相似文献

引用

引用格式:

版权所有:中国社会科学出版社

备案号:京ICP备05032912号-3

京公网安备:11010202010108号

地址:北京西城区鼓楼西大街甲158号

售前咨询:010-84050797

售后服务:010-84050797

  • 请关注“中国社会科学年鉴”微信公众号

    关闭