您的IP是216.73.216.36,欢迎访问中国社会科学年鉴数据库 !

当前位置: 首页 > 当代中国语言学研究2019 > 文献详情

当代中国语言学研究

第三节 自动分词标注

来 源
当代中国语言学研究2019 \ -
作 者
-
浏览次数
6
摘 要
“分词规范+词典+分词语料库”(黄昌宁等,体现了基于统计分词的一种模式,即以分词规范为指导制定词典,并加工语料形成分词所需的统计训练语料库,使汉语词在真实的文本中得到可计算的定义。对文本中的每一个词语打上词性的标签,便是词性标注。汉语的词性标注基本是沿着英语词性标注的路线进行的,标注方法以有指导的统计学习方法为主,基本思想是利用一定规模的带有词性标注的语料,训练标注模型,以获得词与词性、词性与词性的概率分布参数。汉语词性标注的本质问题,在于汉语词性的描述体系及词性与句法功能的关系。建立一个适合于汉语的词类标注体系,仍需要语言学家和计算机专家从语言工程和计算体系的角度进行深入研究。
关键词

词性

词类

歧义

词语

语料库

语料

分词

分词规范

语义

语言

语言信息处理

注释
收藏

在线阅读

第三节 自动分词标注

字体:

词是最小的能够独立运用的语言单位。汉语自古以来就是汉字连书,词与词之间没有界定符号。汉语信息处理的一个基本任务是自动分词,即在计算的意义上清楚界定真实文本中每个词语的边界。在我国,自动分词任务是在20世纪80年代初提出的。彼时,英语的自动词性标注研究取得了突破性的进展,于是在分词研究的同时,开展了汉语的词性标注研究。

一 分词标注规范与分词词表

汉语的词在语言学界一直没有很明晰的界定。有关研究(R.Sproat R et al.,1996;刘开瑛,2000)表明,不同的人对于汉语词的概念是不一致的,在同一篇文本中,对词的认同率只有70%左右。

为了能让计算机的分词处理可操作化,首先要制定分词的原则。1992年,经中华人民共和国机械电子工业部提出,由北京航空航天大学、燕山公司系统部、北京师范大学、中国标准技术咨询服务中心、机电部计算机与微电子中心、北京语言学院、水电科学院计算所、中国软件技术公司、机电部第四研究所负责起草,并由国家标准管理部门颁布的《信息处理用现代汉语分词规范》[GB/T 13715—92](下文简称《分词规范》),以国家标准的形式对分词的操作规范予以界定。在《分词规范》中,还特别提出了“分词单位”的概念,从一定程度上避开了关于词的定义的争论。

《分词规范》发布以后,中国台湾计算语言学会于1995年提出了《资讯处理用中文分词规范》(黄居仁等,1997)。该规范在分词规范构架上有较大创新,规定了分词单位定义和基本原则作为规范的不变核心,以及辅助原则(合并原则、切分原则)作为规范的可变准则。对于《分词规范》的进一步完善和修订有较大的参考价值。随后北京大学、清华大学、山西大学等单位以《分词规范》为标准,在建设分词标注语料库的同时,也提出了针对语料加工的规范。

《分词规范》只是一个指导性的意见,其中对分词单位的划分准则——“结合紧密、使用稳定(频繁)”,在实际操作时灵活性很大,于是研制分词词表成为明确界定汉语词的重要途径。从20世纪90年代开始,分词词表的研制成为语言信息处理的重要基础性课题。具有代表性的成果是清华大学孙茂松以8亿字的生语料库RCorpus-TH为定量依据,研制成的《信息处理用现代汉语分词词表》(孙茂松等,2001a)。此外,北京大学俞士汶在以《综合型语言知识库》为代表性成果的研究中,产生了《北大语料库加工规范:切分·词性标注·注音》《现代汉语语法信息词典》《人民日报》基本标注语料库等一系列为分词词性标注奠定基础的高质量成果。在通用词表的基础上,构建领域适用的专业词表的工作也蓬勃展开,词表的规模从五六万条到几十万条不等。

二 自动分词与词性标注

汉语自动分词,就是由计算机在中文文本中词与词之间自动加上空格。进行分词的方法最容易想到的就是与词典进行匹配,统称为基于词典的分词方法。梁南元(1987)、刘源等(1994)、揭春雨(1989)等都介绍过基于词典的分词方法,包括“正向最大匹配法”“逆向最大匹配法”“双向扫描法”“逐词遍历法”等等。其中“正向最大匹配法”最早,是20世纪50年代苏联专家在研究汉俄机器翻译时提出的。其思路是:从左往右扫描句子,在词典中选择最长词匹配,匹配上的就切分为一个词,词典中没有的就切分成单个的字。国内首次将这个方法大规模应用到汉语自动分词系统的是刘源、梁南元(1986)。1989年,哈尔滨工业大学的王晓龙等又将其发展为“最少分词法”(也称“最短路径方法”),基本思想是利用词典匹配出所有可能的切分词语,每一种切分可以表示成从句子的开始到句子末尾的一条路径,在所有路径中选择一条切分词数最少的路径作为分词结果。

有时,句中的字串根据词表可以有不同的切分方法,例如句子“他说的确实在理”,正向最大匹配方法的结果是“他/说/的确/实在/理”,逆向最大匹配的结果是“他/说/的/确实/在理”。在具体的上下文中只可能有一种是正确的切分结果,仅通过词表匹配的方法无法做出正确的取舍。这叫作歧义切分。梁南元(1987)定义了交集型和组合型两种切分歧义,是最早对歧义字段进行系统考察的研究。

孙茂松(2001b)对组合型歧义进一步加上了上下文语境的限制。梁南元(1987)、刘挺(1998b)、刘开瑛(2000)等人均通过对大规模样本进行统计调查,得出了一些关于切分歧义的统计数据。消除切分歧义是自动分词研究中的一个重要内容。

自动分词的另一个难点是未登录词的识别。未登录词,是指未收录进词典的但必须切分出来的词,包括各类专有名词(人名、地名、组织机构名等)、缩写词、新词语等。由于自然语言实体词的开放特性,这类词语很难在实际的操作过程中被穷尽性地收入词典。黄昌宁等(2007)对国际中文分词评测活动Bakeoff的语料做分词精度的统计表明,未登录词造成的分词错误比歧义切分造成的错误多5倍以上。

歧义切分和未登录词识别是分词任务中的两个难点,也是分词方法研究中的核心问题,人在阅读的过程中对这两个问题的处理是综合运用各种语言和世界知识,因此目前来看,自动分词不可能彻底解决这两个问题,只能是通过知识的不断积累和策略的不断完善逐渐改进。

自20世纪90年代以来,随着大规模真实文本处理成为语言信息处理的战略任务,基于大规模语料库的统计自然语言处理一直占据主流地位,基于统计的语言模型和方法成为分词标注问题研究的主旋律。基于统计的分词方法的主要思想是从大规模正确的分词语料中学习相应的知识,这些知识是通过概率分布表现出来的,从而建立相应的语言统计模型。“分词规范+词典+分词语料库”(黄昌宁等,2007)体现了基于统计分词的一种模式,即以分词规范为指导制定词典,并加工语料形成分词所需的统计训练语料库,使汉语词在真实的文本中得到可计算的定义。中国科学院计算技术研究所张华平、刘群(2002)将自动分词过程分为两个阶段:(1)预处理过程中的词语粗切分;(2)切分排歧和未登录词识别,提出了“基于N最短路径方法的汉语词语粗分模型”,在此基础上推出的基于层叠隐马模型的汉语词法分析系统ICTCLAS在2003年汉语特别兴趣研究组(ACL Special Interest Group on Chinese Language Processing,SIGHAN)组织的第一届国际汉语分词评测中取得了多项第一的成绩。

上述的分词方法是以“分”为视角的,另一个视角就是从“合”的角度来看哪些连续汉字能够组成词。基本思路是:通过对大规模标注语料的统计分析,获取汉字构词能力,从汉字在文中组成词的概率角度计算出文本词语切分结果,这便是无词典的分词方法。这种方法主要的统计模型有最大熵模型和条件随机场模型。与基于词典的分词方法相比,无词典的分词方法对未登录词的处理占有优势,对人名、地名、机构名的识别率均有明显的提高,但也存在一定程度的过度识别现象。

显然词语的正确切分必须建立在对整体语义把握的基础上,因此自动分词仅仅依靠匹配、规则、统计信息,不可能达到完全正确。

对文本中的每一个词语打上词性的标签,便是词性标注。对于经过分词的文本来说,词性标注的过程与方法与英语完全是一样的。汉语的词性标注基本是沿着英语词性标注的路线进行的,标注方法以有指导的统计学习方法为主,基本思想是利用一定规模的带有词性标注的语料,训练标注模型,以获得词与词性、词性与词性的概率分布参数。词性标注过程,便是根据模型计算出具有最大概率值的词性序列作为标注结果。典型的词性标注模型和方法包括马尔科夫模型、隐马尔科夫模型、错误驱动方法等,这些方法已经使英语的词性标注达到了实用的性能。

汉语词性标注的本质问题,在于汉语词性的描述体系及词性与句法功能的关系。由于汉语的词类与句法结构并非一一对应,致使兼类词的确定以及兼类词在具体语境中词性的确定都存在较大的分歧(刘开瑛,2000;杨尔弘等,2006)。细致描述词语的功能,形成确定词类对应的知识库,是词性标注研究的一个方面(俞士汶,2004)。《汉语词类分析手册》(袁毓林,2009)利用词语的隶属度对汉语词类划分理论进行了研究,其方法和可操作性对面向计算的词类划分是值得借鉴的。邢富坤通过对《人民日报》标注语料深入的分析,从语言工程实践的角度对汉语的词类体系进行了探索性研究,认为汉语词类体系的本质是基于语义的,先验的语义标准与后验的形式标准之间的矛盾是造成汉语词类问题的根本原因(邢富坤,2010)。

经过近30年的发展,自动分词和词性标注经过算法研究、带标语料建设,已经形成一些成熟系统。如,目前在网络上可以免费下载使用的有中国科学院计算所的ICTCLAS系统[※注](以及后来张华平继续独立开发的分支版本 NLPIR/ICTCLAS 分词系统[※注])、哈工大的LTP 语言技术平台[※注]。ICTCLAS系统基于隐马尔科夫模型实现,主要功能包括中文分词、多级词性标注、命名实体识别、自定义用户词典的导入、关键词提取。哈工大的LTP语言技术平台集分词、词性标注、命名实体识别、句法分析、语义角色标注于一体,核心的分词方法采用的是条件随机场模型。目前自动分词标注已经应用于对分词精度要求不是特别严格的任务中,比如信息检索、情感分析等。

目前分词词性标注研究面临的挑战包括:(1)面向特定的领域和需求,如何快速、有效地移植性能较好的分词系统?如面向特定领域的分词性能提高不是仅依靠添加领域词典就可以实现;对微博、微信等语言的分词系统目前性能还非常低。(2)建立一个适合于汉语的词类标注体系,仍需要语言学家和计算机专家从语言工程和计算体系的角度进行深入研究。

显示更多

相似文献

引用

引用格式:

版权所有:中国社会科学出版社

备案号:京ICP备05032912号-3

京公网安备:11010202010108号

地址:北京西城区鼓楼西大街甲158号

售前咨询:010-84050797

售后服务:010-84050797

  • 请关注“中国社会科学年鉴”微信公众号

    关闭