您的IP是216.73.216.15,欢迎访问中国社会科学年鉴数据库 !

当前位置: 首页 > 当代中国语言学研究2019 > 文献详情

当代中国语言学研究

第四节 句法语义分析

来 源
当代中国语言学研究2019 \ -
作 者
-
浏览次数
5
摘 要
一句法分析句法分析是语言信息处理过程的一个中间环节,是实现机器翻译、自动文摘、信息抽取等应用任务的重要步骤。词义标注语料资源是研究词义消歧方法的重要组成部分,已经公开的中文词义标注语料库资源不多,标注语料基本为新闻语料。从资源建设上看,已经公开的中文词义标注语料库较之英语类似资源,规模偏小,中文词义消歧尚缺乏一个大规模中文全词词义标注语料资源。文本倾向性分析涉及多个研究领域的研究内容,包括机器学习、人工智能、数据挖掘、自然语言处理等,而研究结果也将对多个领域产生影响。
关键词

词义

语义

句法

语法

语料

角色

分析器

倾向性

情感

词语

歧义

注释
收藏

在线阅读

第四节 句法语义分析

字体:

一 句法分析

句法分析是语言信息处理过程的一个中间环节,是实现机器翻译、自动文摘、信息抽取等应用任务的重要步骤。句法分析就是根据一定的语法体系确定句子的句法结构或词语之间的依存关系,分析结果一般以树状图形式呈现,故称为句法分析树。获得整个句子的句法结构,称为完全句法分析;而以获得局部成分(如基本名词短语)为目的的句法分析,称为浅层句法分析;词语间的依存关系分析,称为依存句法分析。

句法分析研究主要包括两大部分:一是形式化的语法理论,二是设计分析算法。通常,形式化的语法理论以语法规则库的形式体现,再结合词条信息,形成支持分析算法的基础知识库。

广泛应用于自然语言处理的形式化语法包括基于短语结构的语法和基于词间关系的语法两种。基于短语结构的语法主要有转换生成语法(TG)/管辖约束理论(GB)、树邻接语法(TAG)和基于合一的语法。基于合一的语法又包括词汇功能语法(LFG)、广义短语结构语法(GPSG)、中心词驱动短语结构语法(HPSG)、功能合一语法(FUG)。基于词间关系的语法主要有依存语法(DG)、范畴语法(CG)、词语法(WG)、链语法(LG)(詹卫东,2010)。

在分析方法研究方面,可以归纳为基于规则的方法和基于统计的方法,前者的研究思路是:人工建立语法规则库,分析器通过条件约束来应用规则消除句法结构的歧义。基于规则方法的优点是可以针对特定的领域或目的,编写适于问题的规则,从而高效处理歧义和一些超语法现象;其缺点是由于规则本身是一个开放集,在规则的编写、保证规则的覆盖率及对长句的处理方面都存在较大困难。基于统计的句法分析方法通过对标注树库中蕴藏的知识进行统计分析,获取树库所遵循理论模型中的相关参数,从而赋予语法规则一定的统计概率。基于统计的方法通常是语法驱动的,其研究思路是由生成语法定义被分析的语言及分析出的类别,在训练数据中观察并获得各种语言现象分布的统计数据,并与语法规则一起编码,分析器相当于一个解码过程,并利用统计数据消除句法结构歧义。

根据句法树形成方向的区别,可以将分析算法分成自顶向下、自底向上和两者结合的分析方法。自顶向下的方法是规则推导的过程,根节点是句子,中间节点是短语结构,叶节点是词语。自底向上的过程是利用规则不断将节点归约的过程。

句法分析算法研究始于20世纪60年代,到目前产生了许多具有影响力的分析算法,如基于规则的CYK、欧雷、移进归约、线图、GLR等,冯志伟(1996b)、赵铁军(2000)等对这些算法都做了详尽的介绍。基于概率的上下文无关文法是目前最成功的语法驱动的统计句法分析方法,以该方法为基础,若干个面向多种语言的开源短语结构分析器在国际范围具有较大影响,如 Stanford、Berkeley、Bike1 等句法分析器(宗成庆,2013)。这些方法都是以英语为分析对象形成的,而语法理论的共性,使这些分析方法能够移植、改进应用到不同的语言。以短语结构语法为基础,针对汉语特点,冯志伟(1995)提出了潜在歧义论,通过几类典型的汉语短语结构歧义分析了如何归纳有效的歧义消解条件;詹卫东(1999)从句法和语义两个层次上研究了短语结构规则在歧义消解中需要用到的范畴知识。苑春法等(1999)通过建立语义类之间的组合关系进行句法结构排歧。周强等(1998)实现了汉语概率型上下文无关语法的自动推导。

使用依存形式进行句法分析源自Hays(1964)和Gaifman(1965),国内周明(2000)最早从事汉语依存句法分析。

汉语句法分析的代表性工作有北京大学和清华大学所做的基于短语结构语法理论的句法分析研究,形成了大规模的短语结构句法树库(周强等,1997);哈尔滨工业大学根据依存句法理论建立了依存句法分析平台,建设了依存句法树库资源,该平台已经向学术界开放协议共享[※注]

使用比较广泛的短语结构句法分析器的性能评价方法是 PARSEVAL(Black et al.,1991),其评价指标包括标记正确率、标记召回率(这两项综合形成F1值)及交叉括号数,评价多在宾州树库上进行,最好的英语、汉语句法分析器F1值分别达到92.1%和85.45%(宗成庆,2013)。

依存分析器的性能评价,通常使用无标记依存正确率、带标记依存正确率、依存正确率、根正确率、完全匹配率等指标。英语的依存分析研究语料划分比较一致,评测多采用由宾州树库转化而来的依存树结构。在上述5个指标中,性能最好的分析器,依存正确率可以达到95.2%,而完全匹配率只达到45.2%。汉语的依存分析所使用的语料及语料划分没有统一的标准,主要用到的语料包括宾州汉语树库、台湾Sinica树库及哈尔滨工业大学的汉语依存树库,性能最好分析器的无标记依存正确率指标为90.13%(宗成庆,2013)。

汉语的句法分析离实用还有相当大的距离,一些研究者开始回过头来审视句法分析的理论:形式化体系是否与汉语实际语法系统一致?于是,有些学者开始探求新的适合汉语信息处理的形式化体系,如北京师范大学语言与文字资源研究中心以黎锦熙语法图解法为原型改造设计出一种基于句式结构的汉语图解析句法(彭炜明等,2014);有些学者则将国外新的语言学成果借鉴过来,如北京大学詹卫东从认知语言学中借鉴构式语法理论来作为短语结构语法的补充,用来描述非常规组合形式。有学者将国外的组合范畴语法理论(CCG)引入汉语句法分析,研究了在清华中文树库的基础上自动生成CCG树库的方法(宋彦等,2011)。这些研究目前仍然没有从本质上改善汉语的句法分析结果。这也从另一角度说明我们对语言的认识和描述还很不充分(俞士汶等,2006),还需要对汉语语言事实进行周密的调查、总结,无论在语言句法理论方面,还是分析算法方面,都要结合汉语的特性进行更深入的研究。

二 词义消歧

词义消歧,就是根据上下文语境确定一个多义词在文中的确切含义。词义消歧是词汇级别的语义问题,是众多相关自然语言处理任务的中间任务或环节。词义消歧这个概念在提出机器翻译任务(Weaver et al.,1949)的同时就提出了。60多年来众多学者对此进行了坚持不懈的研究,但囿于现有资源与方法,该问题迄今还没有得到较好的解决。

汉语词义消歧作为专项研究是从20世纪90年代初开始的(黄昌宁,1993)。按照国际词义消歧评测任务,词义消歧分为词汇样本任务与全词任务。前者是预先给定若干个多义词,给定包含这些多义词的例句,针这些多义词,进行词义消歧。后者不指定多义词,是对给定全文内的所有词汇进行词义标注,也就是对其中所有多义词进行词义消歧。

词义消歧中对词义的定义及分类一般来源于语义词典。同时,词典中的搭配、例句及解释等信息,为词义消歧提供了资源。汉语词义消歧研究可利用的最主要的词典资源是《知网》(Hownet)与《同义词词林》,也有部分研究利用了《现代汉语语义词典》(CSD)、《现代汉语词典》、《现代汉语辞海》及《中文词汇网络》(Chinese Wordnet)。词义标注语料资源是研究词义消歧方法的重要组成部分,已经公开的中文词义标注语料库资源不多,标注语料基本为新闻语料。主要有国际语义评测系列(Senseval及Semeval)标注语料及北京大学现代汉语词义标注语料库(STC)。

词义消歧目前主流方法为基于统计的方法。从这个角度来看,词义消歧是一个典型的分类问题。词义消歧方法可分为有指导的、无指导的和半有指导的。有指导的方法指主要利用人工标注语料资源进行分类的方法;半有指导的方法指利用几个或很少人工标注语料或知识资源作为初始种子的分类方法;无指导的方法无须人工标注语料资源,可利用其他知识源。

李涓子(1999)、鲁松(2001)、刘鹏远(2008)、吴云芳(2008)、张仰森(2012)等根据已有的资源,分别在词汇样本任务上面对上述方法进行了深入研究,相关研究论文从一定程度上代表了当前汉语词义消歧的状况,所采用的方法都还不能面向全词任务,消歧结果在较大的程度上依赖于对应词义资源的数量与质量。

从1998年起,国际上已经开始组织与词义消歧相关的语义评测(Senseval,后改为Semeval)。其中简体中文词义消歧任务的评测迄今为止已有四届,但是直接参与评测的研究队伍与英文相比少得可怜。国内目前仍有一部分词义消歧的研究者没有利用上述评测数据集,这样也就难以进行较为公平的能够说明问题的横向比较。

从研究方法上看,国内研究水平相对滞后。因对汉语词义消歧的研究起步较晚,很多研究方法是受英语相关研究的启发拓展而得,真正从汉语本身特点出发、开拓性的研究方法不多。如早在2002年,Mihalcea(2002)的研究已经针对词汇各自特点,为每个词汇进行独立的特征选择以及消歧,而我国在2010年才有类似的研究。Mihalcea(2007)又于2007年利用维基百科知识源进行了词义消歧的研究,而国内利用在线百科对汉语词义消歧的研究至今鲜见。早在2001年,国际上就已经建立了4种语言的全词消歧任务国际标准测试集,而中文全词任务国际标准测试集于2013年才建立,且并无队伍参与该项任务。

从资源建设上看,已经公开的中文词义标注语料库较之英语类似资源,规模偏小,中文词义消歧尚缺乏一个大规模中文全词词义标注语料资源。词典资源方面,《知网》在中文词义消歧领域是当前应用最多的资源,该资源也是最体现汉语特点的词典类资源之一。但与英文的WordNet相比,其平台性与开放性还有待提高。基于WordNet开展的百余个项目如WordNet Domains等资源也在词义消歧及其他自然语言处理各项任务中起到极大的作用。

目前中文词义消歧面临的主要挑战包括:(1)数据稀疏。这个问题在词义消歧中显得尤为突出。主要原因在于:含有多义词的句子长度有限,而如果句子中仅有少数词汇在训练语料中出现,则很难对词义做出正确区分。(2)词义的粒度。词义究竟应该细分到何种程度才能够满足自然语言各种处理任务的需要?词义粒度的不同,很大程度上决定了词义消歧的难度和深度。(3)资源建设。一类是词典类语义资源。不但要继续丰富现有内容,同时需要研究者进一步考虑,词义消歧究竟需要何种语义知识。另一类是大规模词义标注语料资源。建设过程的难点在于满足汉语词义消歧应用需求的资源规模难以确定,同时建设者还要考虑语义词典的选取及其是否可公开(付费或免费)使用。

三 语义角色标注

语义角色标注(Semantic Role Labeling,SRL)是以句子为单位,识别出所有与谓词相关的名词性成分,即论元,并且给这些论元赋予一定的角色类型,如施事、受事、工具、地点等。

语义角色标注涉及对汉语语义关系的定义,不同的语言学家给出了不同的划分,如董振东在《知网》中提出事件内部语义关系总计83类,分为主语义角色和辅语义角色两大类;冯志伟(1992)对汉语动词、形容词和部分名词的论元结构进行了研究,提出了30种论元关系;袁毓林(2008)提出语义关系标注体系包括论旨角色标记集、逻辑关系标记集和语篇关系标记集,总共有40种关系标记;鲁川(1995)提出的“意合网络”中归纳出了6大类,共计26种关系;林杏光(1989)提取了汉语的22个基本格等。然而,已经建设的具有一定规模的语义角色标注语料库,并没有完全按照上述的任一体系,如中文命题库(CPB)[※注] 是在宾州中文树库的对应句法成分中加入了语义信息;汉语框架库以框架语义学为理论基础,标注了8200个句子(刘开瑛,2006);而汉语名词论元库(Chinese Nombank,Xue NW et al.,2006)的标注则是由英语库[※注]的标注框架扩展得到。

语义角色标注包括论元识别和角色确定,通常是在句法分析的结果上进行。标注方法以统计方法为主,标注结果主要应用于信息抽取、商品评论分析、问答系统等多项任务中。

语义角色标注的国际评测从2004年开始,主要以Senseval和CoNLL为代表,每年举办一次,CoNLL从2009年开始,将所处理的语言从英文扩展为包括中文、日文、西班牙文等7门语言。来自香港城市大学的赵海等人设计的基于L-BFGS算法的高斯优化最大熵模型在2009年取得了最好成绩(Hai Zhao et al.,2009)。

语义角色标注目前面临挑战包括:(1)鲁棒性差,指对于句法分析的严重依赖和领域适应性差两个方面;(2)数据资源匮乏。中文语义角色标注的语料库规模还很小,CPB只是对宾州中文树库中的760多个文档进行了语义角色标注;汉语名词论元库也只是对宾州中文树库中的名词性谓语动词进行语义角色标注,规模更小。另外,不同的语义资源,其规模、基础理论、应用目的各不相同,描述规范也都不同,对语义的解释往往也是采用较为随意的自然语言,这给计算工程的研究者带来很多不便。

四 倾向性分析

倾向性分析是指根据文本所表达的含义,对作者的观点、态度、倾向性等情感信息进行识别。通常将情感信息分为褒扬、贬抑,或积极、消极两类极性,因此从技术的角度来看,文节的倾向性分析也是一个文本分类问题。

文本倾向性分析研究兴起于20世纪90年代,随着电商、网购、自媒体等网络技术的发展,网民、商界、政界等都对倾向性分析提出了需求,使之成为国内外近年的热点研究内容之一。汉语倾向性分析最先是关于汽车评论的意见挖掘(姚天昉,2006)。2008年,中国中文信息学会信息检索专业委员会为推动国内关于倾向性分析研究的发展,推出了中文倾向性分析评测(Chinese Opinion Analysis Evaluation,COAE),随后每年举办一次。每一年的评测任务体现了该研究领域的发展情况:第一届评测主要内容包括:中文情感词的识别和褒贬分析;中文文本倾向性相关要素的抽取;中文文本的主客观分析、褒贬分析和面向对象的观点检索[※注]。第二届评测主要关注文本情感分析领域和文本观点分析领域,主要内容包括:中文情感词和情感句的识别和分类,中文观点句子的抽取,观点相关要素(即观点句中的评价对象)的抽取,面向给定对象的中文文本观点倾向性检索。第三届评测在前两届的基础上,在任务中融入了领域知识和上下文语境对倾向性的影响,从多领域数据集中抽取观点词和观点句并判断极性,从得到的观点句中抽取评价搭配,结合领域知识和上下文语境对给定的查询对象进行观点检索。第四届评测重点对两种特殊的句子现象进行评测:基于否定句的句子级观点倾向性分析和比较句的识别与要素抽取。此外,还需要对篇章的观点倾向性进行打分。第五届评测重点对于否定句、比较句以及微博观点句进行评测,主要内容包括基于否定句的句子级观点倾向性分析、比较句的识别与要素抽取、微博观点句和评价对象识别。第六届评测的主要内容包括:面向新闻的情感关键句的抽取与判定、跨语言情感分析、微博情感新词的发现与判定、微博观点句和观点要素的识别。

从以上研究内容中可以看出,倾向性分析研究,在语言层面,集中在情感词语表的构建、情感词语表与评价对象搭配及其表达的极性判断,这是倾向性分析中基础的知识,是建立在词语层面的细粒度的知识描述与表达研究。目前,大连理工大学共享了情感词汇本体[※注],是第一个在线的汉语情感词汇知识库,其中包括27466条情感词语知识。

在技术层面,倾向性分析主要是文本分类的方法,主要包括基于简单情感词语统计、机器学习,以及基于语义分析等方法。

在应用层面,已经有一些成型的系统,如:姚天昉等开发的用于汉语汽车论坛的意见挖掘系统,可以通过挖掘电子公告板或门户网站上的意见,将褒贬信息进行综合统计(姚天昉等,2006);产品信息反馈系统Opinion Observer,能够从顾客对产品特征的赞扬或批评的评价信息中统计得出产品特征综合质量(厉小军,2011);微软公司开发的商业智能系统Pluse,能够从海量的评论文本数据中分析出用户的喜好(董晶晶,2012)。

文本的倾向性分析面临的挑战包括:(1)情感表达的语言形式、表达机制及其可计算性。倾向性的表达与修辞有着密不可分的关系,面向计算的修辞理论研究还鲜见;(2)技术的开放性。文本倾向性分析涉及多个研究领域的研究内容,包括机器学习、人工智能、数据挖掘、自然语言处理等,而研究结果也将对多个领域产生影响。

显示更多

相似文献

引用

引用格式:

版权所有:中国社会科学出版社

备案号:京ICP备05032912号-3

京公网安备:11010202010108号

地址:北京西城区鼓楼西大街甲158号

售前咨询:010-84050797

售后服务:010-84050797

  • 请关注“中国社会科学年鉴”微信公众号

    关闭