三 语义角色标注
来 源
:
|
当代中国语言学研究2015 \ - |
作 者
:
|
- |
浏览次数
:
|
3 | ||
摘 要
:
|
句法分析是语言信息处理过程的一个中间环节,是实现机器翻译、自动文摘、信息抽取等应用任务的重要步骤。句法分析就是根据一定的语法体系确定句子的句法结构或词语之间的依存关系,分析结果一般以树状图形式呈现,故称为句法分析树。基于概率的上下文无关文法是目前最成功的语法驱动的统计句法分析方法,以该方法为基础,若干个面向多种语言的开源短语结构分析器在国际范围具有较大影响,如Stanford、Berkeley、Bike1等句法分析器(宗成庆, 。汉语句法分析的代表性工作有北京大学和清华大学所做的基于短语结构语法理论的句法分析研究,形成了大规模的短语结构句法树库(周强等, . | ||||||
关键词
:
|
句法 词义 语义 语法 语料 分析器 词语 歧义 短语结构 角色 倾向性 |
在线阅读
三 语义角色标注
字体:大中小
语义角色标注(Semantic Role Labeling,SRL)是以句子为单位,识别出所有与谓词相关的名词性成分,即论元,并且给这些论元赋予一定的角色类型,如施事、受事、工具、地点等。
语义角色标注涉及对汉语语义关系的定义,不同的语言学家给出了不同的划分,如董振东在《知网》中提出事件内部语义关系总计83类,分为主语义角色和辅语义角色两大类;冯志伟(1992)对汉语动词、形容词和部分名词的论元结构进行了研究,提出了30种论元关系;袁毓林(2008)提出语义关系标注体系包括论旨角色标记集、逻辑关系标记集和语篇关系标记集,总共有40种关系标记;鲁川(1995)提出的“意合网络”中归纳出了6大类,共计26种关系;林杏光(1989)提取了汉语的22个基本格等。然而,已经建设的具有一定规模的语义角色标注语料库,并没有完全按照上述的任一体系,如中文命题库(CPB)[※注]是在宾州中文树库的对应句法成分中加入了语义信息;汉语框架库以框架语义学为理论基础,标注了8200个句子(刘开瑛,2006);而汉语名词论元库(Chinese Nombank,Xue NW et al,2006)的标注则是由英语库[※注]的标注框架扩展得到。
语义角色标注包括论元识别和角色确定,通常是在句法分析的结果上进行。标注方法以统计方法为主,标注结果主要应用于信息抽取、商品评论分析、问答系统等多项任务中。
语义角色标注的国际评测从2004年开始,主要以Senseval和CoNLL为代表,每年举办一次,CoNLL从2009年开始,将所处理的语言从英文扩展为包括中文、日文、西班牙文等7门语言。来自香港城市大学的赵海等人设计的基于L-BFGS算法的高斯优化最大熵模型在2009年取得了最好成绩(Hai Zhao et al,2009)。
语义角色标注目前面临挑战包括:(1)鲁棒性差,指对于句法分析的严重依赖和领域适应性差两个方面;(2)数据资源匮乏。中文语义角色标注的语料库规模还很小,CPB只是对宾州中文树库中的760多个文档进行了语义角色标注;汉语名词论元库也只是对宾州中文树库中的名词性谓语动词进行语义角色标注,规模更小。另外,不同的语义资源,其规模、基础理论、应用目的各不相同,描述规范也都不同,对语义的解释往往也是采用较为随意的自然语言,这给计算工程的研究者带来很多不便。
显示更多