您的IP是216.73.216.2,欢迎访问中国社会科学年鉴数据库 !

当前位置: 首页 > 当代中国语言学研究2019 > 文献详情

当代中国语言学研究

第六节 语言资源建设

来 源
当代中国语言学研究2019 \ -
作 者
-
浏览次数
8
摘 要
语言资源有广义和狭义之分,广义的“语言资源”是指语言本体及其社会、文化等价值。20世纪90年代,统计方法成为语言信息处理技术主流,大规模语料库的构建也蓬勃展开,十余个科研院所先后开展了汉语语料库的建设,包括分词标注、汉语树库、双语对齐、口语等一系列语料库,具有代表性的语料库包括:北京大学计算语言学研究所的《人民日报》标注语料库。截至2014年4月,中文语言资源联盟官方网站上已列出了95项语言资源,涉及分词和词性标注语料库、句法树库、语音识别语料库、语音合成语料库、自然口语语料库、方言语料库、情感语料库、评测语料库、多语对齐语料库、少数民族语料库和各类型知识库等。
关键词

语料库

语言资源

知识库

语料

语义

语言信息处理

语言知识库

语言

语言知识

图谱

句法

注释
收藏

在线阅读

第六节 语言资源建设

字体:

语言资源有广义和狭义之分,广义的“语言资源”是指语言本体及其社会、文化等价值;狭义的“语言资源”是指为语言信息处理或语言应用研究所用的各种语料库和语言知识库(陈章太,2008)。这里的“语言资源”为狭义概念。

面向语言信息处理,从语言事实中挖掘语言规律、显性化语言知识,统计语言特征是语言资源建设研究的基本内容。语料库加工标注的程度,体现了研究者对语言本身可计算内容的认识、处理程度,也决定了基于语料库的语言信息处理的层面,比如分词标注语料库可以支持分词标注方法的研究,树库可以支持句法分析等。

一 语料库和知识库

语言资源大体可以分为两类:语料库和语言知识库。二者经常是互为依托,相互支持的。一般来说,语料库的加工标注以语言知识库作为理论背景和设计规范参照,同时也为语言知识库提供例证支持和统计信息。语料库是在真实的语言材料上通过标注将其隐含的语言现象显性化,标注仅限于客观描写,在建立的过程中,真实性是第一位的;知识库则是对语言现象背后规律的归纳、泛化,在建立的过程中,理论的科学性是第一位的。

(一)语料库

我国机读语料库的建设始于1979年,最初建设的具有代表性的语料库包括:1979年武汉大学建立的527万字的“汉语现代文学作品语料库”;1983年北京航空航天大学建立的2000万字的“现代汉语语料库”;1983年北京语言大学建立的182万字的现代汉语词频统计语料库;1983年北京师范大学建立的106万字的“中学语文教材语料库”等。

20世纪90年代,统计方法成为语言信息处理技术主流,大规模语料库的构建也蓬勃展开,十余个科研院所先后开展了汉语语料库的建设,包括分词标注、汉语树库、双语对齐、口语等一系列语料库,具有代表性的语料库包括:北京大学计算语言学研究所的《人民日报》标注语料库;清华大学树库;哈尔滨工业大学汉语依存树库;美国宾夕法尼亚大学中文树库和命题库;中国台湾“中研院”现代汉语平衡语料库和中文句结构树资料库。同时蒙语、藏语、维吾尔语、朝鲜语等少数民族语言语料库建设也蓬勃展开。

语言资源有效管理与共享共建一直是各领域所关注的问题。2003年,为了促进语言资源的共享与共建,在国家“973”计划资助下成立了中文语言资源联盟(Chinese Linguistic Data Consortium,CLDC)[※注],该联盟的目标是建成具有国际水平的具有完整性、系统性、规范性和权威性的通用中文语言资源库以及中文信息处理的评测体制。截至2014年4月,中文语言资源联盟官方网站上已列出了95项语言资源,涉及分词和词性标注语料库、句法树库、语音识别语料库、语音合成语料库、自然口语语料库、方言语料库、情感语料库、评测语料库、多语对齐语料库、少数民族语料库和各类型知识库等。

随着语料库建设的推进,语料标注已经从对一般的词汇信息标注发展到了对句法结构、句法功能、句子意义、语义角色功能、复句关系、篇章结构、隐喻、事件、情感、意见、情境、推理等信息标注[※注]。语料库构建是一项系统工程,涉及语料采集、分词及标注、校验辅助工具开发等众多环节。带有标注的语料库的各类标记是隐性语言知识的显性标志,标注体系、标注内容、标注信息的深度等研究始终是语料库建设的核心,标注体系和标注深度决定了语言可以形式化的程度,从而也决定了计算机自动处理语言的程度。面向特定的目标,定义期望从语料中获取的知识体系,即语料标注体系研究。标注体系的制定既需要语言理论做指导,还需要标注实践的支持与反馈。因此标注体系构建和具体语料标注最初是螺旋式的交互过程,直到随着标注语料规模的增加,标注体系基本涵盖了与目标相符合的语言特征,标注体系才可完全确立。标注体系的研究需要语言理论、计算理论、认知科学等跨学科知识综合运用。

国际上关于词汇、句法、语义、文本内容等一系列的评测任务,其对评测任务设计、制定,本身是对语言的可计算对象进行研究的过程,评测对象通过语料标注体现,实际上定义了语料标注的内容,因此各种评测任务对语料库建设起到了导向性的作用。同时,对语言信息处理技术评价的过程也是对资源应用的评价过程。

此外,随着语言信息处理技术的发展,支持汉语研究的在线免费语料库及其检索系统相继推出,如北京大学中国语言学研究中心的CCL 语料库[※注]、国家语委语料库[※注]、中国传媒大学传媒语言语料库[※注]、北京语言大学动态流通语料库DCC[※注]及现代汉语语料库BCC[※注]等。面向语言调查的大规模动态流通语料库——国家语言资源监测语料库以每年10亿字次的规模逐年建设中。自2005年起,教育部语言文字信息管理司联合国内6所大学,以该语料库为语言调查的数据来源,进行语言生活的实态调查,对语料中的用字、用语、流行语、新词语、网络用语、字母词、术语等进行提取分析,反映媒体、教材的语言生活面貌,并以年度语言生活状况报告绿皮书的形式向社会发布。

除了上述面向语言信息处理或者面向语言研究、语言调查的语料库之外,还有一种研究型的语料库,这类语料库的建设是以发现语言的形式化规律为目标,以探索实际使用的语言中蕴含的理论为出发点,进行语料的标注,标注的过程是对理论探索、发现的过程,标注的结果可对理论进行归纳、验证。如宋柔建立的汉语广义话题语料库,通过对大规模包括小说、新闻、政论、百科等语料进行广义话题标注,提出了汉语篇章的广义话题结构理论(尚英,2014)。

作为一种语言资源,汉语语料库在语言信息处理相关技术研究、语言研究(如汉语单语研究和汉英/英汉双语研究)、语言教学(对外汉语教材编撰、教学实践、汉语非母语者的汉语二语习得)都产生了积极的作用和影响。

(二)知识库

语言知识库是从大量语言事实中提取、归纳总结产生的知识集合。构建语言知识库对研究者来说,既要求具备丰富的语言学理论背景,又要求能够依据语言事实设计出计算机可处理的知识体系。所以,语言知识库的构建比语料库更难。

在中文语言资源联盟[※注]和中国知网论文数据库[※注]中公布的已建或在建的知识库中,俞士汶主持研制的《北京大学综合型语言知识库》、董振东主持研制的《知网》是在汉语信息处理研究中影响力最大、用户最多的两个基础资源。

《北京大学综合型语言知识库》是北京大学计算语言学研究所积20余年的努力与锤炼建成的系列化知识库和语料库,涵盖词、词组、句子、篇章各单位以及词法、句法、语义各层面。主要包括:现代汉语语法信息词典(含8万词的360万项语法属性描述)、汉语短语结构规则库(含600多条语法规则)、现代汉语语义词典、多语言概念词典(含10万个以同义词集表示的概念)、多领域术语库(有35万中英对照术语)等。同时配套建设了现代汉语多级加工语料库,实现词语切分并标注词类的基本标注语料库1.5亿字(其中精加工的有5200万字,标注义项的有2800万字),平行语料库(含对译的英汉句对100万)。

《知网》则是董振东于1988年开始建立的一个常识知识库,其知识是以汉语和英语的词语所代表的概念为描述对象,揭示概念与概念之间以及概念所具有的属性之间的关系。截至2012年,知识库中包括100168个中文词语条目,96370个英文词语条目、114985个中文义项、121042个英文义项、29868个概念定义,总记录达191924条。

语言知识在计算机中的形式化是知识库构建的关键,特别是语义信息和语用信息的形式化到目前为止还没有找到十分有效的表示方法,发掘汉语知识规律的整体水平仍难以满足计算机的需求(詹卫东,2000)。

本体是实现知识共享的一种理念,本体描述了概念及概念之间关系的常识知识。本体理论对于语言知识库构建具有一定的借鉴意义,面向特定领域,通过领域本体知识构建,再结合上层本体知识,可以形成领域推理的知识资源。英文已有SUMO(Doerr et al,2003)、SUMO与WordNet映射扩展而形成的上层本体,中文的核心本体构建的工作还鲜有报告。

目前,汉语语言知识库建设的理论与方法涉及语法、语义、常识等不同层次的语言知识,同时不少知识库借鉴了认知语言学等相关领域的理论研究,已经取得一定成果。同时国家“973”、“863”、自然基金项目、社科基金项目等都对汉语的语义、语用知识资源的建设给予了支持,期望在多学科专家的精诚合作下,对有效知识的发现、形式化、规模化等方面能够有所突破,形成支持汉语信息处理的多层次知识库。

随着语言资源的发展,关于资源如何开发和使用等宏观问题也逐步显现出来,资源的建设与应用面临的挑战包括:(1)符合汉语规律的形式化语言理论。目前汉语语料库加工的语法语义等形式化理论多借鉴国外理论,汉语特有的语言理论研究成果还未善加研究、吸取并形式化。哪种理论更加接近自然语言的本原理性;哪种语言知识应该首先被形式化,都需要深入研究。(2)语料标注深度与规模。真实文本的标注是将静态的知识资源应用于实际的语言环境中的过程。知识的体现需要不同的层次。随着标注层次的不断深入,标注所提供的语言知识越来越丰富,从语言信息处理的技术要求来看,这意味着需要更多的标注数据的支持才能将这些标注的知识显示出来。然而标注层次越深,标注的复杂程度就越高,对人工标注来说本身也成为一种挑战,可能产生的语料规模就越小。因此目前分词标注的语料库规模较大,可以适应统计学习的要求,而带有语义、事件、情境等标注信息的语料库规模还较小,如何在确保标注质量的前提下扩大规模,是语料库建设的一个挑战。(3)异构资源的融合。基于不同语义体系、句法体系标注的语料库中,哪些资源能够融合?以哪种体系为主来融合资源?采用什么技术融合?术语体系和标注符号体系是否相互兼容,是否利于资源共享?这些都需要这一领域的学者来共同研究探讨。(4)关于语言资源的利用。知识资源的开发是费时费力的,就目前开发的资源来看,对语言信息处理技术而言,其利用率相对较低,一方面,使用者对资源的认识程度不同;另一方面,一些资源建设单位未能及时开发相应的资源工具包。这就造成使用者在应用资源的过程中,对知识的挖掘和解析与资源实际蕴含的知识还有一定距离,资源还未得到充分的利用。

此外,就语料库的使用而言,汉语语料库检索系统目前主要还是提供以字为索引的检索,检索内容的丰富性及相应的统计数据的获得还不能与英语语料库的检索系统相比,根本的原因还在于汉语大规模语料分词的精度问题,以及汉语标注体系的适合性与通用性问题,使语料库的开发人员将这些不确定的问题留给了语料库的使用人员,使用语料库的研究者根据需求再进一步处理。

评测资源的构建与资源建设有直接的关系,国内在几个领域开展了系列的评测,也在国际一些评测(如Senseval中词义排歧、语义依存等多项任务)中建议评测任务,提供评测数据资源。然而,目前仍然缺少具有明确问题驱动的、系统化的评测任务设计和评测资源开发。

(三)互联网大数据

互联网的飞速发展,在网络上集聚了大量的结构化(传统的关系型数据库中的数据,可用二维表来表示)、半结构化(部分内容有格式,如:电子邮件、电子表格、带有html 格式标签的新闻等)和非结构化(各种文档、图片、视频、音频、文本、传感数据等)数据。大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现在的IT架构以及机器处理和计算能力带来了极大挑战。同时,也为人们深度挖掘和充分利用网络大数据的大价值带来了巨大机遇(王元卓等,2013)。

随着数据生成方式的多样化,非结构化数据成为大数据的主流形式。而在非结构化数据中,作为人类思维载体的语言文字蕴含了大量的信息。一方面这些海量、繁杂又包含大量噪声的数据,向汉语信息处理提出了更高的要求,但同时海量的数据又成为天然的语言资源,如互联网上广泛存在的弱标注数据资源为语言结构学习算法提供了丰富的语言资源(孙茂松等,2014),互联网上信息的高度冗余性使准确抽取知识更加可行,这些资源为解决汉语信息处理中的复杂数据创造了新的可能性。

大数据时代互联网和社会网络的快速发展催生了一种新型数据处理协作方式——“众包”,即将传统上交由特定人员所做的工作以网络工作平台的形式公开征集开放的、非特定的大众群体来完成。众包的思想就是发挥群体智慧。“大众点评网”和“豆瓣”就是两个最典型的例子,无数兴趣相同的人在上面向大家分享心得,同时又共享大家的集体智慧。这种方式为语言资源的采集和加工提供了新的思路。乡音苑[※注]便是利用“众包”的思想采集中国方言的。

大数据时代不仅产生了新型语言资源加工方式,大数据的呈现也亟须更加有效的方式。信息可视化技术的发展为中文信息处理领域带来了一个新的名词——“知识图谱”(Knowledge Graph)。中文知识图谱最早起源于Google Knowledge Graph,它本质上是一种语义网络,其结点代表实体(Entity)或者概念(Concept),边代表实体/概念之间的各种语义关系。知识图谱的直接推动力来自一系列实际应用,包括语义搜索、自动问答、电子阅读等。实体/概念及其关系是利用网络数据自动获取的。目前中文知识图谱已有百度的知心、搜狗的知立方等。复旦大学的中文知识图谱包含2000万实体、5000万关系,他们将这些实体、关系及其挖掘技术用于研究深度阅读模型,在经典著作《红楼梦》上应用深度阅读模型,构建了包括红楼梦人物、服饰、饮食等重要实体属性信息的知识图谱。知识图谱相对于传统的本体和语义网络而言,实体覆盖率更高,语义关系也更复杂而全面,向基于知识的自然语言处理迈出了一步。

大数据时代使大规模语言数据的获得变得容易,但是,如何有效运用这些数据、如何从数据中获得切实可行的知识,是大数据带给语言信息处理的挑战。

显示更多

相似文献

引用

引用格式:

版权所有:中国社会科学出版社

备案号:京ICP备05032912号-3

京公网安备:11010202010108号

地址:北京西城区鼓楼西大街甲158号

售前咨询:010-84050797

售后服务:010-84050797

  • 请关注“中国社会科学年鉴”微信公众号

    关闭