您的IP是216.73.216.71,欢迎访问中国社会科学年鉴数据库 !

当前位置: 首页 > 当代中国语言学研究2015 > 文献详情

当代中国语言学研究

第九节 发展趋势和尚待解决的问题

来 源
当代中国语言学研究2015 \ -
作 者
-
浏览次数
1
摘 要
中文信息处理已走过了近60年,应该引以为自豪的是我国的中文信息处理研究成果曾经被认定是与“两弹一星”并列的对国家发展具有深刻意义的成就。针对语言学缺失的原因,舒丽分析说“语言学的理论变得如此晦涩难懂,如此华而不实,如此自以为是,以至于其他领域的研究者事实上无法跨学科参与进来”。Multilingual Dependency Learning:A Huge Feature Engineering Method to Semantic Dependency Parsing.CoNLL  09 Proceedings of the Thirteenth Conference on Computational Natural Language Learning:Shared Task。
关键词

学报

中文信息

中文信息学报

信息处理

语言信息处理

中文信息处理

计算语言学

语言文字

博士学位论文

语言学

语言

注释
收藏

在线阅读

第九节 发展趋势和尚待解决的问题

字体:

中文信息处理已走过了近60年,应该引以为自豪的是我国的中文信息处理研究成果曾经被认定是与“两弹一星”并列的对国家发展具有深刻意义的成就。60年的历史,见证了汉字以其特有的编码进入计算机,还有王选的激光照排、汉王的系列汉字识别、中软公司的中国第一个商品化机器翻译系统“译星”、华建在“863”基础上发展起来的多语言翻译产品、哈工大的整句拼音输入技术、格微软件以知识管理为特色的人机交互协同翻译平台、TRS在全文检索研究基础上发展起来的信息处理系统、科大讯飞的语音合成与识别技术、董振东的汉英概念语义网络HowNet、北京大学计算语言学研究所的《综合型语言知识库》以及源于亚伟速记技术的现已成为产业的亚伟速录机的发明与应用,等等。计算机的智能化应用离不开语言信息处理的研究成果。同时,也应看到,随着计算机硬件水平的提高和互联网的飞速发展,语言信息处理领域还有广阔的天地等待我们去开发,面对大数据处理的挑战,面对国际上虚拟空间的激烈博弈,面对互联网安全与人们信息需求的矛盾,中文信息处理如何克服短板,走出自己的路,继续在国家发展中发挥应有的作用,下面一些问题值得思考。

第一,语言信息处理需要语言研究的支撑。

语言信息处理,处理的对象是语言,语言应是研究的核心。但由于种种原因,尤其是近些年来,信息处理界对语言的研究基本是缺失的,这种情况引起很多有识之士的焦虑。在2009年的《计算语言学》杂志第35卷第4期上,以色列海法大学计算机科学系高级讲师舒丽·维茵特讷(ShulyWintner)发表了一篇题为《什么是自然语言工程的科学支撑?》(What Science Underlies Natural Language Engineering?)的文章,强烈地呼吁“语言学重新返回到计算语言学中”。舒丽的结论是:没有明确的语言学知识作为基础的自然语言处理系统的应用领域是走不远的。针对语言学缺失的原因,舒丽分析说“语言学的理论变得如此晦涩难懂,如此华而不实,如此自以为是,以至于其他领域的研究者事实上无法跨学科参与进来”。此话虽然有些刻薄,但不无道理。要想让中国的语言信息处理有更好的发展,语言学的支撑必不可少。语言学界应该反思:我们究竟为语言信息处理贡献了什么?同时,语言信息处理学界也应把工作范围从技术和工程扩展到科学层面,主动投入面向信息处理的语言研究,与语言学界合作,把这一学科建筑在语言科学的基础之上。

第二,加强研究队伍建设,注重对复合型人才的培养。

一个学科是否有前途,能否快速发展,关键在于是否有一支充满朝气的后备队伍。计算语言学是一门交叉学科,需要文理工兼容的复合型人才,但目前我国高校的体制、学科设置以及人才评价体系都不利于这种文理工兼容的复合型人才的培养。应该打破这种局面,建立一种更加合理的培养和评价机制,使计算语言学不仅后继有人,而且后继有能人,有高人。

第三,在与国际接轨的同时,更要直面中国自己的问题。

几十年来,除了汉字输入、汉语分词等一些汉语特有的领域外,“在计算语言学的诸多领域,我们基本上采取‘跟’的办法”(董振东,2011)。基本路子是外国人研究什么,我们就跟着研究什么。聊以自慰的是,相比国内其他领域,语言信息处理在与国际接轨上做得是比较好的,与先进国家水平相比,落得不是太远,在有些领域甚至取得了一定的话语权。但中国不是外国,中国有自己的国情,汉语有自己的特点,语言信息处理要解决的问题和工作目标和外国是有所不同的。因此下一步,如何在与国际接轨、向国外先进理论和技术学习的同时,直面中国自己的国情,解决中国自己的问题,是信息处理界首先要思考的问题。在这方面,做好顶层设计,调动各路精英合力攻关,是必要的措施。

第四,加强方法研究,应对大数据处理的挑战。

在大数据时代,应进一步加强语言数据的采集、加工、统计和应用的研究。文本大数据是非结构化的,具有远距离相关性,而且词形集合不封闭,词形频率统计具有长尾效应,这些特点严重影响一般的数据统计方法的使用效果,因此需要面对这些特点研究适合文本大数据处理的数学方法和计算方法,研究统计和语言知识相结合的处理方法。

第五,搭建“中华信息技术平台”,各民族语言信息处理事业共同发展。

与少数民族语言信息处理相比,汉语的信息处理是走在前面的。虽然不同的语言有各自的特点,但也有相通之处,尤其在信息处理的技术和工具方面。比如2005年发布的《信息技术中文编码字符集》就兼容了汉字和多种我国少数民族文字的编码。为此,我们建议,尽早搭建“中华信息技术平台”,让少数民族兄弟在语言信息处理上少走弯路,使中国各民族语言信息处理事业能相互借力,均衡发展,共同腾飞!

我们已经生活在一个信息社会中,语言信息处理必然在国家建设和发展中继续承担着重要角色,展望未来,任重道远,我辈须奋力前行。

主要参考文献

陈小荷、冯敏萱、徐润华:《先秦文献信息处理》,世界图书出版公司2013年版。

陈章太:《论语言资源》,《语言文字应用》2008年第1期。

程南昌:《语言文字舆情自动监测方法研究与系统实现》,博士学位论文,中国传媒大学,2013年。

丁晓青:《汉字识别研究的回顾》,《电子学报》2002年第9期。

董晶晶:《文本倾向性分析技术的相关研究》,博士学位论文,安徽大学,2012年。

董振东、董强、郝长玲:《下一站在哪里?》,《中文信息学报》2011年第6期。

冯志伟:《中文信息处理与汉语研究》,商务出版社1992年版。

冯志伟:《论歧义结构的潜在性》,《中文信息学报》1995年第4期。

冯志伟:《机器翻译发展的曲折道路(2)》,《术语标准化与信息技术》1996年第4期。

冯志伟:《自然语言的计算机处理》,上海外语教育出版社1996年版。

侯敏、胡凤国、滕永林等:《语言监测需要多功能、易维护的自动分词标注系统》,《中国语言资源论丛(一)》,商务印书馆2009年版。

侯敏:《语言资源建设与语言生活监测相关术语简介》,《术语标准化与信息技术》2010年第2期。

黄昌宁、赵海:《中文分词十年回顾》,《中文信息学报》2007年第3期。

黄昌宁、童翔:《汉语真实文本的语义自动标注》,《语言文字应用》1993年第4期。

黄居仁、陈克健、陈凤仪等:《〈资讯处理用中文分词规范〉设计理念及规范内容》,《语言文字应用》1997年第1期。

教育部语言文字信息管理司组编:《中国语言生活状况报告(2005—2014)》,商务印书馆2006—2014年版。

揭春雨、刘源、梁南元:《论汉语自动分词方法》,《中文信息学报》1989年第1期。

李涓子:《汉语词义消歧方法研究》,博士学位论文,清华大学,1999年。

李文玲:《中国速记的发展现状及问题》,《河北科技师范学院学报》2008年第3期。

李宇明:《搭建中华字符集大平台》,《中文信息学报》2003年第2期。

李宇明:《语料库中语言知识的标记问题》,苗传江、杜燕玲主编《第二届HNC与语言学研讨会论文集》,海洋出版社2004年版。

厉小军:《文本倾向性分析综述》,《浙江大学学报》2011年第7期。

林杏光:《现代汉语的格关系》,《汉语学习》1989年第5期。

刘开瑛:《中文文本自动分词和标注》,商务印书馆2000年版。

刘开瑛、由丽萍:《汉语框架语义知识库构建工程》,《中文信息处理前沿进展——中国中文信息学会二十五周年学术会议》,2006年。

刘鹏远:《基于知识自动获取的无指导译文消歧方法研究》,博士学位论文,哈尔滨工业大学,2008年。

刘群:《机器翻译研究新进展》,《当代语言学》2009年第2期。

刘源、梁南元:《汉语处理的基础工程——现代汉语词频统计》,《中文信息学报》1986年第1期。

刘源、谭强等:《信息处理用现代汉语分词规范及自动分词方法》,清华大学出版社1994年版。

梁南元:《书面汉语自动分词系统—CDWS》,《中文信息学报》1987年第2期。

刘倬:《我国机器翻译研究的历史和现状》,《中国翻译》1983年第11期。

鲁川:《现代汉语的语义网络》,电子工业出版社1995年版。

鲁松、白硕、黄雄等:《基于向量空间模型的有导词义消歧》,《计算机研究与发展》2001年第6期。

彭炜明、宋继华:《〈资治通鉴〉历史领域本体构建及其应用研究》,《中文信息学报》2010年第2期。

彭炜明、宋继华、王宁:《基于句式结构的汉语图解析句法设计》,《计算机工程与应用》2014年第6期。

尚英:《汉语篇章广义话题结构理论的实证性研究》,博士学位论文,北京语言大学2014年版。

宋继华、杨尔弘、王强军:《中文信息处理教程》,高等教育出版社2011年版。

宋彦、黄昌宁、揭春雨:《中文CCG树库的构建》,《中国计算语言学研究前沿进展(2009—2011)》,2011年。

孙茂松、王洪君、李行健等:《〈信息处理用词汇研究〉九五项目结题汇报——信息处理用现代汉语分词词表》,《语言文字应用》2001年第4期。

孙茂松、邹嘉彦:《汉语自动分词研究评述》,《当代语言学》2001年第1期。

孙茂松、刘挺等:《语言计算的重要国际前沿》,《中文信息学报》2014年第1期。

王宁:《汉字研究与信息科学技术的结合》,《励耘学刊(语言卷)》2005年第一辑。

王铁琨:《献给语言监测研究五周年的一份厚礼》,《北华大学学报》2010年第1期。

王晓龙:《拼音语句汉字输入系统InSun》,《中文信息学报》1993年第2期。

王元卓、靳小龙、程学旗:《网络大数据:现状与展望》,《计算机学报》2013年第6期。

吴云芳、王淼、金澎等:《多分类器集成的汉语词义消歧研究》,《计算机研究与发展》2008年第8期。

邢富坤:《现代汉语词类体系与词性标注研究》,博士学位论文,北京语言大学,2010年。

杨尔弘、方莹、刘冬明:《汉语自动分词和分词标注评测》,《中文信息学报》2006年第1期。

杨尔弘:《支持语言监测的海量数据处理技术》,《术语标准化与信息技术》2010年第2期。

姚天昉、聂青阳、李建超等:《一个用于汉语汽车评论的意见挖掘系统》,《中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集》,2006年。

俞士汶:《综合型语言知识库的建设与利用》,《中文信息学报》2004年第5期。

俞士汶、柏晓静:《计算语言学与外语教学》,《外语电化教学》2006年第5期。

袁毓林:《基于认知的汉语计算语言学研究》,北京大学出版社2008年版。

袁毓林、马辉、周韧等:《汉语词类分析手册》,北京语言大学出版社2009年版。

苑春法、黄锦辉、李文捷:《基于语义知识的汉语句法结构排歧》,《中文信息学报》1999年第1期。

詹卫东:《面向中文信息处理的现代汉语短语结构规则研究》,博士学位论文,北京大学,1999年。

詹卫东:《80年代以来汉语信息处理研究述评——作为现代汉语语法研究的应用背景之一》,《当代语言学》2000年第2期。

詹卫东:《自然语言的自动分析与生成简介》,《术语标准化与信息技术》2010年第4期。

张桂平、蔡东风:《基于知识管理和智能控制的协同翻译平台——知识管理和机器翻译的融合》,《中文信息学报》2008年第5期。

张华平、刘群:《基于N-最短路径方法的中文词语粗分模型》,《中文信息学报》2002年第5期。

张普:《共和国的中文信息处理60年》,《语言文字应用》2009年第3期。

张仰森、郭江:《动态自适应加权的多分类器融合词义消歧模型》,《中文信息学报》2012年第1期。

张轴材:《〈四库全书〉电子版工程与中文信息技术》,《电子出版》1999年第5期。

赵铁军:《机器翻译原理》,哈尔滨工业大学出版社2000年版。

周强、张伟、俞士汶:《汉语树库的构建》,《中文信息学报》1997年第4期。

周强、黄昌宁:《汉语概率型上下文无关语法的自动推导》,《计算机学报》1998年第5期。

朱维彬、吕士楠:《基于语义的语音合成——语音合成技术的现状及展望》,《北京理工大学学报》2007年第5期。

宗成庆、曹右琦、俞士汶:《中文信息处理60年》,《语言文字应用》2009年第4期。

宗成庆:《统计自然语言处理》,清华大学出版社2013年版。

Black,E.,Abney,S.,Flickenger,D.,Gdaniec,C.,Grishman,R.,Harrison,P.,Hindle,D.,Ingria,R.,Jelinek,F.,Klavans,J.,Liberman,M.,Marcus,M.,Roukos,S.,Santorini,B.,and Strzalkowski,T.,A procedure for quantitatively comparing the syntactic coverage of english grammars.In Proceedings of the February 1991 DARPA Speech and Natural Language Workshop.Pacific Grove,CA.,1991.

Doerr,Martin,Hunter,Jane,and Lagoze,Carl,Towards a Core Ontology for Information Integration.Journal of Digital Information,4(1)2003.

Hays,David G.,Dependency theory:A formalism and some observations”.Language,40(4),1964.

Dong Qiang and Dong,Zhendong,Hownet and Computation of Meaning.Beijing:World Scientific Publishing Company,2006.

Sproat,Richard,Shih,Chilin,Gale,Willian,& Chang,Nancy,A stochastic finite state word segmentation algorithm for Chinese.Computational Linguistics,22 (3),1996.

Xue,N.,Palmer,M.,Annotating the Propositions in the Penn Chinese Treebank.In Q.Ma,and F.Xia (eds.),Proceedings of the Second SIGHAN Workshop on Chinese Language Processing,2003.

Zhao,Hai,Chen,Wenliang,Kit,Chunyu,Zhou,Guodong,Multilingual Dependency Learning:A Huge Feature Engineering Method to Semantic Dependency Parsing.CoNLL09 Proceedings of the Thirteenth Conference on Computational Natural Language Learning:Shared Task ,2009.

显示更多

相似文献

引用

引用格式:

版权所有:中国社会科学出版社

备案号:京ICP备05032912号-3

京公网安备:11010202010108号

地址:北京西城区鼓楼西大街甲158号

售前咨询:010-84050797

售后服务:010-84050797

  • 请关注“中国社会科学年鉴”微信公众号

    关闭