您的IP是216.73.216.188,欢迎访问中国社会科学年鉴数据库 !

当前位置: 首页 > 当代中国古代文学研究2019 > 文献详情

当代中国古代文学研究

第六节 古代文学文献的数字化

来 源
当代中国古代文学研究2019 \ 下卷
作 者
-
浏览次数
3
摘 要
作者先设立六项指标,分别从宋代词人现存词作篇数、现存宋词别集的版本种数、宋代词人在历代词话中被品评的次数、宋代词人在20世纪被研究、评论的论著篇(种)数、历代词选中宋代词人入选的词作篇数以及20世纪(当代)词选中两宋词人入选的词作篇数等方面搜集、处理数据。结果显示,苏轼《念奴娇·赤壁怀古》的影响力最高,位居宋词三百名篇之首。针对信息技术为古代文学研究提供了便利,但是数据的采集、标准的择定都有客观条件的限制,从而会影响结论的准确性,李炳海提出“中国古代文学研究应该把定量、定性和定位结合起来,建立起三维的观照系”,即为了避免定量分析的无序性, “在进行定量分析时。
关键词

词人

文学

数据库

名篇

宋词

中国历史

地图

信息技术

学者

古籍

四库全书

注释
收藏

在线阅读

第六节 古代文学文献的数字化

字体:

文献作为古代文学研究的基础对于研究展拓的深度与质量具有重要意义,因而旁搜远绍、穷尽资料往往成为学人努力追寻的目标,并且是走向文本探索、文化释读的必由路径。在传统的考据方法广受推重的时代,对纸质图书的依赖以及读书卡片的使用是毋庸置疑的,而这一切随着信息技术的迅速发展有了重大改变。以浙江师范大学2009年8月主办的第四届中国古代小说国际研讨会为例,即有学者通过对信息技术的利用,详细比对了《三国演义》各版本的卷数、则目与分则的差异,并尝试分析了其中的原因,探讨各版本之间的演化之迹。版本比对的繁重工作量因为电子文本的出现而大为减轻,同时也避免了人工勘对的差错,大大提高了结论的准确度。这从一个侧面表明,信息技术的使用在古代文学研究中已成为不可忽视的一种新向度。

一 古籍文献的数字化进程与成果

信息技术的发展使得大量纸质图书数字化,为利用与检索文献提供了极大的便利。从目前为学界所普遍利用的各种数字资源来看,皆具海量的信息与快捷的检索方式,成为古代文学研究的有益参照和帮手。

中文古籍文献数字化工作发端于新时期之初,至今已历四十年之久,吴家驹《中文古籍数字化的进展与主要成果述评》(《南京师范大学文学院学报》2004年第3期)、耿元骊《三十年来中国古籍数字化研究综述(1979—2009)》(《第二届中国古籍数字化国际学术研讨会论文集》,2009年)等文对此作了简要总结。吴文将中文古籍数字化的研发的起点定于1978年美国P.J.伊凡霍埃(Philip J.lvanhoe)等人最先开始运用计算机编制《朱熹大学章句索引》《朱熹中庸章句索引》《王阳明大学问索引》《王阳明传习录索引》《戴震孟子字义疏证索引》等,以十分便捷的检索方式,向人们展示了现代信息技术在传统文献整理方面显著的优越性。大陆古籍数字化的尝试始于20世纪80年代,但成果有限,影响不大。90年代以后,一些省市大型图书馆致力于推进古籍书目数字化建设,取得了较为显著的成效。进入21世纪之后,大陆的古籍数字化建设依靠丰富的文献资源和人才优势后来居上,开发的重点也由早期的书目数据库的建设,转向书目数据库、全文数据库同时并进,并且后者逐渐成为当前古籍数字化的主流。耿元骊《三十年来中国古籍数字化研究综述(1979—2009)》将此新时期三十年来古籍数字化的研究划分为三个阶段:第一阶段是从1979年到1994年,这是起步、探索、介绍的时期;第二阶段是从1995年到2001年,这是提高、建设、初步发展的时期,以文渊阁四库全书电子版为代表的一批全文数字化成果至今仍然在广泛使用,对学术研究发挥着巨大的影响力;第三阶段是从2002年开始,这是基本完善、商业应用、网络化阶段的阶段,理论表述逐步成型,各类数据库建设基本完善,文史学者或多或少拥有了电子数据。

总之,世纪之交至今的20年来,古籍文献数字化建设包括索引、目录、全文检索取得了令人瞩目的成就,集中体现在诸多大型综合类数据库的开发和运用。

(1)文渊阁《四库全书》电子版。1999年,上海人民出版社与迪志文化出版有限公司联合推出了文渊阁《四库全书》电子本,共收书3460多种,计7亿余字,是迄今为止规模最大并为学界广泛使用且技术相对成熟的大型数据库。制作时共扫描原书图像230多万页,然后进行图像处理、文字识别并完成系统开发。电子本分为标题版与全文版,全文版由五个数据库组成:全文文本数据、原文真迹图像数据、书名数据、著者数据及辅助数据。提供全文、分类、书名、著者四种检索方式,各检索又细化为正文与注释文字,且具有高级检索功能,并提供原文图像。数据库所提供的复制与打印功能也颇为方便,检索中若有疑问,还能根据辅助数据中的联机字典、纪年表等进行查询。

(2)《四部丛刊》电子版。2000年,书同文公司在完成《四库全书》电子本的开发一年后,又成功对《四部丛刊》进行了电子化处理。数据库以涵芬楼景印的《四部丛刊》初编、续编与三编为底本,收书500多种,处理原书图像47万多页,具备强大的检索功能。提供与文字页面一一对应的原文图像,打印、复制、检索、注释等功能颇为全备,所含资料近1亿字。这一数据库值得注意的是原书所提供的多为宋元明旧刊本及精校名抄稿本,版本价值超过了《四库全书》,因而在资料来源方面具有特殊的优势。

(3)《国学宝典》电子版。1999年,由北京国学时代文化传播股份有限公司所开发的《国学宝典》电子版率先推出单机版,此后不断改进,现已有多种版本可供使用且单机版也升级至v9.0。该系统依照四部分类,收录了自先秦至清末的古籍文献4000余部,字数逾10亿,对《四库全书》相对忽视的戏曲、小说等文献进行了大规模增补,且广泛搜罗了大量晚清民初时期的古籍文献,因而可以与《四库全书》形成一定程度上的互补关系。系统检索功能强大,大部分文献提供了解题信息,颇便使用。

(4)《瀚堂典藏》电子版。2012年10月总字数已达21亿字,收录古籍超过14000种。其中含《四库全书》3300多种,不含四库的则有11300余种。该数据库本着“存真、再现、通用、便捷”的原则,以小学、出土文献类为基础,扩展至类书集成、中医药典籍等。根据四库分类法,分为经部集成、史部集成、子部集成、集部集成、古典戏曲、古本小说、专题文献等七个总库,为目前最大的中文古典文献数据库,内容并持续定期新增。由于字形处理的困难,小学方面的著作在电子化过程中一直属于难点,《瀚堂典藏》在这方面做出了积极尝试,文字处理的精确度有了很大提高。其收录的文献如中医药文献、古典戏曲、佛道教文献、敦煌文献都极具特色,既避免了与其他数据库的重复,又突出了自身的侧重点,值得借鉴。数据库提供了智能检索功能,可以人工智能分词,提高了检出文献的有效性。

(5)《中国基本古籍库》电子版。2005年,由北京大学刘俊文主持、由北大方正技术研究院提供技术支持的《中国基本古籍库》电子版问世,汇集了先秦至民国的典籍万余种,全文17亿字,是《四库全书》的三倍,为目前最大的中文数字出版物,大致依四部分类并作适当调整,版本选择考究,检索方便。数据库还提供版本速查功能,可以很方便地找到所收书籍的版本及所藏地。尤值一提的是,数据库提供了图像对照功能,所收各书除了原本的图像之外,还另附其他版本的图片,对版本对勘很有裨益。众多《四库全书》未及收录的图书都可以很方便地在数据库中检索阅读,如方志等收录颇为全备。就提供的信息量而言,《中国基本古籍库》无疑是目前众多数据库中做得最好的。不过,正像众多学者指出的那样,数据库对于所收各书的序跋一概舍弃,则难免美中不足。

(6)《中国历代基本典籍库》电子版。2002年开始陆续出版,王元化等主编,由国学公司组织策划,北京国学时代文化传播有限公司研制,商务印书馆制作出版。收录国学原典4000余种、相关图片数千幅,以及两万多位古代人名资料和一万多种古籍书目提要,全文资料逾6亿字。该数据库由文史专家进行论证,按朝代编选,分“先秦两汉魏晋南北朝卷”“隋唐五代卷”“宋辽金元卷”“明清卷”,力求反映中国古代典籍全貌。2002年9月首先推出的“隋唐五代卷”,收隋唐五代典籍136部6600多卷,计八千余万汉字,内容涵盖了隋唐五代政治、经济、文化、军事等社会生活的各个方面。所有数据均进行数字化处理,精加校对,并辅以先进的检索引擎,方便实用。光盘以Windows系统为平台,使用GBK字库,另附有专用图形字库,HTM形式文图并茂。[※注]

信息技术在古代文学研究领域的飞速发展既有相关科技公司的研发推动,也与研究的内部需要有关,而高等院校与科研院所在这一进程中也发挥了重要作用,提供了不少数据平台,如北京大学中文系的全唐诗、全宋诗检索分析系统,南开大学组合数学研究中心的二十五史全文检索系统,南京师范大学的《全唐宋金元词文库及赏析》检索系统,陕西师范大学的《汉籍全文检索系统》,台湾中研院的《瀚典全文检索系统》,都是研究中重要的数字资源。

信息技术的发达给古代文学研究者所提供的便利是不言而喻的。以往的研究必须依赖于掌握的纸质文本,因而图书条件往往成为研究的瓶颈,任职机构的图书保有量以及对公共图书馆的利用效度对研究成果具有相当的影响。而现在这种制约已经大为削弱,无论身处何地,网络与光盘足以提供充足的研究文献。在考据方面效果尤其明显,以往的翻检之劳被现在的轻松点击所取代,所得文献的全面性也会较手工检索大为提高。

二 古代文学研究的数字化应用

古籍文献包括索引、目录、全文检索的数字化、网络化,为人文社会科学研究提供了海量的公共数据资源和信息,为利用与检索文献提供了极大的便利,同时也促使一些学者思考如何将这些数据资源和信息技术运用于古代文学研究。由于占据信息技术的优势,早期对古典文学的研究以及检索、分析系统的研发多为计算机或统计专业的学者。厦门大学周昌乐课题组针对宋词风格“豪放与婉约”的分类问题,研发了基于字和词为特征的风格分类模型、基于频繁关键字共现的诗歌风格判定方法以及基于词和语义为特征的风格分类模型。首都师范大学尹小林最早研发了“《全唐诗》检索系统”,北京大学李铎也研发了“《全宋诗》分析系统”“《全唐诗》分析系统”“《资治通鉴》分析系统”等,[※注]这对古代文学研究界同时起到了促进与激发作用。一个典型的案例即是1997年年底,北京大学杜晓勤将研制“中国古典诗歌声律分析系统”的设想告诉了兼通古籍电子化和计算机程序开发的尹小林,得到了他的肯定和支持。于是从1998年开始,彼此分工合作,开始建立“中国古代音韵数据库”和“上中古诗歌文本数据库”,直至2008年夏终于告竣。[※注]“中国古典诗文声律分析系统”首次实现了对中国古典诗歌及有关韵文进行批量四声自动标注和八病标识、数据统计功能,不仅有助于研究永明体诗歌的声病情况,还可考察永明诗律向近体诗律演变的环节和过程。

就在世纪之交,王兆鹏、尚永亮等古代文学研究学者也开始积极尝试将数据分析应用于古代文学研究。王兆鹏《唐宋词史论》(人民文学出版社2000年版)即专设“定位论”一章,通过数据统计与定量分析,对宋代的词人与词作进行了细致研究。作者先设立六项指标,分别从宋代词人现存词作篇数、现存宋词别集的版本种数、宋代词人在历代词话中被品评的次数、宋代词人在20世纪被研究、评论的论著篇(种)数、历代词选中宋代词人入选的词作篇数以及20世纪(当代)词选中两宋词人入选的词作篇数等方面搜集、处理数据,通过仔细比对,最终给出“综合排行榜”的前三十名词人。以平均词作10首为准,加上现存词作不足此数而有集传世的词人,作者指出“宋代有一定影响的词人只有三百人左右”;而“存词五十首以上是成为著名词人的基本条件之一”;通过对词人历史地位变迁的考察可以发现,其词史地位具有承传性和延续性,其中又包含一定的变异性,但由于其地位是长期历史积累的结果,故而又具有动态平衡性。从词集、词人创作量、词调大备、名家辈出、名作如林等方面则可以发现宋词的繁荣情状。作者还通过对历代词作传播接受的考察,发现“词史上最有影响力、最有生命力的作品是产生在宋代”。而点检后人和作,可以看到“《念奴娇》赤壁词是唐宋词史上获得次韵和作最多的词作,也是知名度最高、最受词人青睐的典范之作”。作者以翔实的数据说话,分析过程缜密严谨,表现出与印象赏鉴式研究路数的明显差异,结论虽偶尔出人意表但多能言之成理,富有学术参考价值。

这一研究方法在王兆鹏的《唐宋词史的还原与建构》(湖北人民出版社2005年版)中得到进一步的贯彻。作者依托自行编制的《宋代词人检索软件》,对宋词作品量与作者进行了统计分析。通过数据分析,作者发现,占作者总数83.5%的低产作者群(创作量少于10首)的创作了占作品总量12.4%的作品;而占作者总数8.1%的高产作者群(创作量在41首以上)却创作了占词作总数74.2%的作品,这充分反映出宋代词作量金字塔形的分布特点。进一步的分析则表明“当作品量达到一定限度后,词人的地位和影响不会因为作品量的差异而有所区别”。而对两宋词人的占籍统计分析则显示,“宋词作者队伍中80%以上是南方人,78%的作品是由南方人创作的,宋词的‘南方文学’特征再突出不过了”;而宋代词人又体现出代群分布的特点,精英词人群出现的周期是50年,这与词史发展轨迹相一致;虽然精英词人代不乏人,但精英群体的出现则具有隔代相承的间歇性现象。在对当下词学研究情况的定量分析中,王兆鹏则指出,20世纪词学研究的总体格局是宋代过热而对清词关注不够,个体词人的研究热点又主要集中在苏轼、辛弃疾与李清照身上;研究队伍的分析与对比也表明,清词研究相当冷落;因而研究领域、学术个性、资料整理方面都需要做出相应的调整。这些论析都带有宏观引领性质,由于论据的充分与分析的周延,结论颇能发人深省。

王兆鹏等撰著的《两宋词人丛考》(凤凰出版社2007年版)则从侧面反映了信息技术对于传统考据领域的渗透。此书共分24篇,对41位词人的仕履行藏、作品、交游等做出了详审的考订,是宋代词学研究中实证路向的重归。如对张镃卒年的判定、对王观与王仲甫的析分以及对大量词作的系年,都体现了学术研究的深入进展。而这一切无不依赖于对文献的较全面把握,其中电子文献利用率的提高无疑对研究的推动发挥了作用,从而使得一些此前并不知名的词人状况渐次为学界所熟悉。

除了上述三部著作之外,王兆鹏还发表了有关唐宋诗词定量分析的系列论文,主要有:王兆鹏、刘尊明《历史的选择——宋代词人历史地位的定量分析》(《文学遗产》1995年第4期),王兆鹏、孙凯云《寻找经典——唐诗百首名篇的定量分析》(《文学遗产》2008年第2期),王兆鹏、郁玉英《宋词经典名篇的定量考察》(《文学评论》2008年第6期),王兆鹏、郁玉英《影响的追寻:宋词名篇的定量分析》(《国学学刊》2009年第1期),王兆鹏《定量分析在唐宋词史研究中的运用》(《江西师范大学学报》2010年第1期),王星、王兆鹏《苏轼诗词类作品石刻的数量统计与分析》(《长江学术》2012年第3期),王星、王兆鹏《苏轼题名、题字及文类石刻作品数量统计与分析》(《湖北大学学报》2013年第3期)。其中《历史的选择——宋代词人历史地位的定量分析》《宋词经典名篇的定量考察》《影响的追寻:宋词名篇的定量分析》《定量分析在唐宋词史研究中的运用》四文,以定量分析应用于唐诗宋词经典名篇的分析。第一篇论文为定量分析的开创之作,尝试定量分析宋代词人的历史地位和影响,由统计结果还可以得出如下几点带规律性的认识:一是词人历史地位的承传性和延续性;二是词人历史地位的变异性;三是词人历史地位的动态平衡性。由于词人的历史地位是历史长期积累的结果,是一种“公认”的“共识”,是一代代读者的接受过程中的“历史选择”,因此,客观而公正的历史会平衡不同流派和不同代群评价上的差异。该文大致奠定了王兆鹏定量分析的基本路径与观点。第三篇论选取历代词选、评点、唱和以及现当代有关宋代词作的研究论文、互联网链接的宋词网页等五个方面的数据,对宋词三百首名篇的影响力进行统计分析和量化衡定。结果显示,苏轼《念奴娇·赤壁怀古》的影响力最高,位居宋词三百名篇之首;岳飞《满江红》和李清照《声声慢》位居第二和第三;拥有名篇最多的词人分别是周邦彦、苏轼和辛弃疾。数据统计的结果,既能彰显词作影响力的可比性和区分度,又可以考察词作影响力的恒久性和变异性,还可以看出名篇的形成具有鲜明的时代性。《寻找经典——唐诗百首名篇的定量分析》是以上定量分析在唐诗中的沿用,通过对历代有代表性的唐诗选本、评点资料和当代唐诗研究论文等三个方面的数据进行统计并加权计算,排列出唐诗百首名篇的排行榜,以寻找历代读者所认定的经典名篇。统计结果显示,位居唐诗百首名篇第一首的是崔颢的《黄鹤楼》,创造名篇最多的十大诗人是杜甫、李白、王维、李商隐、杜牧、王昌龄、孟浩然、刘禹锡、白居易和岑参。产生名篇与名家最多的时期是盛唐。在各种诗体中,又以律诗和绝句的名篇为最多。分析发现,名篇的多少与作家地位的高低、影响力的大小具有一定的正比关系。名篇的形成,是一个不断被发现、认定、积累和淘汰的历史过程,具有鲜明的时代性。作品的影响力又具有即时性和延后性等特点。上述定量分析尤其是唐诗宋词经典名篇“排行榜”,充分印证了作者的一个核心观点,即经典名篇的产生是历史性与时代性共谋的结果,而作品的影响力又具有即时性与延后性,在学界内外产生了广泛影响。在王兆鹏的指导下,他的一些研究生的硕士论文也以此为选题,如谭新红《唐宋词名篇的定量分析》(硕士学位论文,湖北大学,1999年)、刘俊丽《宋诗作者队伍的定量分析》(硕士学位论文,武汉大学,2004年)、周静情《经典的选择——宋词名篇百首的定量分析》(硕士学位论文,武汉大学,2005年),皆属于这一方面的探索和研究,尝试运用信息技术对古代文学现象做出了新的阐释。

尚永亮以定量分析应用于唐诗研究,取得了一系列重要成果。早期的重要论文有尚永亮、冯丽霞《八代诗歌分布情形与发展态势的定量分析》(《东南大学学报》2003年第6期),尚永亮、张娟《唐知名诗人之层级分布与代群发展的定量分析》(《文学遗产》2003年第6期),前文以定量分析的方法考察和分析八代诗歌分布情形与发展态势,认为八代诗人的知名度除与创作质量等因素有关外,在一定程度、范围内,确与其创作数量呈正比例关系:多产诗人在某种意义上几乎可以直接视之为知名诗人,中产层诗人约一半以上可以进入知名者行列,而低产层只有1/3的作者受到关注。后文运用定量分析的方法对唐代知名诗人的层级分布与代群发展做出了阐释。作者整合唐诗文献,对唐五代诗的发展态势(作者数、诗作量)、唐五代诗作量的分布层级(高产、多产、中产、低产)以及不同层级诗作者的时期分布特点进行了分析,以此为基础,遴选出四唐时期76位代表诗人,并对这些知名诗人及其作品量的分布时期与层级做出了细化描述,从而总结出唐诗史上七代知名诗人的代群分布与发展规律。后来,作者又在《开天、元和两大诗人群交往诗创作及其变化的定量分析》中将定量分析的方法运用到诗人交往的研究上,通过对开天与元和两大诗人群交往人次诗数、群体内部相互交往人次诗数以及不同范围交往创作量与所占比例的细绎,作者指出,开天诗人内部联系松散,诗歌创作缺乏群体意识而更多体现出诗人的艺术个性;元和诗人则将更多的精力用在群体内部,诗派风格趋于类同。这就为唐诗不同时段的发展面貌提供了详细的事实根据。

此后,尚永亮将这一方法重点应用到贬谪文学领域,先后有《唐五代逐臣与贬谪文学研究》(武汉大学出版社2007年版)、《唐五代贬官之时空分布的定量分析》(《上海大学学报》2007年第6期)、《唐五代文人逐臣分布时期与地域的计量考察》(《东南大学学报》2007年第6期)等论著问世。在《唐五代贬官之时空分布的定量分析》中,作者对唐五代时期贬官的时空分布与发展变化进行实证研究,以详核的统计数据对贬官的人次分布、十五道贬官分布以及不同时期各州贬官分布做出了说明,并得出结论:就分布时期而言,中晚唐人次最多;就分布地域而言,南方是处置贬官的主要地区。以这些统计数据为基础,尚永亮又在《唐五代文人逐臣分布时期与地域的计量考察》中进一步探讨了唐五代逐臣分布中的规律性因素,他发现,逐臣10人次以上州,是唐五代文人逐臣最集中也最值得重视的地区,因而南方诸道在贬谪文学研究中具有举足轻重的作用;这其中江南西道、东道、岭南道所辖各州最值得重视;而从历时阶段考察,又可以发现某些州在逐臣史上具有突出的地位。依托这些实证性结果,尚永亮对贬谪规律与特点进行了综合考察,并展开了对各时段的细致分析,这些研究在其专著《唐五代逐臣与贬谪文学研究》(武汉大学出版社2007年版)中得到了全面展现。近年来,尚永亮又将定量分析方法拓展至唐五代乐府诗、田园诗研究。[※注]

令人可喜的是,近年来又有一些地理信息科学技术系统学者积极参与到古代文学研究的数字化应用之中。其中的代表性成果有:张雯佼、李发红、王占宏《文学和艺术形态地理分布特征数据库设计方案初探》(《测绘技术》2013年第1期),张建立、李仁杰、傅学庆、张军海《古诗词文本的空间信息解析与可视化分析》(《地球信息科学学报》2014年第6期),李文娟《基于GIS及空间统计方法的诗词文学空间模式研究》(硕士学位论文,河北师范大学,2015年),李文娟、傅学庆、李仁杰、张军海《基于空间统计方法的李杜诗词文学空间模式的比较研究》(《河北师范大学学报》2016年第1期)等。张雯佼、李发红、王占宏、李文娟、傅学庆、李仁杰、张军海等皆为来自地理学或信息科学的学者,他们努力参与到古代文学地理的信息化应用之中,并做出了富有成效的新探索,值得充分肯定并加以总结和推广。此外,叶振超《CADAL中国文学编年史系统的设计与实现》(硕士学位论文,浙江大学,2011年)、王超《CADAL中国文学编年史系统的语义化构建》(硕士学位论文,浙江大学,2011年)以及曹欣怡《古诗知识搜索系统的设计和实现》(硕士学位论文,浙江大学,2016年)等,[※注]则在以数字化应用于中国文学史研究领域方面取得了新的进展。

三 古代文学研究的数据平台建设

古代文学研究的数据平台建设是信息技术数据化、网络化进而走向智能化的重要成果,同时兼具资源开放与社会服务的功能,所以与上述学者的数字化应用有密切关联,但臻于更高的层级与水平。

就目前古代文学研究可资利用的数据平台来看,主要有综合性与专门性两种类型,前者如复旦大学和哈佛大学合作建成的“中国历史地理信息系统项目”(CHGIS)、台湾中研院所建立的“中华文明时空基础架构”(CCTS),以及浙江大学与哈佛大学地理分析中心(The Centerfor Geographic Analysis)合作共建的学术地图发布平台,都是在综合性中包含了文学地理信息系统,具有大规模、多功能、集成化、再生性的智能特点。复旦大学和哈佛大学合作建成的“中国历史地理信息系统项目”于2001年1月8日正式启动,历时10余年终于告竣。该项目主要通过CHGIS系统建立了一套从有历史地理文献记载开始(约公元前223年)到公元1911年中国历史地理逐年连续变化的、开放的基础地理信息库。其中基本数据包括基础历史地理数据和用户专题数据两部分:(1)中国历史地理基础资料:即从公元前223年到1911年逐年的行政区划地名,由中国历史地理信息系统CHGIS提供;(2)用户专题资料库:由用户按照应用平台提供的输入格式自己建立,这是平台自动生成用户历史地图的基础,也是中国历史地理数字化应用平台的核心与特色所在。在中国历史地理数字化应用平台中,系统会自动将这两部分资料链接起来。正是由于“用户专题资料库”及其自动连接“中国历史地理基础资料”的功能与作用,遂使“中国历史地理信息系统项目”同时成为各种中国专题历史地图和地理信息系统的一个应用系统与开发平台,可以使各学科的学者利用平台的中国历史地理信息系统CHGIS的数据,非常方便地开发出文学、考古、经济、军事等学科的各种专题历史地图和专题历史地理信息系统。而且与通常采用相对封闭的专用系统不同,该系统集中体现了开放、通用、方便的设计理念,因而采用了相对开放的公共系统,即在中国历史地理信息系统CHGIS的基础上,先由专业GIS人员利用CHGIS提供的各种历史地理基础数据,开发出中国历史地理数字化应用平台。[※注]

台湾中研院所建立的“中华文明时空基础架构”系统完成于2000年,主要以《中国历史地图集》以及“当代数字中国电子地图”为基础数据,以“地理信息系统”(GIS)作为技术手段,而建立中国历史地理信息系统,旨在提供一个“时间—空间”的基础信息框架,并与多学科研究成果整合,发展出各种专题地理信息系统,进而促成多学科之间的交流,未来则朝向更丰富的人文地理信息系统发展,实际上也是一个“历史地理信息数据库”。该系统的主要优点,第一是数据库建设方面,系统的构成包括基础历史地理图资、WebGIS整合应用环境以及主题性空间信息三大部分,借此可以串联中国逾二千年历史地图之WebGIS应用机制。使用者仅需具备Web浏览器即能享有以GIS为基础之信息整合检索空间视算与图资制作功能此其一;其二是具有以分布式统合架构,整合因特网中各类型时空(Temproal-Spatial)信息的能力;其三是整体系统设计兼具可扩充性(S calability)、整合性(Integration)以及安全性(Security)等要求。第二个优点是信息平台应用方面,可以运用现代化GIS技术制作或修正或重制过去无法绘制的主题地图,配合时空坐标与地图底图,作为重新检证史料的有效方法,同时借由图层套迭从中发现过去史料所不易观察到的空间关系,并提供新的研究观点,抽取出史料中的量化资料进行空间统计分析,跨越传统计量史学的局限。除了作为互联网信息应用工具外,该系统也扮演信息整合的作用。不同学科的学者利用这个平台,可以非常方便地开发出各种各学科的专题地理信息系统,如考古地理信息系统、文学地理信息系统、经济史地理信息系统、环境史地理信息系统等。第三个优点是在项目合作方式方面,在项目设计之初即让从事历史、文学与信息等多方面的学者参与,比如将台湾元智大学中文系罗凤珠教授等“文学地理信息系统”纳入其中,并让罗凤珠教授等深度参与和主持,罗凤珠长期从事文学地理及其数字化研究,这样的合作方式值得其他类似项目借鉴。“中国历史地理信息系统项目”已经广泛为国际研究机构应用于中国历史教学与研究,透过“时间—空间”的基础信息架构,与多学科数字典藏内容整合,发展出各种专题地理信息系统,进而促成多学科之间交流,未来则朝向更丰富的人文地理信息系统发展。[※注]

浙江大学与哈佛大学地理分析中心(The Center for Geographic Analysis)合作共建的学术地图发布平台,2018年3月19日正式上线。鉴于中国长期没有综合性的学术地图发布平台,浙江大学决定与哈佛大学联手打造适合中国国情的学术地图发布平台,旨在为广大用户提供地理信息研究成果的发布、可视化分析及多功能查询服务。平台所形成的大数据,可为未来科学研究、政府决策及社会服务提供重要的参考。哈佛大学 WorldMap系统是其基于地理信息系统(GIS)技术建立的人文地理信息数据库可视化查询平台,世界各地学者可以在此平台上发表相关研究成果。譬如中国部分,就包括了人口统计、宗教、交通、城市研究、少数民族和语言、能源、环境、教育、气候、公共健康、经济、历史等诸多领域的地理信息数据和可视化地图。两校合建的学术地图发布平台,即依托哈佛大学World map系统,经过徐永明教授团队与哈佛大学在哈佛地理分析中心的共同努力,围绕海量的中国文史数据与地理信息的结合开展数据库的建设和空间分布的可视化分析,不仅密切了浙江大学与哈佛大学的学术合作,弥补了中国没有自主的综合性学术地图发布平台的空白,也为全球学者和学术爱好者研究中国文化、研究中国学者生平事迹特别是其在物理空间上的行动轨迹提供了便捷而实用的网络工具,有利于促进中国文化传播与中西文化交流,让全球互联网用户都能直接接触中国博大精深的文化与科学技术,让学者克服传统纸质文献的地理障碍而在虚拟空间内高效交流与碰撞。对于古代文学研究者来说,这一学术地图发布平台的意义和价值,在于可以为广大用户提供地理信息研究成果发布、可视化分析及多功能查询服务。

古代文学研究可资利用的专门性数据平台,以王兆鹏主持的“唐宋文学编年地图”,台湾元智大学罗凤珠、台湾师范大学郑锦全、“中研院”范毅军共同研发的“宋人与宋诗地理资讯系统”为代表,皆属于专门性的文学地理、地图信息系统。

王兆鹏主持的“唐宋文学编年地图”,原系国家社会科学重大招标项目“唐宋文学编年系地信息平台建设”,正式启动于2012年,至2017年3月底正式上线。该项目旨在通过整合以往的信息化检索与研究的成功经验,建立一个以唐宋文学为范本的文学地理信息平台:一是在编年的“时间之窗”之外同时加入了系地的“空间之窗”;二是利用GIS技术开发以历史地图为平台的信息系统,并配有与此相辅相成的“检索统计”功能。简言之,就是分“地图呈现”与“检索统计”两大板块。“地图呈现”即是将作家作品编年系地数据库与矢量化的历史地图整合,使作家作品编年系地信息在地图上得以呈现,设有“作家、时间、地点”三个窗口,用户可选择相关窗口查询和呈现每个年度、每个地点的作家活动经历和创作情况,其中“地点”窗口输入或下拉菜单中选择一个地名,即可在地图上呈现哪些作家何时在此地有活动和创作。“检索统计”板块有“查询显示”“统计生成”和“分析提取”三个窗口,可分别按作家、作品、年代、地名查询或综合查询;用户可按作家、年份、地点分别进行统计。总的来说,“唐宋文学编年地图”既是王兆鹏团队的重要研究成果,并为拓展至通代文学编年地图以及其他断代专地文学编年地图设计提供了经验与范本,但又通过设置相应的平台与功能而为学界所共享。[※注]

台湾学者罗凤珠主持的“宋人与宋诗地理信息系统”,于2005年上线。第一,该系统利用地理信息系统(Geographic Information System; GIS)记录宋诗及宋人的时空数据,以作为宋诗及宋人地理分布之研究;第二,该系统所采用的电子地图,是台湾中研院人文中心地理信息科学研究专题中心所建立的“中华文明之时空基础架构平台”(Chinese Civilization Time and Space),包括基本空间图资、WebGIS整合应用环境以及主题化的属性信息三大部分。基本空间图资以谭其骧先生主编之《中国历史地图集》为主要的基础,提供上古至清代,上下逾二千年的中国历代基本底图,并辅之以持续整理搜集之各类历史地图、遥测影像等基础图资。第三,该系统包括“宋诗诗题及诗序地名资料”“宋诗诗句地名及地理信息语意概念数据”与“宋人传记数据库”三个数据库。后来台湾中研院启动“中华文明时空基础架构”(Chinese Civilization in Time and Space,CCTS),遂将“宋人与宋诗地理资讯系统”纳入其中,彼此合二为一。[※注]该系统中的宋人分布地图、宋诗分布地图、宋诗语言分布地图,从宋代文人的分布迁移以及宋诗作品分布、宋诗语言的分布,以做文人、诗学、诗学语言的地理分布与影响研究、宋代文化变迁的研究等,可以直接为古代文学学者所借鉴和采用。

此外,中国社会科学院文学研究所刘京臣2012年获国家社科基金青年项目“宋代文学地图数字分析平台研究”资助,近来已发表阶段性成果《大数据时代的古典文学研究——以数据分析、数据挖掘与图像检索为中心》(《文学遗产》2015年第3期)、《数据视阈中的文学地理学研究——以〈入蜀记〉〈北行日录〉等行录笔记为中心》(《文学评论》2017年第1期)。其《大数据时代的古典文学研究》提出随着大数据、云计算、图像检索等技术的发展,古典文学信息化的重点应当由数据检索向数据分析、数据挖掘转型。在图像处理领域,针对疑难文字的OCR技术与利于版本校勘的图像检索,是值得期待的方向。

以上这些信息系统大体兼具储存、传输、显示与再生的多重功能,也是目前能为古代文学研究提供的信息技术支撑的最高层级。诚然,从信息技术的强大功能及其与古代文学研究深度结合的更高要求来看,目前的应用成果还是相当有限的,其中存在着两个方面的困境:一是信息源问题,需要研究者进行大量的基础研究,从而为数字化平台源源不断地提供高质量的信息源;二是跨界合作的问题,因为从事古代文学研究的学者几乎没有受过信息技术的专门训练,普遍缺乏熟练掌握和运用信息技术的能力,而从事地理信息技术的学者又往往缺乏文学研究方面的专业训练,普遍缺乏文学研究所需要的知识体系与感悟能力,所以只有两大群体的紧密合作,扬长避短,才能臻于信息技术与古代文学研究深度结合的理想境界。可以预期的是,随着人工智能的深度开发与普及,古代文学研究的信息化、网络化、智能化会有一个更为广阔的发展空间与前景。

四 古代文学研究数据化应用的讨论

进入21世纪以来,随着信息技术在古代文学研究中应用的日益普泛,对相关技术与方法的探讨开始进入学者的关注视野,其中古代文学研究数据化应用的讨论,以古代文学研究界为主体,同时也吸引了信息技术界学者的积极参与,彼此在实践探索的基础上进一步走向理论思考和探讨。

王兆鹏、尚永亮结合自己定量分析研究的切身体会,对古代文学研究数据化应用提出了自己的看法。王兆鹏《电子古籍文献检索资源概述》主要对光盘数据库与网络数据库作了简要介绍,同时提请同行电子文献检索的注意事项。[※注]后来又有《三大功能:对未来数字化古籍的期待》《利用GIS技术提升中国古代文学研究的数字化水平》等文。前文重点探讨了未来数字化古籍的三大功能,以适应专业研究者的需求:一是智能化的检索功能,即由单一检索变为多元检索、由定向检索变为关联检索、由静态检索变为动态检索;二是自动化的统计功能,即能根据研究者不同的需要,自动统计各种数据;三是多元化的对比功能,如自动进行版本的文字对比、作者归属对比、所收作品的数量对比、同一作品类型的不同形式特征的对比等;[※注]后文重点思考数字化技术带给我们古代文学研究的,难道仅仅是海量古籍文献资料的储存与检索,我们能不能利用数字化技术,将古代文学研究的数字化水平提升到一个新的阶段?我们能不能设想,将历代总集、各种文学编年史、相关研究成果中的作家作品编年资料,进行数字化集成,使之既具有检索功能,又具有统计分析功能?本着这一思路,可以联合相关数字人文领域的专家组成团队,利用地理信息系统(GIS),将我国浩瀚的、静态的、分散的纸质文学史料,进行大规模的数字化集成、发布和地图展示,建立多功能的中国文学数字化地图资源共享平台。以深度开发中国文学宝库中的多元文化价值,适应和满足数字化时代文化建设、学术研究和教学的深度需求,不仅可以中国文学数字化地图平台,将文学纸质史料集成化、数字化、图表化、可视化,具有资料查询、数据统计、地图生成等功能,而且会改变文学史研究的视角、维度和书写模式。[※注]此即作者后来主持“唐宋文学编年地图”研究与开发的由来,也是从定量分析走向平台建设的重要转折。

尚永亮《数据库、计量分析与古代文学研究的现代化进程》一文根据自己研究的切身体会,强调数据库的建设非常重要,它可以对学术研究的学理性、准确性、科学性提供保证,能在最大范围内掌握相关文献资料,在最大程度上以最便捷的方式为相关论断提供支撑。就古代文学数据库的建设而言,则应当统筹布局、合理分类,同时要强化关联、动态管理;这就需要学者具有强烈的问题意识,并提高应对现代高科技的技能。而在使用定量分析方法的时候,应力求基本数据的准确,注重多层次、多角度展开分析,从关联和比较角度进行考察。在具体操作时,还要处理好文献缺失所带来的问题,衡定不同数据的权重,并做到定性与定量相结合。[※注]这无疑从宏观层面对信息技术在古代文学研究中的应用提供了理性的思考。鉴于图书文献资料数字化的不断发展,利用数量巨大的电子资源进行学术考据研究给学者带来了很大的便利,E考据在文本电子化时代应时而出,并在文史研究领域获得广泛应用,同时也引发了广泛的争议,尚永亮《E考据与文史研究随想》一文也对此作了理性中肯的分析,认为利用E考据进行文史学术研究,大致可分三个层面:一是进行关键词检索,为研究积累海量资料;二是要有明确的问题意识,从历史语境出发,科学地提出问题,利用E考据方法进行多角度、多层面的词语查询;三是依据E考据,构建完整、全面的学术数据库。最后提出一种好的、行之有效的方法,本身应有完备的理论支撑,它诉之于学术的,不只是一种解决问题的工具,更应是一种理念、一种观察问题的视角,只有这样,它才能从形而下的“器”,升格为形而上的“道”。[※注]

李炳海《中国古代文学的定量、定性和定位研究》、唐磊《试论古代文学研究中计量方法的应用》等文则对古代文学研究中的统计与计量方法进行了探讨和分析。针对信息技术为古代文学研究提供了便利,但是数据的采集、标准的择定都有客观条件的限制,从而会影响结论的准确性,李炳海提出“中国古代文学研究应该把定量、定性和定位结合起来,建立起三维的观照系”,即为了避免定量分析的无序性,“在进行定量分析时,必须以类别划分为基础,按照类别进行统计。在此基础上,再进行类别之间的比较”;定性研究则需要做到研究对象的结构形态和功能效应相结合;而定位研究则需要突出文学史意义,以发现原型为宗旨。[※注]唐磊则认为计量方法从史学、语言学逐渐渗透进入文学领域,而且统计变量越容易确定的领域越便于使用计量分析;在具体研究过程中,定性是定量的前提与基础,定性的严谨可靠程度直接影响到定量分析的结果;要正视这一方法带来的误差,有时候“在文学的计量研究中,统计结果显著不等于实际意义一定显著”;而计量方法的使用总是伴随着其他理论或者有他种研究立场,因而只显示出一种新的趋势而尚未成为独立的研究方法。[※注]

李铎作为《全唐诗》与《全宋诗》检索分析系统的开发者,在古代文献信息化方面有着独到的体会。他在与王毅合作的《关于古代文献信息化工程与古典文学研究之间互动关系的对话》中指出,信息技术在古代文学研究领域内的广泛使用,将有力促进全景式的穷尽研究,会派生出新的研究选题,产生新的研究方法,不过人机之间也有权界问题,并非所有问题都适合用计算机来解决。他还特别指出了当下古籍信息化过程中的缺失,主要包括语料库不标准、理论方法不成熟、人文学科研究人员与计算机专业人员不能很好地结合、缺少有体系的研究团队。[※注]此文发表后学界反响热烈,李铎、王毅又在《数据分析时代与古典文学研究的开放性空间》作了进一步回应,认为从信息技术应用于古典文学研究着眼,分析了计算机在检索时代为人文科学研究提供了极大的便利,促进了人文学科研究的发展。计算机的使用不仅不会缩小学者的研究范围,反而会拓展学者在人文学科研究领域的学术空间。计算机在古代文献整理研究方面不仅可以提供各种检索手段,更重要的是,可以利用信息技术对诗歌风格、作家风格、作品时代分析等展开多角度的研究。[※注]这一认识在李铎此后的《从检索到分析》的思考中得到了进一步深化。他以《全宋诗》分析系统为例,强调计算机“自己在做学问”,“从检索时代发展到分析时代,由被动应答到提供知识服务”,而这必将对相关学术研究产生颠覆性的影响。[※注]

郑永晓对李铎的观点表达了认同,其《古籍数字化与古典文学研究的未来》主张“将计算机与人脑的长处和优势结合起来,将为古籍整理和古典文学研究注入一股强大的新生力量,在资料采集、推理求证、综合分析等方面带来思维方式和研究方法的革命,从整体上促进学科发展水平的大幅度提高”;同时指出文献信息化过程中亟待解决的一些问题:版本意识淡薄、字库设计不规范、缺乏合适的程序设计语言。[※注]鉴于计算机与人在不同领域的各自优势,郑永晓又在《技术与心智的互补》中指出,在文献(文集、别集)整理、历代作家作品资料的整理方面,计算机大有可为;而对文学作品的审美鉴赏和对文学史发展规律的分析层面上,更需要的是人类心智思维活动的创造性工作,计算机具有局限性;因而“计算机的精确计算与人的心智和审美能力相结合,才是未来学术的发展方向”。[※注]

最后简要介绍一下2018年10月15日《光明日报·文学遗产》的一组笔谈文章,编者按曰:“随着数字人文技术的发展,数据分析的技术和方法越来越有针对性和强效性,能清晰地揭示隐藏在文学史背后的作家与社会之间、作家与作家之间、文本与文本之间的直接与间接、显性与隐性的多种关联,能以全知型的视角系统整体地还原和呈现文学史的立体景观,改变传统的思维方式和文学研究范式。”“为推进数字人文技术在古代文学研究中的应用与突破,本期约请清华大学中国古典文献研究中心数字人文研究团队的刘石、孙茂松、张力伟和刘京臣四位先生从不同的角度笔谈他们的构想和规划。刘石、孙茂松先生构建了古典文学研究的分析模型,刘京臣先生阐述了基于社会网络分析的文本与人物研究的理路,既有理论的前瞻性,也有方法的可操作性;张力伟先生提出了建设‘中国古典知识库’(CCKB)的宏大构想,令人期待。”四人三文的具体论题是:刘石、孙茂松《大数据时代的古典文学研究》,刘京臣《社会网络分析与文学研究》,张力伟《走向深度学习——大数据背景下“中国古典知识库”的构想》。刘石、孙茂松一文认为,现阶段数字人文研究的主要技术方法,包括机器学习与人工智能、数据库建设、计算语言学、社会网络与地理信息系统、数据与文本挖掘等方面。这些技术方法可分别用于古典诗歌分析系统的尝试、作家生平事迹研究、古典小说研究、文本与人物研究、文体与文论研究,涵盖了古典文学研究的主要方面。然后以先秦至明清品类纷繁的古代文学经典文本为中心,利用计算机、统计学、信息科学等学科的新兴技术手段,构建了一个古典文学研究大数据分析模型,并期望在以下三个方向有所推进:一是重新验证已有成说的经典史论问题;二是解决人力难以彻底解决的疑难问题,为作品归属、重出异文、改编续写、风格流派、文类划分等提供新的证据、思路与方法;三是超越主观感受与印象分析层面,科学梳理文学史长时段中存在的特征、规律、关联性问题。最后,作者引录美国康奈尔大学教授杰弗里·汉考克(Jeffrey T.Hancock)所言:“这是社科研究的一个全新时代,就好比显微镜的诞生对化学科学发展所起到的促进作用”,再次重申了大数据思维为人文社会科学研究的变革与创新带来了千载难逢的历史机遇;同时又强调指出,古典文学研究中新技术手段的应用需要充分依靠计算机科学和统计学的专业技术,也必然会促进学术研究人力资源的整合,倒逼跨学科合作研究的开展。但文学性问题的提出和分析处理不可能完全交给机器,也就不可能完全交给技术专家。相反,从问题的设置到语料的选取再到分析结果的解读、意义的阐释、体系的建构等,都将由古代文学和文献学相关领域高水平的专家学者完成。可见这是一篇颇有深度的论文,也是古代文学研究数据化应用讨论的最新收获。

显示更多

相似文献

引用

引用格式:

版权所有:中国社会科学出版社

备案号:京ICP备05032912号-3

京公网安备:11010202010108号

地址:北京西城区鼓楼西大街甲158号

售前咨询:010-84050797

售后服务:010-84050797

  • 请关注“中国社会科学年鉴”微信公众号

    关闭