吴夏平 | 古籍数字化与古代文学研究新变化

文摘   2024-08-09 09:49   上海  


古籍数字化与古代文学研究新变化


吴夏平



摘 要:古籍数字化与古代文学研究之间的关联属于技术与学术关系范畴。从书籍史视野看,数字化古籍与之前的写本及印本是共存而非替换关系,这是研究古籍数字化相关问题的重要前提。基于技术进步和标志性成果,古籍数字化四十余年历程大致可分起步、发展、兴盛三个阶段。这种划分只是为了方便对以往过程的理解和认识,从未来发展着眼,既有历程只不过是新事物的一个开端。大数据时代的古代文学研究,以知识发现、文献转型、大数据思维为基础,朝着时空结合、历史现场还原、可视化呈现、文本情感分析及多模态情景生成等新方向发展,为传统学术提供了新观念、新视野、新方法和新思路。从古籍数字化考察古代文学研究的新变化,不仅具有重要的方法论意义,而且也有重要的学术史价值。


关键词:古籍数字化;古代文学研究;知识发现;文献转型;可视化



吴夏平,上海师范大学人文学院教授、博士生导师,主要从事中国古代文学与文化、中国古典文献学研究。


如果从上世纪八十年代初算起,古籍数字化已走过四十余年发展历程。在此过程中,不少学者敏锐地发现古籍数字化对学术研究的重要作用和影响,发表了一些具有重要启发意义的论文。如王兆鹏、刘石、郑永晓、李铎、徐永明、刘京臣等,不仅注重理论阐发,而且将理论与实践结合起来,为探索大数据时代古代文学研究的新方向提供了实证范例。若干年前,笔者也开始关注古籍数字化现象,曾对数字化与古代文学研究的相关问题发表过一些不甚成熟的看法。本文拟在前人基础上,结合当前古籍数字化成果,从历史视野和发展历程出发,就大数据时代古代文学研究中的知识发现、方法转型、视野新变等问题试作分析。


1

古籍数字化考察的书籍史视野
ONE


古籍数字化是以现代技术手段对古籍进行数字化加工,以便机器读取和处理的过程。由此形成的数字化古籍是传统书籍的一种现代形态。从这个角度看,对古籍数字化的认识,首先要将其置于整个书籍史发展中,才能获得对其在技术与学术关系范畴中的准确认识。

从技术与学术关系看,中国古代书籍史的发展大致有三个重要节点,一是纸张发明,二是印刷术广泛使用,三是数字技术普及,由此形成书籍发展史上三个重要阶段。在纸张发明之前,书籍形态主要是竹帛。先秦时期,甲骨和铜器等虽也用作书写材料,但这种书写形式是非常态的。甲骨文主要记录占卜的内容,铜器铭文主要刻写与祭祀、战争等有关的重要历史事件,因此甲骨文和铜器铭文是特殊情况下的书写行为。先秦时期经常使用的书写材料主要有木牍、竹简和丝帛,由此形成与之相关的书籍概念,如编、册、典之类。例如,“韦编三绝”的本义是以牛皮串连的书简断了多次,后引申为读书勤奋。“册”的本义是指用绳编连的竹简。“典”是一个会意字,上部分指的是“册”,下部分是双手,合起来是捧着书册,后来也指重要典籍。受书写材料和工具影响,在纸张广泛使用之前,书籍抄写不易,书籍传播速度和范围也很受限制。汉末魏初,纸张开始较广泛使用,书写载体发生变化,由此改变书籍抄写和知识传播方式。例如,三国时期魏国缪袭等人奉命编纂大型类书《皇览》六百余卷,对知识进行了系统分类。书籍装帧形式也发生变化,出现卷轴装、蝴蝶装、经折装、包背装等不同形态。书籍载体、阅读以及写作方式变化,使知识在更大范围内传播。

唐末五代,雕版印刷技术开始被使用,佛道经典、儒家典籍、文学总集、文人别集都在不同程度上被刊刻印刷。不过,时人也认识到雕版印刷技术的负面作用。苏轼曾指出雕版印刷对文人的影响:“余犹及见老儒先生,自言其少时欲求《史记》《汉书》而不可得,幸而得之,皆手自书,日夜诵读,惟恐不及。近岁市人转相摹刻,诸子百家之书,日传万纸,学者之于书,多而且易致如此,其文词学术,当倍蓰于昔人,而后生科举之士,皆束书不观,游谈无根。”叶梦得也说:“唐以前,凡书籍皆写本,未有模印之法,人以藏书为贵,人不多有,而藏者精于雠对,故往往皆有善本;学者以传录之艰,故其诵读也精详。五代冯道始奏请官镂《六经》版印行,国朝淳化中,复以《史记》、前后《汉》付有司摹印,自是书籍刊镂者益多,士大夫不复以藏书为意,学者易于得书,其诵读亦因灭裂。然板本初不是正,不无讹误,世既一以板本为正,而藏本日亡,其讹谬者遂不可正,甚可惜也。”苏轼和叶梦得都发现,在雕版印刷时代,由于书籍比较容易获得,人们反而不大读书。叶梦得还进一步指出,人们多读印本书,对印本源头的抄本不大关注,随着抄本不断散佚,印本中的错误也无从校正。由叶梦得所言还可以知道,在印本时代,写本与印本是共存的。也就是说,印本与之前的写本是转换关系,而非替换关系。同时,这也提醒研究者注意,印本时代并非所有书籍都为印本,还有大量书籍是以写本形式传存的。

古籍数字化是书籍发展的第三个重要节点。数字化古籍与原始文献的关系,同样不是替换而是共存关系。也就是说,古籍文献在数字化之后,书籍具有多种形态,包含数字化形态以及之前的写本和印本形态。数字化只是利用现代技术手段对原有古籍进行数字化处理,原有古籍并未由此消失。因此,在数字化时代,也会出现如苏轼和叶梦得所说的各种问题,其中数字化古籍与原始文献之间的形态关系,是需特别关注的重要问题。

2

古籍数字化发展的三个重要节点
TWO


大致上说,古籍数字化经历了三个发展阶段,每个阶段均为一个重要节点,由此形成古籍数字化发展主脉。

第一阶段为20世纪七八十年代。此为古籍数字化起始阶段。古籍数字化可以追溯到上世纪四十年代末,意大利耶稣会士罗伯托·布萨Roberto Busa)IBM公司合作,利用大型计算机制作了托马斯·阿奎那著作索引,称为Index Thornisticus。六十年代,《计算机与人文科学》杂志诞生,标志着人文计算的正式兴起。1978年,苏联《高等学校通讯》杂志发表了M.安德柳辛科介绍电子计算机用于人文科学的文章。作者指出,在经济学、语言学、心理学、社会学、法学等领域,应当培养一批使用电子计算机的人,同时,在建立与人文学科相关的计算体系时,应有人文学科的学者参与。这篇文章提出“电子计算机与人文学科”的关系问题,为后来数字人文发展提供了理论基础。1980年4月23日,法国J.孔特律西在《世界报》撰文说,电子计算机已经进入属于人类智慧的领域即非形式化智力活动领域。该文详细介绍了法国国立科学研究中心于1975年成立人文科学电子计算机实验室,该实验室负责人说:“借助于电子计算机,我们可以进行近似于人的逻辑运算那样的推理。

在“计算人文”大背景下,一些学者和科研机构开始尝试对中文古籍进行数字化。1978年,美国P.J.lvanhoe等人运用计算机编制了《朱熹大学章句索引》《王阳明传习录索引》《戴震孟子字义疏证索引》等。1983年,我国召开的全国语言学学科规划会议上,专门介绍了电子计算机在语言学上的应用,同时确立在《论衡》《朱子语类》《儿女英雄传》三部汉语史专书中用计算机编制引得。上世纪八十年代中期开始,中国社会科学院栾明贵等人尝试研制《全唐诗》《红楼梦》《全宋词》等数据库。从1984年开始,台湾“中央”研究院和各高校着手进行古籍数字化工作。从八十年代末开始,香港中文大学中国文化研究所下属“汉达古文献数据库中心”,陆续开发的全文数据库,包含了甲骨文数据库、竹简帛书出土文献数据库、金文全文数据库、先秦两汉一切传世文献数据库、魏晋南北朝传世文献数据库、中国类书数据库等。

受当时技术条件等因素限制,上述成果还存在诸多不足,但也应看到,此阶段主要贡献是使古籍数字化发生了从无到有的变化,为后来继续推进奠定了重要基础。

第二阶段为20世纪九十年代至新世纪初。此期属于古籍数字化的发展阶段。首先是观念改变,虽有不少学者提出要警惕计量分析在传统文化研究中的负面影响,但整体上认同者居多。基于此种认识,各大高校图书馆开始对馆藏图书目录进行数字化。1993年,中美两国学术机构联合编制中文古籍善本书机读目录。藏书目录和古籍书目的数字化,极大地提高了图书检索效率。一些图书馆着手对馆藏特色文献进行数字化,如上海市图书馆建立了一套“古籍影像光盘制作及检索系统”,包括“标引建库制作子系统“存储及检索子系统”。辽宁省图书馆利用IBM的TDI数字相机对古籍进行数字化加工,形成了古籍精选、历史存照等内容。1998年,中国国家图书馆启动“中国数字图书馆工程”,与古籍有关的数字化内容主要有数字方志资源库、石刻拓片资源库、甲骨文献资源库、馆藏各类文献书目数据库、《永乐大典》资源库等子项目。

此期最有代表性的全文检索数据库是《文渊阁四库全书》电子版,由香港迪志文化出版有限公司与上海人民出版社合作研制。该数据库设置汉字关联、联机字典、标点笔记、四库大词典等多种辅助功能。文本版页面跟图像版页面对应,可以随时调出图像页面查阅原书。但受字库限制,有些异体字和特殊版式,跟原书不尽一致。此外,较知名的全文数据库还有百衲本《二十四史》《四部丛刊》《古今图书集成》《续资治通鉴长编》的光盘电子版等。值得特别介绍的是哈佛大学开发的“中国历代人物传记资料”(CDBD。此库由郝若贝(Robert M. Hartwell)教授创办,他去世后由包弼德(Peter K. Bol)教授主持。其开发工作由哈佛大学费正清中国研究中心、台湾“中央研究院历史语言研究所及北京大学中国古代史研究中心三方合作进行。

与上阶段相较,此期主要特点:一是参与主体从之前的单一化转向多样化,不少图书机构、科研单位、商业公司纷纷加入古籍数字化队伍。二是充分展示了古籍数字化工程的学科交叉与团体合作性质。三是开发对象主要面向古籍书目和重要典籍。

第三阶段为新世纪初迄今。此为古籍数字化的兴盛阶段。进入21世纪,古籍数字化日新月异。此期主要特点是:其一,以“中国古籍基本库”“国学宝典”“中华经典古籍库”等为代表的数字化成果,表明研发主体已突破原有格局,形成商业团体、科研单位、出版机构鼎足而三的新局面。其二,在横向上,突破以重要典籍为中心的传统格局,数据库类型更加多样。例如,北京爱如生数字化技术研究中心在“中国基本古籍库”之外,还研制了“四库系列、方志、谱牒、金石、丛书、类书、辞书、儒学、史学、俗文、佛教经典、道教经典、中医典海、历代别集、敦煌文献等十余种数据库。其三,在纵向上,由典藏向量化分析、数字人文平台等方面发展。“爱如生”系列数据库、“国学宝典”“中华经典古籍库”“瀚堂典藏”,以及各馆藏特色古籍文献的数字化成果等,都属于典藏类。典藏类数据库主要目的是通过数字化,实现对古籍内容保存和传播,同时实现分类、字段、全文等方面的检索功能。量化分析型数据库与此不同,主要有两种类型:一是数字化索引型,一是分析平台型。数字化索引型,如“先秦诸子系年”“十三经语词索引”“全唐五代宋词索引”“全元文篇名作者索引”等,其特点是可对内容进行提取和重新整序,形成高度结构化和规范化的形式,有利于计算机进行大规模统计分析,如“全唐五代宋词索引”,可从作者、词牌、词牌正名、首句、字频表等进行检索和统计分析。分析平台型数据库,如“中国地方历史文献数据库”“清代粮价数据库”等,其特点是可对检索结果进行统计分析、对检索结果的关联文献进行聚合、检索结果可视化。数字人文平台是从典藏、量化分析发展而来的新的数据库类型,如王兆鹏教授开发的“唐宋文学编年地图”,徐永明教授研制的“智慧古籍平台”等,可实现从数字化向数据化以及知识关联等新的学术目标。其四,海外中文古籍数字化。一些海外大学和科研机构,如哈佛大学哈佛燕京图书馆、日本东京大学东洋文化研究所、韩国成均馆大学尊经阁等,对所藏汉籍进行数字化,建立了多种海外汉籍数据库。其五,中西汉籍合璧工程。如郑杰文教授等主持的“全球汉籍合璧工程”,对海外藏珍稀汉籍进行调查,正在建设“合璧工程数据库”。“汉典重光”项目由阿里巴巴公益基金会、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆合作开展,旨在寻觅流散海外的中国古籍并将其数字化、公共化。据“汉典重光”平台介绍,首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,公众可通过该平台翻阅、检索古籍

以上仅为古籍数字化既往历程的简单梳理。实际上,从未来发展看,近半世纪的古籍数字化工作只不过是新事物的开端。


3

古籍数字化与知识新发现
THREE


借助网络环境,古籍数字化不仅加快了书籍传播速度,扩大了传播范围,而且在发现新材料方面也有重要意义。这是因为:第一,受古籍数字化大潮影响,图书机构纷纷推出馆藏特色文献。第二,为追求利益,商业公司为避免同质化,古籍数据库制作力求新颖、全面、精确。第三,公益机构有意识地搜求海外汉籍善本。这样一来,就极大地丰富了可利用的古籍文献。现有古籍全文数据库提供了大量以往未知或不被关注的文献,毫无疑问,这些新文献都属于学术研究的新材料。

在发现新材料之外,通过数据化、语义关联等技术,可实现数字化古籍的知识聚合与重组、古籍数字化再造等智慧化功能,由此发现新知识。

数字化是数据化的基础,但数据化不等于数字化。数字化是利用计算机对原始古籍进行处理的过程。而数据代表着对某一件事物的描述,数据化是记录、分析、重组数据的过程。未被数据化的数字化信息是零散的、孤立的,不能与其它信息产生关联。只有被数据化之后,知识和信息之间才能建立联系。而其联系的产生,所依赖的是被描述。

语义是指数据所对应的现实世界中的事物所代表的概念的含义,以及含义之间的关系。语义关联是指通过语义建立起来的知识和信息之间的关系。在数字化古籍中,目前检索方式多为字形匹配检索。例如,在《四库全书》电子版、“中国基本古籍库”等数据库中检索“李白”,只能得到与“李白”这个词的字形匹配的结果。事实上,“李白”的涵义不仅仅为“李白”,还包括李太白、青莲居士、诗仙、李翰林、“大李杜”等等。但是这些与“李白”相关的信息,在以字形匹配检索方式下是无法检索出来的。模糊检索或许可以解决这个问题。模糊检索建立在同义词库基础之上,而同义词库的制作,并非计算机专业技术人员所能完成,需要不同领域专家的通力合作。一些基于网络环境的开源性知识库会逐渐建立并完善同义词库。不过,同义只是语义关系的一个方面。语义关系可以划分词汇语义关系和文本语义关系两个层面。词汇语义关系又可分为等级(整部、上下、属种、实例)关系、属性关系、等同(同义、反义、近义、等价、又见)关系、方式关系。文本语义关系又可分为相关、引用(被引)关系、论述关系、逻辑(因果、目的、条件、让步、时间、地点、蕴含)关系。通过词汇语义和文本语义建立的语义关联,是实现知识聚合和重组的重要条件。例如,“中国历代人物传记资料库”和“唐宋文学编年地图”等平台,注重人物关系图谱的分析和可视化呈现。“智慧古籍平台”中的关系图谱又分世系图和社会关系图两种,由此可实现知识的聚合和重组。


4

从传统文献学到数字文献学
FOUR


随着古籍数字化不断深入,文献的概念也不断发生变化。文献计量单位从传统的部、册、卷、篇、页、段、行、句等,向基本储存单元(位、字节、字)、扩展存储单元(KB、MB、GB、TB、PB)等转变,文本越来越多按媒介、容量、格式等分类。传统文献学向数字文献学转变,主要途径是通过技术手段将原始文献碎片化和颗粒化,再将这些数据标准化,以检索、建模、算法等方式实现知识的重新关联。以下主要以目录学、辑佚学、校勘学为例来说明。


(一)数字目录学

古籍书目与现代书籍目录不同。传统目录学素为专门之学,王鸣盛《十七史商榷》说:“目录之学,学中第一紧要事。必从此问途,方能得其门而入。”同时学者金榜亦称:“不通汉《艺文志》,不可以读天下书。艺文志者,学术之眉目,著述之门户也。”张之洞《书目答问》:“读书不知要领,劳而无功。”龚自珍《六经正名》:“微夫刘子政氏之目录,吾其如长夜乎!”这是前人对传统目录学重要性的认识。数字时代的古籍目录整理有两个基本工作,一是对图书馆等所藏古籍文献的数字化著录,以便于读者检索;二是对传统目录学著作进行数字化,如“国学宝典”史部“书目类”,对《崇文总目》《郡斋读书志》《直斋书录解题》《四库全书总目》等数十种著作进行了数字化。“中国历代典籍总目分析系统”是目前对古籍书目进行数字化的代表性数据库,具有多种检索功能,依据检索结果可生成可视化图表。但该系统也还存在一些缺憾,如缺少时间、空间及各元素之间的关联数据支持、关键的编撰者信息缺乏,因而无法从更多维度进行分析。因此,有必要通过扩充与古籍相关联的人物信息、时间、地名等知识,把不同类型、不同颗粒度的古籍文献内容关联、整合和集聚起来,建立古籍知识关联网络,实现古籍知识存储、编辑、标引、知识挖掘和知识发现等功能。在构建的典籍知识图谱中,编撰者实体包含朝代、生辰、字、号、别号、谥号、职业、籍贯、人物标签、代表作品、成就、官职等属性,主要通过三种方式获得:结构化数据信息抽取,如“中国历代人物传记库”、《中国历史人物辞典》等人名辞典;半结构化数据信息抽取,如在线百科类;非结构化数据信息抽取,如搜索网页。

数字目录学发展的新方向是典籍知识图谱。有研究者指出,依据国际图书馆协会联合会编制的《书目记录的功能需求》规范,在此基础上采用“作品—版本”的形式来进行表达,从概念(concept)上典籍知识图谱可归成Work、Person、VersionPlace四类,分别为作品、人物、版本、地名。最终形成的典籍知识图谱由来自于全球743家图书馆、科研院所等所藏的250万余中国历代存世典籍信息组成,其中包含古籍实体649549种、典籍责任者221783位、古籍版本1498383个、地名节点13960个,这四类节点及其之间的关系构成一个庞大的典籍知识图谱,节点、属性及边等形成了一个立体、多维、多用途的古籍知识关联网络

对传统目录学的研究,也可采取数字方法重新切入。例如,运用基于神经词向量的K-means++、Gaussian Mixture Model和Spectral Clustering模型,对 《汉书·艺文志》中的存世文献进行自动聚类。结果显示四分至六分的聚类较为稳定有效,并进一步提示,书目在古代文化中已超越单纯的分类目录,成为富有潜在影响力的思维方式


(二)数字辑佚学

传统古籍辑佚,主要依靠索引、词典之类的工具书提供相关信息,再通过人工翻检、抄写、排序,既耗费人力又难免缺漏。古籍数字化时代的辑佚工作相对容易,可以通过以佚书的书名、作者、某些片段作为关键词,在全文古籍库中进行检索的方式来完成。理论上讲,古籍库收书数量越大,则辑佚内容越完善。此外,还可以通过机器自主学习来实现古人别集作品的辑佚。基本步骤是:首先对辑佚对象进行数据挖掘,将其篇目、作品、类型等进行标注。其次,挖掘意欲爬梳的文献,将文献中涉及的作者姓名、别集名称的同义项、文献中直袭或化用目标作者的作品处等,都进行标注。这样就可以实现机器对辑佚工作的辅助。例如,研究者利用这种方法对魏野《东观集》进行辑佚,发现了不少佚作。因此,有学者认为,随着数字化古籍库不断增加,未来的辑佚工作可由机器代替。不过,机器虽可完成检索和汇聚佚文的工作,但并不能代替专业学者对材料真伪的辨识以及对原书体例的准确理解。因此,要真正恢复一部佚书的原貌,应由专业学者借助机器辅助共同完成。


(三)数字校勘学

传统古籍校勘,主要通过选择善本为底本,再校以其他各种本子的方式进行。陈垣先生提出对校、本校、他校、理校四种方法,是以往古籍校勘常用之法。数字化古籍在对校、本校、他校中能发挥更好的作用。对同一种古籍的不同版本,采用全文比对或者关键词定位等方式,不仅能提高校勘速度,更能进一步提升校勘质量。例如,周文业先生开发的“中国古代小说数字化软件”,可以逐字比勘同一小说的不同版本的文字,自动生成校记,据此发现和解决了不少与版本、校勘相关的学术问题。李铎教授开发的“全唐诗分析系统”和“全宋诗分析系统”,可以自动查询作品的重出互见。一般而言,只要能利用的数据库中的古籍版本足够多,同时又能图文对照查看原书图像,则借助数字化古籍来辨析古籍版本、梳理版本流传,进而实现文本校勘的工作效率,要比传统方法高得多。在理校中,数字化古籍库虽然也能起到相应辅助作用,但在发现问题和推定结论等方面,更需要依靠校勘者的专业素养。


5

大数据时代古代文学研究的新变化
FIVE


上述由古籍数字化引起的知识新发现、文献学从传统向现代转型等,是大数据时代古代文学研究新变化产生的重要基础。从研究实践来看,大数据时代的古代文学研究主要发生了以下几方面新变化。


(一)“e时代”的考据学

传统考据学提倡多重证据法。陈寅恪先生曾将其归纳为三点:一是“取地下之实物与纸上之遗文互相释证”,二是“取异族之故书与吾国之旧籍互相补正”,三是“取外来之观念,与固有之材料互相参证”。概括来讲,陈先生强调的是考据材料广博与方法多样。大数据时代的考据学在这两方面都有新发展。最早提出“e考据”概念的是台湾清华大学黄一农教授。他认为:“随着出版业的蓬勃以及图书馆的现代化,再加上国际网路和电子资料库的普及,新一代的史学工作者常拥有博闻强记的前辈学者们梦寐以求的环境。我们有机会在很短时间内就掌握前人未曾寓目的材料,并填补探索历史细节时的许多隙缝,或透过逻辑推理的布局,迅速论断先前待考的疑惑或者矛盾。事实上,一个有机会孕育‘e-考据学派’的时代或已出现。”基于“e考据”理念,其《两头蛇》一书充分利用网络文献和数字化古籍来考察明末清初的第一代天主教徒,所利用资料多达1099种。这在前数字时代是很难想象和实现的。在观念和方法方面,数字时代的考据学也有新变化。这种变化主要表现为通过网络和数据库,更易发现和建立人物、事件、时间、地点、文本等事物之间的关系。例如,有学者利用“中国历代人物传记资料库”、“《天一阁藏明代科举录选刊》数字资源数据库”以及数字化方志、宗谱等数据库,梳理了明代浙江余姚进士家族之间的关系,以及家族内部各自不同的经学传承。借助数字化资源,发现并解决了传统方法难以实现的学术问题。

不过,值得注意的是,数字时代的考证会因知识遮蔽而出现误判现象。所谓知识遮蔽,主要是指知识因未被选择而被遮蔽,技术在对一部分知识进行筛选和固化时,使另一部分知识淡化、边缘化,或者说被遮蔽。古籍数字化要从海量古籍中选择处理对象,在这个过程中,一部分古籍被数字化,另一部分则因未被选择而被舍弃。其结果使那些未被收入数据库因而被遗忘的文献,无法被检索,进而影响研究结论。上述黄一农对明末清初天主教的研究即如此。虽然作者利用了千余种文献材料,但还是难免出现将瞿汝夔的母亲支氏误认为谭氏的错误。其成因正如学者所指出的,并非检索本身出了问题,而是他检索的数千种文献中没有关键性的氏家谱。 


(二)时空结合的文学研究

以往研究唐诗,多关注作者籍贯的空间分布。这种静态研究当然也有一定学术意义,但不能展示诗人动态的创作变化。如果将诗歌的创作地点考证清楚,创建一个较大型的“唐诗创作地数据库”,再将其与“唐文人籍贯数据库”结合起来,则可以通过各种分析,揭示诗人空间流动与诗歌创作的关系。如果将数字化古籍与GISGeographic Information System)地理信息系统建立联系,则可发现并解决更多学术问题,如中国历代作家在不同时期的地域分布状况,自先秦以来中国历代作家在不同地域的消长历代作家的迁徙与文化重心之转移作家群体的诞生、嬗变与其地域之分布,家族文化与文学在不同历史时期的演变,具体作家在不同年月的创作情况及其作品在不同地域的分布,作家文集在不同时代、不同地域的流布、刊刻,精确描述文学事件、作家活动与编年文学史写作,作家年谱的编纂,著名作家在不同地域、不同历史时期的影响研究等。借助Arc GIS、MapInfo、Google Earth等软件中国历代人物传记资料库”与“中国历史地理信息系统”的数据整合在一起,可以帮助研究者在大量传记数据中归纳出一定的研究模式。

时空结合的文学研究,主要解决过去研究中时间和空间无法同时展示的问题,强调时间变化则无法展示空间分布,强调空间分布则又难按时序叙述。王兆鹏先生研发的“唐宋文学编年地图”,不仅强化了文学史的空间维度,更改变了文学地理空间的认知方式。以前文学的地理空间,人们主要关注的是作家的籍贯地理,即据作家的籍贯而确定的地理空间。而依据作家活动编年系地数据库,就可以确定文学的活动地理,具体了解每个作家一生不同时期的活动地理和创作地理。时间维度上,该平台也可以为文学史研究提供新的视角和范式。依据地图平台的编年系地数据,每年产生的文学作品都很明确、具体,每年活跃在文坛上的作家都一清二楚。因此,观察文学史的发展变化,可以细致到一年、几年之间。哪个年份是文学变化的关键节点,哪个地方是文学变化的核心场域,都有可能被发现。


(三)历史现场还原与可视化呈现

与时空结合的文学研究紧密关联的是历史现场还原与可视化呈现。可视化是用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,再进行交互处理的理论、方法和技术。古籍可视化研究有不同层面,如对于古籍文本的可视化,可通过数据标引、提取等技术,将一些重要的词语以不同颜色、字体、大小等方式显示出来,从而形成一种精读文本。再如,对中国传统家谱中人物关系的研究,利用优化的家谱树状图和家谱力导向图两种可视化形式,可以直观展示不同的人物之间的关联。

基于上述可视化技术,可以实现文学研究中的历史现场还原和可视化呈现。从多层面还原历史场景,有助于对具体作品的深度解读。例如,范仲淹渔家傲(塞外秋来风景异)一词根据相关研究成果确定此词的创作地点是在庆州之后将当下地图和历史地图图层进行交叉对比就可以发现庆州当时是与西夏接壤的位于宋夏战争前线的边塞孤城”。正因为是边塞孤城,“四面边声才让将士们闻之凄然伤感再切换卫星地图观察庆州的地形地貌结合当地的地景图片又可以真切地感受到范仲淹词中所写千嶂里”“孤城”的荒凉逼仄和压抑还原范仲淹词的历史现场才能透彻理解词中表达的深层意蕴是述边塞之劳苦而非建功立业之豪情。借助台湾“中山大学”简锦松教授开发的“长安城图的精准化和数位化应用”平台,就可以知道白居易的家住在哪里,上朝要走多久;也可以知道韩愈从家里出来拜访张继,要经过什么路径。借助这张数字化地图,还可以知道从李商隐家到他妻子娘家的居所西亭,路程并不遥远,只有1.7公里,进而更加深刻地理解李商隐为悼念亡妻写下著名的《西亭》“此夜西亭月正圆,疏帘相伴宿风烟。梧桐莫更翻清露,孤鹤从来不得眠”。台湾罗凤珠等建立“宋人与宋诗地理信息系统”“唐代诗人行吟地图”,徐永明教授研制的“学术地图发布平台”,将历史人物的行迹和社会关系、人群分布和物群分布配上地理信息,以一目了然的可视化方式呈现,都是文学可视化研究的著例。


(四)文本计算与人文情感分析

文本计算与人文情感分析,是指利用自然语言处理(NLP)、深度神经网络(DL)等人工智能(AI)技术,研究文本中蕴含的人文情感属性分类,剖析“文如其人”的背后机理、方法或逻辑,挖掘具有启发性、隐藏性、前瞻性的观点结论。具体应用领域主要包括舆情分析、文风分类、文章批改、文本情感分析等。利用“主题模型算法”(Latent Dirichlet Allocation),使计算机学习并识别大规模文档库或语料库中潜藏的主题信息。其原理是将文本库中每篇文档的主题以概率分布的形式抽取出来,通过分析这些抽取出的主题,进行主题聚类或文本分类。研究认为,主观文本一般会有情感基调和情感走向,对情感词汇标引,可揭示语篇层面上的情感流动。对不同时代或群体的情感用词统计聚类,可自动生成“情感辞典”。在此基础上,可以对不同的文本单元如句子、段落和全文作出情感分析,也可以对整篇以及整部、多部作品作多维度如作者、体裁、题材、时代、地域、社团、流派等的情感分析,绘制“情感雷达”,捕捉其如何表达情感、表达什么情感,以及情感如何分布和演化等。通过情感标签与计算,能够进一步探究不同历史时期的社会现实与作品之间的对应关系。分析情感图谱上的关节点,可以探究情感症候与文献生产、文体流变之间的关系。情感分析方法还可用于分析诗词曲格律情感表达模式,即哪些格律更多用来或者更适合用来表达哪类情感。另外,针对诗词文中的“意象”,借助深度学习技术建立意象表征和情感图谱,方便学者分析文学作品中意象与情感刻画的演化。例如,利用《李娃传》等唐传奇中的情感词,可绘制出不同人物随情节发展而变化的情感曲线。通过提取宋词的创作时间、创作地或描述地及词人情感信息等时空数据,建立相关的地理时空数据库,并利用制图和空间分析方法,可研究宋代词人整体的情感特征在时间和空间上的动态变化。 


(五)多模态情景分析与文化生成

多模态情景分析与文化生成,是指采用对抗生成网络(GAN)、自然语言处理(NLP)、多媒体分析等数字AI技术,研究图像、视频、语音等多模态情景下的人文模式,研究“寓情于景”“借景抒情”等传统人文诗词写作范式,从而探索数字时代下的文本自动生成理论方法,提高人文生成效率和扩展人文研究方法。具体应用领域主要包括看图说话、AI写诗、自动作文等。例如,清华大学自然语言处理与社会人文计算实验室研发的人工智能诗歌写作系统九歌”,采用最新的深度学习技术,结合多个为诗歌生成专门设计的模型,基于超过80万首诗歌进行训练学习。区别于其他诗歌生成系统,九歌具有多模态输入、多体裁多风格、人机交互创作模式等特点。

以上梳理的五种类型,仅为大数据时代古代文学研究新变化的大致情况。实际上,基于各自研究特点,不同研究者对数字化古籍的利用方式也不尽相同。



(本文原载《中外文化与文论》第56辑,注释从略,引用请参原文。感谢作者授权发布!)


END

供稿:刘  晓

编辑、排版:曹  迅

审核:查清华


辑刊征稿 | 《东亚唐诗学研究》

唐诗学研究
欢迎关注  投稿  转发  交流合作
    dongyatangshixue@163.com
  


唐诗学研究
上海师范大学唐诗学研究中心,致力于唐诗学文献的整理与研究、唐诗学理论的探索与建构,关注海内外唐诗学研究的最新成果。
 最新文章