翻开一本古籍,辨文考异、探求义理时,古与今相逢,书和人共生。在现代社会,让古籍和人们的日常生活结合起来,正是“‘我是校书官’——古籍大众智能整理计划”发起的初衷。
一群人,一条心,共同做好一件事。2022年,北京大学数字人文中心联合字节跳动研发上线了免费公开的“识典古籍”古籍数字化平台;今年7月,以此为依托发起大众整理计划,推动学术、互联网企业、社会大众三种力量的汇集,用实际行动让古典文献重焕新生。
作为古籍大众智能整理计划中的中流砥柱,来自全国各高校的志愿者们手握微光,汇聚起古籍整理计划的璀璨星河。当年轻的生命与古老的典籍相遇,一个个生动的故事也就此上演。
“我是校书官”志愿者活动任务界面
来自四川师范大学的袁玲,从专业课老师转发的活动推送里了解到大众古籍整理计划,首先被“我是校书官”识典古籍智能通识课所吸引。系列课程向观众介绍了整理古籍技巧、海外古籍分布和概况、线上古籍整理的OCR技术等相关内容。她流连于老师们专业一流的讲授,因此也“误打误撞”地加入了参与古籍整理的队伍里。进入志愿者群后,袁玲见证了群聊人数从几百人壮大到几千人,才发现自己在古典文献专业学习上并不孤单。不同于以往科研中较为“孤军奋战”的体验,与这么多对古籍领域感兴趣的爱好者相聚,让她找到了温暖的归属感。在志愿者的群聊中,大家会互相请教、讨论古籍整理中的疑难,一些素未谋面的灵魂,就在一个个文字的琢磨推敲中相互照亮。
前人栽树,后人乘凉。来自天津师范大学的邓嘉仪没有想到,曾经的纳凉人有一天也成为了种树者。识典古籍平台曾帮助她完成某次课程论文的研究,因而她对大众整理项目感到自然的亲切。曾经做过近代馆刊整理的大创项目,亲身经历过人工识读、校对古籍的繁琐与不便,也让她更加好奇线上整理古籍的体验。或许正是在这段奇妙的缘分的召唤下,她在一个月内累计通过66项任务,惊喜成为完成任务最多的同学。在参与项目的那段日子里,她白天在博物馆做志愿者,守护着陈列在展柜里的古籍,晚上坐在电脑前,在一字一句的识别、校对中,感受到白天沉睡的古籍仿佛苏醒过来,亲切地与她交谈。古籍不再是陈列在展柜里、受人尊敬、仰慕的对象,而是自己可以与之交流的朋友。当看到自己整理的古籍上架,自己的名字被列在古籍整理人的名单里时,她感到强烈的自豪与成就感。未来,邓嘉仪希望能够从事博物馆相关工作,继续在古文化的世界里求索,为讲好典籍故事、传承中华文化贡献自己的一份力量。
童年时读词典、背古诗,在蕴藉隽永的词句中,先人的故事与思想历经岁月变迁流传至今,在佟楠心中播下热爱古籍的种子。她在繁忙的工作之余偶然接触到古籍整理志愿服务,找到了疗愈心灵的休闲方式,一场跨越时空的对话也在辨字断句的过程中发生。促成字节跳动与北大数字人文中心的合作,于她而言不仅是机缘巧合,更是她一直以来的信念与追求——她希望古籍整理计划成为一个能留在人心中的活动,让古籍从一个小众的爱好,真正走进大众的视野。
“我是校书官”一期志愿者参与数据
正是这些志愿者的积极参与,让古籍整理活动顺利进行。回顾计划启动之初,如何让古籍与中华优秀传统文化潜移默化地走入更多人心中,润物无声地滋养现代人的精神世界,是这项计划目标解决的主要问题。北大数字人文中心团队以史为鉴,充分汲取盛世修典时向民间征书、乱世衰颓时依靠民间力量传承书籍思想的前例经验。
众人力量大。根据国家古籍保护中心的调查,我国现存二十几万种古籍,存世五十几万个版本,古籍数量达三千两百多万册,但这些海量文献里,即使是经过最简单的数字化处理的文献,比例也极其有限。“众包模式”胜在人多效率高,通过志愿者们的广泛参与,能够较快地将纸质文献转化为可供检索的数据。只有在文献信息的储备量足够庞大后,经典古籍内容的深度开发利用才有进一步发展的可能。
在互联网时代和智能时代,识典古籍平台前端为大众提供清晰简洁且功能丰富的古籍阅读界面;后端作为整理平台向广大志愿者开放,在智能手段的辅助下,将传统古籍加工成易于理解的文本。“我是校书官”项目进一步选取与现代人生活联系密切的海内外汉籍,吸引大众投入参与,创新性地探索当代古籍整理众包模式。
“识典古籍”阅读平台原本影像对照功能
“识典古籍”阅读平台实体关系定位功能
在“‘我是校书官’——古籍大众智能整理计划”里,每一位志愿者都是历史故事的讲述人,更是延续文字生命的使者,跨越千百年的相隔,与古人的心跳共振。
选目、数据准备、分卷、审核……项目的落地离不开北京大学数字人文中心工作人员与实习生的努力。北京大学数字人文中心主任、北京大学人工智能研究院副院长王军教授将中心的团队工作模式形容为“1 + 1=1.5 × 2”,不仅展现“1+1>2”的合作效果,更强调充分发挥跨学科的效能,搭建复合型人才彼此交流、共同进步的平台,让每一名成员成为各自岗位上的多面手,凝聚起项目发展的合力。
作为古典文献专业的毕业生,数字人文中心工作人员伞红雷在上学时便做过古籍整理的工作,在接触到利用智能技术辅助校勘的方法后,他可以省去一些繁冗的工作环节,集中关注更需要创造性思考的疑难问题。来到数字人文中心后,他将自己所学所思应用于识典古籍平台建设,并在“我是校书官”项目中负责选目、分卷、审核等多项工作。搭建古籍整理及出版的学术化平台,打造新时代古典文献社群,是他对于平台未来发展的畅想,也是他坚持不懈的追求。
从专业学习中发现问题,在实际工作中锻炼能力,本硕均就读于汉语言文学专业的实习生樊海东,目前主要负责数据工程和网站开发的相关工作。在分析文人作品的过程中,综合比较不同版本是必不可缺的研究步骤,这让他尤其体会到从多渠道获取文献资源的重要性。在数字人文中心,他不仅在实践应用中提升了编程在内的多方面技能,也由衷地认同这份工作的价值和意义——通过识典古籍平台,实现知识的开放性,让更多人共享我们的知识、看到我们的文明。
与“科班出身”的团队伙伴们不同,本科阶段学习传媒的王心宇和识典古籍平台的缘分始于考研。在追梦北大哲学系的过程中,识典古籍平台不仅帮助她更便捷地找到古籍,还可以检索信息并利用各类功能辅助阅读。而本科阶段参与纸质媒体和数字媒体交互项目的经历,也让她对数字人文中心的工作与识典古籍平台建设充满兴趣。如今,她积极投身中心的新媒体宣传工作,不断探索用大众易于接受的方式,将看似生涩的古籍知识变得有趣鲜活。
怀抱理想与热爱的他们,各有专长又共享复合技能,汇聚在北京大学数字人文中心,共同推动识典古籍平台建设与古籍大众智能整理计划的发展。
在从纸质信息到数智化信息环境迁移的过程中,数字人文领域迅速发展,人工智能与计算机技术的加入显著降低了古籍整理的门槛,大量机械重复的工作都可以通过AI解决。北京大学数字人文研究中心副主任、人工智能研究院副研究员杨浩老师对科技在古籍整理中的作用有深刻认识:
“智能古籍整理平台实际上改变了传统古籍整理的生态,从前需要耗费大量时间和人力,如今机器先进行OCR文字识别,让对古籍感兴趣的大众获得接触与上手整理古籍的机会,提高大家的参与感和互动感。”
“识典古籍”整理平台标点校对演示
“识典古籍”整理平台实体校对演示
自动文字识别、自动标点、自动分段、自动校勘、自动翻译……识典古籍平台功能强大且丰富,形成了全流程的古籍整理体系。智能技术的辅助一改专业门槛的限制,任何通过培训的志愿者都得以担任“校书官”的角色,负责比对自动文字识别结果与古籍影像,在实践中体验古籍整理的魅力。
“识典古籍”整理平台文字校对演示
虽号称“纸寿千年”,但纸质载体终究难以持久保存。唯有到了数字化时代,经典才得以在数据空间里长留。但古籍又不同于器物,只有书籍的内容真正为人阅读、解析、研究、讨论、流传,方可发挥它的价值。借助人工智能技术,数字化的古籍不仅具备了与纸质身形一样的“骨架”,还获得了可以检索、重组的“血肉”。由此,尘封在历史中、束之于高阁上“大部头”们成为了便于大众触碰、走近、了解的朋友,超越时空,生生不息。
文脉绵延,历史接续,这一计划在北大的发展有其源流。在全国高等院校古籍整理研究工作委员会的号召下,前人保护、整理文化典籍的思考,与今日学者利用科技推广古籍的理念在北京大学数字人文中心实现了交汇。洪业先生与哈佛大学燕京学社在中国开办的引得编纂处,其为文献整理、知识管理与学术检索提供了新方案,这一传统智慧也延用到如今的北大。王军教授指出:
“胡适在1923年北京大学《国学季刊》的《发刊宣言》中系统阐释了‘整理国故’的主张,提倡用科学方法重新梳理已有的文化成果。立足全球文化背景,在融合中西文化、进行自觉改造与重新评估的同时,也要对世界文明有所贡献。”
北京大学中国古文献研究中心正是继承前辈传统、肩负传承使命的生动体现。肇源于北京大学中文系古典文献学专业,迄今为止,该中心仍是全国高校中唯一的古文献学科重点研究基地。据中心主任刘玉才教授介绍,为大众整理计划提供专业上的指导支持,是中心目前着力开展古籍数字化工作的重点方向之一。由专家学者们录制的古籍整理方法论教程,是志愿者们投入工作前的必修课;志愿者们整理校勘的成果,也会经过中心老师们定期的审核把关。
“我是校书官”古籍智能整理通识课
尽管数字化平台为文献检索提供了便利,但是对于研究者来说,纸质经典仍然是相比数字化古籍资源更为可靠的研究材料。刘玉才老师指出,现有的数据化平台往往利用已公开的文献资源,而文本质量较为权威的古籍常深藏于各大图书馆、资料馆中,并非线上平台团队可以轻易获取。因此,数字人文中心团队正在着力提高专业学者在项目过程中的参与度,提高文献数字化全流程的规范性,并积极争取与哈佛燕京图书馆、普林斯顿大学东亚图书馆、日本内阁文库、法国国家图书馆、大英图书馆等多方机构的合作,逐步提升古籍整理成果的质量。
“识典古籍”阅读平台书库
斯文在兹,古籍中蕴含的思想精华在一代代学者与广大群众的守护下绽放出绚丽的光彩。炬火传递,生生不息,时至今日,对古籍、对中华优秀传统文化的守护仍在传承延续。
前人启发下的文化传承、社会力量的参与、智能科技的辅助,三条线索在“‘我是校书官’——古籍大众智能整理计划”中实现了融合,让古籍走进了现代生活。下一阶段,数字人文中心将探索知识图谱、历史游戏、文创产品等更为丰富的古籍联动项目,让古籍真正“活”起来。
大众整理第二期正在火热进行中,欢迎大家参与。点击链接了解详情~
来源 | 北京大学融媒体中心、北京大学数字人文中心
文字 | 李美璇、曾婧婷、尹乐怡
图片 | 北京大学数字人文中心
GIF制作 | 尹乐怡
制图 | 郭雅颂
排版 | 史童月
责编 | 郭雅颂
<<左右滑动查看栏目>>