中华古籍浩如烟海,凝结着先人智慧,记录着绵延不绝的中华文明。
随着岁月流逝,古籍正在慢慢“老去”,虫蛀、絮化、粘连、缺损、霉蚀……稍不留神,极易受到损害。对珍贵古籍进行保护、修复和活用,关乎中华文脉的延续和传承。我国从2007年起实施“中华古籍保护计划”,对全国古籍开展普查、登记入库,保住了一大批珍贵的古籍。但由于总量多、各地能力参差不齐,古籍保护依然面临很大压力。古籍不能束之高阁,却又太过娇贵,很难满足公众查阅的需要。随着科技快速发展,这些困扰人们已久的难题有了突破性进展。
由北京大学数字人文研究中心主任、北京大学人工智能研究院副院长王军带领的古籍数字化团队联合企业开发的“识典古籍”平台,将古籍从纸页“搬”到了网页。目前已经汇集1万多部古籍,面向海内外读者免费开放。
在科技的加持下,古籍不再遥远。先人智慧与现代科技交融碰撞于泛黄的书页,一册册古书典籍“活”起来。
北京大学数字人文研究中心主任王军
登录“识典古籍”平台,在网页上点击“进入大典”按钮,《永乐大典》的前世今生、编纂方法、历史价值等信息,伴随着书页翻开的动画特效,缓缓地呈现在读者眼前。
《永乐大典》被誉为世界有史以来最大的百科全书,汇集了先秦至明初各类典籍。但随着时间的流逝,典籍几经散佚,副本存世不及原书的4%。对学者而言,它是学术研究的重要资料;对普通读者来说,很难有机会阅读到古籍文本。
如今,《永乐大典》高清影像数据库(第一辑)已经在“识典古籍”平台上线,免费向公众开放。借助现代数字技术,经典古籍浓缩在方寸之间,只需动动手指,尘封已久的历史画卷就会徐徐展开,成为触手可及的文化资源。
一本古籍,是如何从纸页“搬”到网页的?
走进北京大学数字人文研究中心的古籍数字化实验室,王军师生团队正在忙碌着——
平台设计者、北京大学人工智能研究院副研究员杨浩正通过“识典古籍”平台,在线整理书库资源。他面前电脑的屏幕左侧,显示的是古籍书页的高清图片,右侧为对照文字,“与平台资源呈现形式相同,古籍的数字化也分图像化和文本化两步走。”他细细解读,古籍影像扫描是古籍数字化的基础,但影像无法检索,只有将图像转化成可以检索的文字,才便于研究、阅读和传播。
首先就要对古籍进行图像化处理,这一步类似日常工作中的扫描文件,不过为了保护脆弱的古籍,细节需要格外考究。比如,古籍扫描要使用专用的非接触式扫描仪,通过高像素照相机,在尽量不按压古籍页面的前提下拍照;采用的光源也得是防紫外线的LED冷光源,减少对古籍的损害。
紧接着就是文本化阶段——对古籍文字、排序、结构等内容进行精细化处理,这需要十足的专业功底。
人才领域有个“1万小时定律”,说的是要成为某个领域的专家,需要累计达到1万小时的学习和实践,但是在古文字人才培养领域,这个定律不太灵。“1万个小时恐怕都培养不出来一个熟手,两万个小时也未必能造就一个大师啊。”王军直言,据统计,全国各高校以及社会层面研究古典文献专业的学者,一共也不到1万人。
王军给记者算了笔账:我国现存古籍约有20万种,从1949年到2019年,共修复整理出版了近3.8万种。按照这个速度修复整理现存的全部古籍,可能需要300多年,“古籍修复速度赶不上老化速度。”
仅靠专业人才一字一句地翻译、校对,难以完成如此重任。古籍的数字化亟须一场生产效率的变革。团队请来了人工智能助手——
杨浩在平台上演示:他上传了一页古籍图像,由于时间久远,有些文字已经模糊不清。大约10秒后,每个文字周围都出现了一个不同颜色的小方框,并显示出系统认为“可能的文字”。“黑色代表算法识别的可信度比较高的字,一般不需要人工再去核对;蓝色代表疑难字,需要工作人员重点关注;粉色方框代表已经经过人工校对,审核者可以核对是否正确。”杨浩说。
话音刚落,古籍图像中的全文清晰呈现,句与句之间已经加注了标点,单击文字即可修改调整。
“系统内刚刚经历了一次飞速的运算,主要使用了文字识别、自动标点和命名实体识别等人工智能技术。”杨浩依次解释,文字识别技术,是对古籍数字图像中的文字进行单个切分,再进行文字识别和顺序读出;自动标点技术,是通过序列标注的方式对古籍进行自动断句,标出标点;命名实体识别技术,则是通过序列标注方法识别出文本中的人名、地名、书名、时间、官职等信息。
仅仅几秒过后,一个个文字就“飞”出了古籍图像,变成了可以检索的文本内容。读者不仅可以了解古籍的前世今生、编纂方法、历史价值等信息,还可以实现繁简体文字随时切换。此外,阅读时如果遇到生僻词句,读者也可选中文本,点击“查看引用”,出处清晰可考。
工作人员只需复查部分结果,就能进一步提升准确率。
目前,“识典古籍”平台文字识别的准确率达到96%以上,自动句读的准确率达到94%,命名实体识别在中古史料上的准确率接近98%。
“识典古籍”平台已汇集1万多部古籍
“天将降大任于是人”还是“天将降大任于斯人”?类似的对古文原文的讨论,近年来频频受到关注。有网友说,记忆中,语文教材里是“斯人”,却发现现在课本改成了“是人”。
到底是“斯人”还是“是人”?可以在“识典古籍”平台直接搜索查看古籍原文。在平台首页搜索框中输入该句出处《孟子》和相关字句,系统立即关联出了孟子卷第十二“告子章句下”册的原文和对应书页图像,正确答案——“是人”,一目了然。
目前,全国累计发布古籍及特藏文献影像资源已达13.9万部(件),其中由国家图书馆建设的“中华古籍资源库”是全国古籍资源类型和品种最多、体量最大的综合性资源共享发布平台,发布的古籍影像资源超过了10.5万部(件)。
随着越来越多的古籍收藏单位对外开放古籍数字资源,古籍数字化不断提速。
2020年5月,北京大学数字人文研究中心成立,计算机技术、历史、古典文学、算法开发等多领域的人才聚集在一起,目标只有一个,为古籍保护和传承做点力所能及的事情。
2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,明确提出“推进古籍数字化”,强调“支持古籍数字化重点单位做强做优,加强古籍数字化资源管理和开放共享”。
王军说,重磅文件推出后,团队建设“识典古籍”平台就此提速。
不过,平台研发并非一帆风顺。快速发展的同时,古籍数字化还存在薄弱之处,一些“壁垒”亟待打破。
以“搜索”功能为例,一次简单的搜索动作,背后就有分词、召回、排序3大步骤。
“让AI(人工智能)去阅读古文,需要有足够多的语料去训练算法。”王军说,就像教小孩说话一样,算法也需要从易到难的成长过程。
对于白话文,团队可以依据积累的充足数据做分词模型,然而涉及古文语料的内容,所有平台的数据都十分匮乏。最终,大家通过已经公开的、少量的古籍分词语料,利用半监督学习和预训练的技术,形成了现在的古籍分词模型,以提高搜索精确率。
为了帮助读者读懂古籍,平台上线了一个“古籍智能助手”的选项——选中读不懂的古文原文点击“问AI”,就可以看到这句话的解释。读者还可以和智能助手对话,让它总结文本内容,提出可供参考的研究问题。
然而,“古籍智能助手”并非一直聪明,有时候可能还会说“胡话”。比如,古籍中常出现的“鹿鸣”一词,在不同语境中有不同含义,有的就指鹿鸣叫,有的则代表古代宴群臣嘉宾所用的乐歌,还有的借指科举考试。
“古籍智能助手”偶尔会生成张冠李戴的错误结果。
杨浩解释,这是人工智能产生的“幻觉”。这个问题几乎是大语言模型的“通病”。简单来说,“幻觉”是指人工智能会生成貌似合理连贯,但同输入问题意图不一致、同人类知识不一致、与现实或已知数据不符合或无法验证的内容。
“一本正经地说胡话。”他说,在古籍领域,基于文言文本身就可能出现的阅读障碍,由大模型产生的错误和“幻觉”会让读者更加难以分辨真假。
为了让人工智能再“聪明”一点,团队对“古籍智能助手”开展了一系列升级工作。例如,开发检索增强生成技术,要求大模型根据从数据库和字典中检索到的、有一定可靠性的资料作答,在一定程度上限制了“幻觉”的产生。他们还尝试在生成的答案后附加原文链接,读者可以方便地去查证原文,并做出自己的判断。
“‘古籍智能助手’的作用是提升查阅古籍的效率。它代替不了专业的学术判断和阅读积累,但我们希望它能为使用古籍的人节约时间、开拓新的思路。”王军说。
在团队的共同努力下,人工智能正在变得越来越“聪明”,对眉批、行间批注、表格等不规则的古籍版面,不仅能准确识别文字,还能通过针对性训练优化分区效果,从而避免出现单字识别正确但阅读顺序颠倒错乱的情况。
“如果人工智能不介入,完全依靠人力,古籍数字化全部完成可能还需要上百年的时间。有了人工智能,完成全部古籍的数字化也许只要二三十年。”王军信心十足。
集纳和展示古籍数字版本,并非“识典古籍”平台的全部功能。团队师生还有个宏伟的目标——在平台上汇集识别、排序、校对、结构整理、标点、实体识别等功能,实现古籍整理全流程的智能化处理。
“识典古籍”平台的古籍文字校对页面
“平台由两部分组成,前端是阅读平台,后端是古籍整理平台。”王军常常这样比喻,“就像是餐厅的前厅和后厨。团队师生作为后厨,整理上线古籍资源,把数字化资源端上阅读平台,与全世界的读者共享饕餮盛宴。”
目前,作为“后厨”的古籍整理平台,已经设定了团队管理员、书目管理员、审订员、整理员等各种用户角色,以推进古籍整理项目和数据库建设。平台不仅面向专业人员开放权限,来自各行各业的古籍爱好者、历史研究者也可以化身编校人员,参与古籍整理。
今年7月,北京大学数字人文研究中心以“识典古籍”平台为依托,发起了“我是校书官”——古籍大众智能整理计划,邀请全国近千所高校的上万名师生志愿者,在智能手段的辅助下,将传统古籍加工成易于理解的文本。
这种“众包模式”,在古籍保护和整理领域是首次尝试。王军说,目的是打造一个集合“古籍图像上传—文本校对整理—高质量标记—文本输出”功能的全流程系统,让古籍与中华优秀传统文化潜移默化地走入更多人心中。
团队先将经过人工智能处理的古籍文本,通过互联网分发给在线编校人员。志愿者在电脑上对照古籍底本高清图像逐字逐句审阅,并在古籍整理平台上修改。管理员借助平台的版本比对功能审阅修改记录,判断是否合格。
一群人,一条心,身体力行让古典文献重获新生。
该中心工作人员伞红雷一直参与“识典古籍”平台的建设工作,在“我是校书官”项目中负责古籍选目、课程策划、审核等工作。“我们着重挑选了一些海外馆藏的珍贵善本,所选古籍内容都与大众生活紧密相关,期待大家能挖掘出古籍与现代生活相契合的内涵。”他说,团队还精心设计了古籍通识课程,邀请领域资深学者担任主讲嘉宾,广泛普及古典文献的基础专业知识和古籍智能整理实操方法。
“我是校书官”项目一经启动,便如同一颗文化磁石,迅速吸引了大批高校师生的踊跃参与。“我们为志愿者搭建了一个交流互动的聊天群,随着参与的人越来越多,又新建了二群、三群……点开群聊,仿佛置身于一场场学术研讨会中,大家不断围绕各种异体字以及古籍内容等展开热烈讨论,相互协作攻克‘认字’难关。”
年轻人与古老的典籍相遇,激发出了更多的火花。
志愿者袁玲来自四川师范大学,从老师转发的活动推送中看到大众古籍整理计划,抱着丰富实习实践经验的心态,加入了参与古籍整理的队伍。“我见证了志愿者从几百人壮大到几千人的过程,发现自己在古典文献专业学习上并不孤单。大家互相请教、讨论古籍整理中的疑难,素未谋面的人在一次次文字的推敲中相互温暖。”她说,不同于以往科研中“孤军奋战”的体验,与这么多对古籍领域感兴趣的爱好者相聚,让她找到了归属感。
来自天津师范大学的志愿者邓嘉仪是“古籍整理之星”,曾在一个月内累计完成了66项整理任务,成为当月完成任务最多的志愿者。在参与项目的那段日子里,她白天在博物馆做志愿者,守护着陈列在展柜里的古籍,晚上坐在电脑前,在一字一句地识别、校对中,唤醒沉睡的古籍。“当看到我整理的古籍上架,名字被列在古籍整理人的名单里时,我特别有成就感。”
文脉绵延,历史接续。项目启动5个月内,大家就整理了近2亿字、超1500种古籍。
“希望通过‘识典古籍’平台和‘我是校书官’等活动,推动中华文明传承发展,向世界展示和传播我们的文化之美。”临近年末,王军许下新年愿望:2025年,希望能收集更多古籍、提升整理质量,更好守护古籍这个文明之根。
古籍数字化只是开始。王军畅想,未来可以利用人工智能进行古籍的辑佚、汇编、注解、翻译、检索、索引甚至考证和摘要工作。更重要的是,利用人工智能开发古籍,用古籍蕴含的浩瀚素材创作生成内容,“我们离这个目标越来越近了。”