智能交互标注中国传统古籍目录
文摘
2024-07-19 10:34
美国
近日,北京大学智能学院袁晓如课题组在中国古籍目录的智能交互标注方法方面,开展跨学科合作探索取得重要进展。研究通过建立对比学习框架微调语言模型,有效提升了古籍目录标注效率。该研究工作被可视化领域国际旗舰会议 IEEE VIS 2024 正式接受,同时也将发表在IEEE TVCG。近年来计算技术与传统人文学科研究的融合引发了这一领域的研究范式转变,为学者们提供了强大的分析工具和方法框架。可视化与可视分析为应对处理大规模、复杂甚至模糊的人文学科数据集时的特殊挑战,提供了新的可能。许多新颖的可视化技术和应用应运而生,包括人物的时空运动、古籍、历史职业流动、精读与泛读等。课题组研究中国古籍目录数据的人文学者展开紧密合作,针对中国古籍目录数据的智能化标注方法进行了深入探索。在人文学科研究中,由于数据的非结构化特性——通常包括文本、图像或文化遗产等——在数据处理方面面临独特的挑战,也对领域专家在数据清理和处理方面构成了重大障碍。课题组与中国科学院自然科学史研究所孙显斌课题组合作,将可视化与人工智能技术应用到古籍目录数据标注过程中,提高领域学者清理和处理目录数据的效率。
中国目录学可以追溯到汉朝,已有2000多年的历史。此后几乎每个朝代都会编制藏书目录;同时非官方学者和收藏家也编制了大量的私人藏书目录。今天的古典目录学正是一门研究这些古代目录的学科,旨在重建历史上流传的各种著作,理解历史上学术知识的生产、组织和演变的过程。作为基础的古籍目录标注工作耗时且富有挑战。如下图所示,由汉代学者孟喜为《周易》所著的章句在《汉书·艺文志》《隋书·经籍志》以及《清史稿·艺文志》三部史志目录中均有收录,但描述方式,包含的信息均有所不同。学者们不仅需要从古籍目录文本中识别提取相应的书籍记录,补全其中缺失遗漏的信息,还需要规范统一不同目录中记载的相同书籍,需要耗费大量的人力时间,这对于古籍目录的标注工作带来了巨大的挑战。《周易孟氏章句》在不同古籍目录中的记录
古籍目录标注工作核心挑战在于如何帮助专家快速定位来自不同古籍目录中具有相似性的书籍条目。通过与相似条目进行对比,专家们能够更好地判断这些条目是否指代相同的书籍,进而能够补充条目中缺失的信息,并规范统一指代相同书籍的数据项。在现有的标注工作流程中,专家们只能借助 Excel 表格将数据表格按照书名、作者等不同的属性进行排序,使得具有相似属性的数据被排列在临近的位置上,再去检查其余维度的信息是否一致。这样的工作流程依赖于领域专家反复迭代地检查目录数据标注结果,凭借相关领域知识和研究经验,识别出其中存在问题的标注数据并进行修正,既要求极高的专业知识贮备,也需要消耗大量的时间与精力。本工作则是采用了自然语言处理技术中对文本数据的编码技术,对古籍目录数据条目进行向量化编码,将书籍数据条目的相似性转化为向量的余弦距离的计算,从而快速、准确地查找和定位任意书籍记录在全体数据中的相似记录。如下图所示,本工作采用了对比学习框架微调语言模型,分别通过模型丢弃技术(Model Dropout)和维度丢弃技术(Dimension Dropout)构建无监督和有监督训练数据,使得模型能够更好地学习到古籍目录数据中不同书籍条目数据的相关性。测试实验证明,在借助语言模型将古籍数据向量化后,通过余弦距离计算相似度即可快速定位全体数据中与查询条目相关的书籍记录。语言模型训练流程示意图
为了进一步提高古籍目录标注效率,本工作开发了如下图所示的智能古籍目录标注系统。系统界面主要分为左右两个视图。左侧视图展示了当前数据中所包含的古籍目录以及他们的层次结构。每一个矩形代表目录收录的一本书籍或是一个子级目录,并通过不同的可视编码方式区分它们当前是否已经被标注。右侧视图则展示了当前正在被标注的书籍条目。标注系统将为每个书籍条目查找相似条目,并列举在该条目下方。推荐条目的各个属性维度与待标注条目的对应维度的相似性通过饼图形式编码在表格内部。标注者可以通过排序和筛选探索系统推荐的相似条目,并更新标注内容。系统的推荐也会随着标注的更新动态更新。随着标注内容的不断完善,推荐内容的相关性也不断提高,进而帮助标注者定位并规范指代相同书籍的数据条目的标注。在下图的例子中,标注者逐步完善标注条目的书名和作者信息,并可以最终确定来自其他目录的对相同书籍(《周易孟氏章句》)的数据条目。从而,标注者可以进一步将这些数据条目的标注规范统一。智能古籍目录标注系统 CataAnno 演示
本工作结合深度学习方法和可视化方法,优化了古籍目录标注的工作流程,将传统上低效的,需要反复迭代的标注过程尽可能地转化为高效的线性标注流程,大大提高了领域专家对于相关数据的清理和处理工作效率。课题组将进一步加强合作,扩展已经取得的成果,探索更为高效的古籍目录数据智能标注方法,并开发相应的标注工具。该工作展现了将可视化和人工智能技术扩展应用到人文领域研究过程中的无限可能,为之后更加深入的跨学科合作提供参考与经验。论文的第一作者邵汉宁是北京大学智能学院2021级博士研究生。中国科学院自然科学史研究所孙显斌研究员提供了研究中使用的古籍目录数据。孙显斌研究员是古典文献学、文献数字化及科学技术史方面的专家。在本工作中,孙显斌研究员深入参与到系统设计需求以及评估的讨论中,为工作的顺利展开提供了来自领域的宝贵建议和意见。本文通讯作者是智能学院袁晓如。工作获得国家自然科学基金项目 NSFC 62272012 支持。此前智能学院袁晓如课题组已经在古籍研究方向取得多项成果。针对中国古籍在日本流传时空路径分析的工作 (与北京大学中文系杨海峥课题组合作)发表于IEEE VIS 2023,工作探索详细考证了日本宫内厅所藏 64 种宋元善本古籍的流传路径,通过构建可视分析系统支持领域学者从时间、空间、收藏者等多角度分析汉籍流布史。特别针对不确定性的地点信息,提出一种抽象地图可视化的方法,有效揭示汉籍在不同收藏机构间的流传模式。而对古籍目录的工作发端于获得ChinaVis 2022 中国可视化与可视分析大会数据可视化竞赛“中华古籍数字人文创意”赛道三等奖的工作《经籍览观》。它以聚类图的形式动态展示各古籍目录中经史子集每一家的具体分布,通过动画变换的方式,揭示不同目录间收集书目和归类的变化差异;通过交互技术,向使用者提供了目录信息横向和纵向的直观对比,便利使用者对我国古籍目录分布产生直观的了解。此次最新的工作则从目录整理的角度提出了新的思路,通过对比学习框架微调语言模型和人机交互提升古籍目录标注效率。
《经籍览观》系统演示