智能交互标注中国传统古籍目录

文摘 2024-07-19 10:34 美国

近日，北京大学智能学院袁晓如课题组在中国古籍目录的智能交互标注方法方面，开展跨学科合作探索取得重要进展。研究通过建立对比学习框架微调语言模型，有效提升了古籍目录标注效率。该研究工作被可视化领域国际旗舰会议 IEEE VIS 2024 正式接受，同时也将发表在IEEE TVCG。

近年来计算技术与传统人文学科研究的融合引发了这一领域的研究范式转变，为学者们提供了强大的分析工具和方法框架。可视化与可视分析为应对处理大规模、复杂甚至模糊的人文学科数据集时的特殊挑战，提供了新的可能。许多新颖的可视化技术和应用应运而生，包括人物的时空运动、古籍、历史职业流动、精读与泛读等。

课题组研究中国古籍目录数据的人文学者展开紧密合作，针对中国古籍目录数据的智能化标注方法进行了深入探索。在人文学科研究中，由于数据的非结构化特性——通常包括文本、图像或文化遗产等——在数据处理方面面临独特的挑战，也对领域专家在数据清理和处理方面构成了重大障碍。课题组与中国科学院自然科学史研究所孙显斌课题组合作，将可视化与人工智能技术应用到古籍目录数据标注过程中，提高领域学者清理和处理目录数据的效率。

中国目录学可以追溯到汉朝，已有2000多年的历史。此后几乎每个朝代都会编制藏书目录；同时非官方学者和收藏家也编制了大量的私人藏书目录。今天的古典目录学正是一门研究这些古代目录的学科，旨在重建历史上流传的各种著作，理解历史上学术知识的生产、组织和演变的过程。作为基础的古籍目录标注工作耗时且富有挑战。如下图所示，由汉代学者孟喜为《周易》所著的章句在《汉书·艺文志》《隋书·经籍志》以及《清史稿·艺文志》三部史志目录中均有收录，但描述方式，包含的信息均有所不同。学者们不仅需要从古籍目录文本中识别提取相应的书籍记录，补全其中缺失遗漏的信息，还需要规范统一不同目录中记载的相同书籍，需要耗费大量的人力时间，这对于古籍目录的标注工作带来了巨大的挑战。

《周易孟氏章句》在不同古籍目录中的记录

古籍目录标注工作核心挑战在于如何帮助专家快速定位来自不同古籍目录中具有相似性的书籍条目。通过与相似条目进行对比，专家们能够更好地判断这些条目是否指代相同的书籍，进而能够补充条目中缺失的信息，并规范统一指代相同书籍的数据项。在现有的标注工作流程中，专家们只能借助 Excel 表格将数据表格按照书名、作者等不同的属性进行排序，使得具有相似属性的数据被排列在临近的位置上，再去检查其余维度的信息是否一致。这样的工作流程依赖于领域专家反复迭代地检查目录数据标注结果，凭借相关领域知识和研究经验，识别出其中存在问题的标注数据并进行修正，既要求极高的专业知识贮备，也需要消耗大量的时间与精力。

本工作则是采用了自然语言处理技术中对文本数据的编码技术，对古籍目录数据条目进行向量化编码，将书籍数据条目的相似性转化为向量的余弦距离的计算，从而快速、准确地查找和定位任意书籍记录在全体数据中的相似记录。如下图所示，本工作采用了对比学习框架微调语言模型，分别通过模型丢弃技术（Model Dropout）和维度丢弃技术（Dimension Dropout）构建无监督和有监督训练数据，使得模型能够更好地学习到古籍目录数据中不同书籍条目数据的相关性。测试实验证明，在借助语言模型将古籍数据向量化后，通过余弦距离计算相似度即可快速定位全体数据中与查询条目相关的书籍记录。

语言模型训练流程示意图

为了进一步提高古籍目录标注效率，本工作开发了如下图所示的智能古籍目录标注系统。系统界面主要分为左右两个视图。左侧视图展示了当前数据中所包含的古籍目录以及他们的层次结构。每一个矩形代表目录收录的一本书籍或是一个子级目录，并通过不同的可视编码方式区分它们当前是否已经被标注。右侧视图则展示了当前正在被标注的书籍条目。标注系统将为每个书籍条目查找相似条目，并列举在该条目下方。推荐条目的各个属性维度与待标注条目的对应维度的相似性通过饼图形式编码在表格内部。标注者可以通过排序和筛选探索系统推荐的相似条目，并更新标注内容。系统的推荐也会随着标注的更新动态更新。随着标注内容的不断完善，推荐内容的相关性也不断提高，进而帮助标注者定位并规范指代相同书籍的数据条目的标注。在下图的例子中，标注者逐步完善标注条目的书名和作者信息，并可以最终确定来自其他目录的对相同书籍（《周易孟氏章句》）的数据条目。从而，标注者可以进一步将这些数据条目的标注规范统一。

智能古籍目录标注系统 CataAnno 演示

本工作结合深度学习方法和可视化方法，优化了古籍目录标注的工作流程，将传统上低效的，需要反复迭代的标注过程尽可能地转化为高效的线性标注流程，大大提高了领域专家对于相关数据的清理和处理工作效率。课题组将进一步加强合作，扩展已经取得的成果，探索更为高效的古籍目录数据智能标注方法，并开发相应的标注工具。该工作展现了将可视化和人工智能技术扩展应用到人文领域研究过程中的无限可能，为之后更加深入的跨学科合作提供参考与经验。

论文的第一作者邵汉宁是北京大学智能学院2021级博士研究生。中国科学院自然科学史研究所孙显斌研究员提供了研究中使用的古籍目录数据。孙显斌研究员是古典文献学、文献数字化及科学技术史方面的专家。在本工作中，孙显斌研究员深入参与到系统设计需求以及评估的讨论中，为工作的顺利展开提供了来自领域的宝贵建议和意见。本文通讯作者是智能学院袁晓如。工作获得国家自然科学基金项目 NSFC 62272012 支持。

此前智能学院袁晓如课题组已经在古籍研究方向取得多项成果。针对中国古籍在日本流传时空路径分析的工作（与北京大学中文系杨海峥课题组合作）发表于IEEE VIS 2023，工作探索详细考证了日本宫内厅所藏 64 种宋元善本古籍的流传路径，通过构建可视分析系统支持领域学者从时间、空间、收藏者等多角度分析汉籍流布史。特别针对不确定性的地点信息，提出一种抽象地图可视化的方法，有效揭示汉籍在不同收藏机构间的流传模式。而对古籍目录的工作发端于获得ChinaVis 2022 中国可视化与可视分析大会数据可视化竞赛“中华古籍数字人文创意”赛道三等奖的工作《经籍览观》。它以聚类图的形式动态展示各古籍目录中经史子集每一家的具体分布，通过动画变换的方式，揭示不同目录间收集书目和归类的变化差异；通过交互技术，向使用者提供了目录信息横向和纵向的直观对比，便利使用者对我国古籍目录分布产生直观的了解。此次最新的工作则从目录整理的角度提出了新的思路，通过对比学习框架微调语言模型和人机交互提升古籍目录标注效率。

《经籍览观》系统演示

http://mp.weixin.qq.com/s?__biz=MzA5NDAzMDU5Mg==&mid=2651965534&idx=1&sn=4f72d3460336ecce5cc1f2625fa1bb47

可视分析

数据可视化与可视分析

2024 北大可视化暑期学校设计作品 8 – 寻迹苏轼笔下那片竹林

【预告】“人文可视化 -大模型与数据可视化在人文社科研究中的新视角”前沿讲习班开放报名

2024 北大可视化暑期学校设计作品 7 – 两宋古籍刊刻地图可视化

第十五期北京大学可视化发展前沿研究生暑期学校第十一讲-数据可视化: 人机协同优化的大数据可视化-汪云海

第十五期北京大学可视化发展前沿研究生暑期学校第十二讲-诗意的重述：以解释现象学为方法的绘图-空间研究-梁雯

第十五期北京大学可视化发展前沿研究生暑期学校第十讲-数据可视化: 科学技术与人文艺术的融合-陈思明

第十五期北京大学可视化发展前沿研究生暑期学校第九讲-可视化案例分析和设计的思考-陈慰平

第十五期北京大学可视化发展前沿研究生暑期学校第八讲-历史可视化与标注利用-张宇

第十五期北京大学可视化发展前沿研究生暑期学校第七讲-解析可视化方法-袁晓如

2024 北大可视化暑期学校设计作品 6 – 台北故宫博物院夏圭作品印章信息可视化

文生标注地图：一种基于文本自动生成标注地图的方法框架 (DH 2024)

实验室艺术可视化工作入选国际可视化年会IEEE VIS 2024 Arts Program

2024 北大可视化暑期学校设计作品 5 – 梦溪笔谈知识传播

智能·文明·道路 | “智能+”主题研讨会报名通知

北大可视化暑期学校设计作品 4 - “蓝旅”宋代中外陶瓷器色彩美学可视化

2024 北大可视化暑期学校设计作品 3 – 宋诗袭用唐诗可视化

2024 北大可视化暑期学校设计作品 2 - 宋代城池汴梁布局溯源分析系统

2024 北大可视化暑期学校设计作品 1 – 楼钥交游网络可视化

第十五期北京大学可视化发展前沿研究生暑期学校课程设计

第十五期北京大学可视化发展前沿研究生暑期学校课程成功举办

北京大学智能交互标注古籍目录工作获国际可视化年会IEEE VIS 2024 最佳论文提名

Subspace-Map: 通过地图隐喻完成高维数据子空间的交互式探索

北京大学可视化团队多项成果被IEEE TVCG录用

智能交互标注中国传统古籍目录

第十五期北京大学可视化发展前沿研究生暑期学校第六讲-数字人文研究在展览中的应用-陈静

第十五期北京大学可视化发展前沿研究生暑期学校第五讲 - 《诗经》入画入乐 - 陈晓皎

第十五期北京大学可视化发展前沿研究生暑期学校第四讲 - 历史量化、美学鉴赏 - 王懿芳

第十五期北京大学可视化发展前沿研究生暑期学校第三讲 - 徐瑞鸽

第十五期北京大学可视化发展前沿研究生暑期学校第二讲 - 寻踪，看⻅世界的里面向帆

“人文可视化 - 大模型与数据可视化在人文社科研究中的新视角” 前沿讲习班开放报名

报名通知丨数字人文师资培训：基本方法与教学设计

第十五期北京大学可视化发展前沿研究生暑期学校开幕

2024年北京大学可视化发展前沿研究生暑期学校报名第一阶段结束

“人文可视化”前沿讲习班开放报名

第十五期北京大学可视化发展前沿研究生暑期学校开放报名

IEEE PacificVis 2024 会议纪要之三

IEEE PacificVis 2024 会议纪要之二

IEEE PacificVis 2024 会议纪要 - 首日

第七届中日韩可视化论坛

可视化实验室师生参加国际会议PacificVis 2024

通识课《可视化看中国》春季学期更新信息

通选课《可视化看中国》春季学期选课

《数据可视化》课程设计

《可视化与可视分析》课程设计

可视化看中国 - 2024年更新上线

看见你的故事：叙事医学中的可视化

智能与考古跨学科合作分析彩陶花纹演变

PKUVIS两项作品2023中国数字人文年会项目获奖

可视化学术讲座 2023-6 | Till Nagel：Making with Temporal Data

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉