孙显斌丨古籍目录数据库建设与应用

学术 2024-11-14 20:07 江苏

注：本文发表于《数字人文》2023年第3期“系列笔谈之七：古籍目录数据库建设”，此为作者Word版，引用请以该刊为准。感谢孙显斌老师授权发布！

古籍目录数据库建设与应用

孙显斌

古籍数据库的应用，主要有两个方面：分别是学术研究和文化普及。就目录古籍数据库而言，目前主要还是学术方面的应用。既然如此，我们就要回顾古典目录学的“初心”是什么，也就是它如何支撑学术研究。搞清楚这些，就给我们建设古籍目录数据库提出了基本任务。如果我们用数字人文的方法，连传统目录学能够支撑的学术研究都做不到的话，那显然是不能让人满意的。

古典目录学的理论和实践，余嘉锡《目录学发微》给出了较完整的概括。首先，我们现在提到的书目大多是指多书目录，但实际上目录有两个含义。第一个含义是一本书的目录，也就是我们经常说的叙录，即单书目录。单书的叙录主要包括这个书的提要，再加上篇目。这里的篇目特别重要，一共有多少篇，每篇的标题是什么。第二个含义是多书目录，多书目录包含多条书目，它一般包括每本书的题名和作者，有的书也没作者，但至少要有书的题名。早期的多书目录，刘向《别录》、郑默《魏中经簿》和荀勖《晋中经新簿》就应该都包括每本书的篇目，但是后来的叙录就只有提要没有篇目了。我为什么强调篇目呢，应该说这是刘向、刘歆父子为我们建立的一个很好的传统。每本书的叙录带上篇目，如果这本书亡佚了，我们还可以通过篇目了解更多这本书的内容，包括书的结构，帮助做辑佚工作。为什么后来的叙录不再包括篇目了呢？可能是因为著录书籍的数量迅速增长，叙录里如果包括篇目，那么一部多书目录的篇幅就太大了。

接下来的问题是，在多书目录中众多条目如何排列——主要依靠分类和类内排序。多书目录都要有分类，如果没有分类，这个目录就很怪，就从头抄到尾，这种只能算是一种记账式的簿录，在中国古代这种情况很少见。有了分类，就会有小序，介绍每个部类的学术源流和内涵。中国的传统目录一直不是仅作为记账簿录而存在，而是从源头就与学术史密不可分，也就是章学诚所谓的“辨章学术，考镜源流”。与学术史紧密相关，这是中国传统目录学的核心特点之一。我们讨论古籍分类的流变比较多，因为它与学术史密切相关。但是分类的依据是什么？台湾学者周彦文指出古籍分类的维度有两个，分别是内容和体裁。大多数情况下古籍是按照内容分类的，但是集部基本上是按照体裁分类的，楚辞、总集、别集、词曲类等，其他比如史部的纪事本末类、子部的类书类等也是按照体裁分类的。类之间以及类内的书目顺序，一般是按照时间、空间和逻辑的顺序排列。以上即是古典目录学的理论，我们运用数字人文的方法解读古籍目录数据，就要从这些维度进行考察和分析。

至于古典目录学的实践，首先是查找一类之书。假如我是研究音乐的，宋代以前音乐的书有哪些？我们查《新唐书·艺文志》经部乐类就有61种，这里面包括亡佚的，即曾经存在的书。《新唐书·艺文志》属于品种目录，此外还有版本目录，在版本目录中可以查找一种书的各个版本；导读类的书目，比如《书目答问》；提要类书目，比如《四库总目提要》；我们可以通过阅读一类书的目录和提要了解相关的学术概况和发展史。其次是查找一书的著录，即同一部书在不同目录中的著录。也举一个音乐类古籍的例子，如智匠的《古今乐录》。它在《隋书·经籍志》《旧唐书·经籍志》《新唐书·艺文志》《宋史·艺文志》中都有著录，在其后的目录中就不见著录了，只有《清史稿艺文志及补编》列举了此书的辑本，一般我们认为它应该亡佚于南宋。我们通过考察一书之著录，可以查找其提要，获取其篇卷分合情况，分析其所属类目的演变，有时还要辨析其亡佚时代。在“经籍指掌——中国历代典籍目录分析系统”中我们就可以实现这些功能，还可以跨目录综合检索，这样才能体现数字人文的先进性。

在弄清楚古典目录学的理论和实践之后，我们需要回顾一下古籍目录数据库建设的历程。在现代图书馆中，古籍最早的编目形式也是目录卡片，在编目电子化的大潮中，卡片变成MARC数据，古籍目录也跻身电子目录，可以与其他书一起联合检索。但是我们都知道MARC数据的格式是针对现代书籍设计的，不能完全适应中国传统线装古籍的著录。有一些项目不方便揭示，只好放在备注项里。专门为传统古籍作电子编目的方案于是应运而生，就我所知，最早的是北京大学图书馆古籍部建设的“秘籍琳琅”网站，后来扩充建设成“学苑汲古——高校古文献资源库”。它始建于21世纪初，时间非常早，目前有28所高校加入，是大家常用的一个古籍目录数据库。该数据库专门为古籍设计了一套著录规范，还提供了高级检索、浏览和索引功能，除可以按题名、责任者等索引查询以外，还可以按照版本类别、出版年代和出版地点进行浏览，也就是说系统必然对以上著录项进行了标准化。比“学苑汲古”稍晚，北京大学数据分析中心李铎团队，先是和国家图书馆合作开发“中国古籍善本书目线上查询系统”，其后双方又合作在2009年完成“中国历代典籍总目系统”，当时是想陆续建成一个历代典籍目录的系统，可惜只完成了第一期。该系统在市场上有售，不过购买的机构不多，很多人不知道或者没有用过。系统包括历代史志目录、《四库全书总目》《中国古籍善本书目》《丛书综录》等各种类型古籍目录二十七部，书目条目的数量超过二百万。系统提供浏览、检索和分析三大功能：按照标准分类、原目出处、成书时代、版本类型、版本时代进行浏览；检索条件包括书名、书目范围、分类、书目层级、版本类型、版本时代、责任信息、责任时间以及全文检索等，可以任意组合；还提供责任者相关性分析、成书年代分布统计分析、书目层次聚类分析等分析功能。为了实现这些功能，开发团队基于国际图联提出的“书目记录的功能需求”（FRBR：Functional Requirements of Bibliographic Records）模型，将古籍分成品种、版本、印次和复本四个层次。还使用语义网知识库中的“本体”（Ontology）概念构建了中国古籍本体标准集，然后依此对古籍目录进行数据库化整理，并实现上述功能。在此之后，代表性的目录数据库有国家古籍保护中心的“全国古籍普查登记平台和发布平台”、上海图书馆的“中文古籍联合目录及循证平台”、中华书局古联公司的“中华古籍书目数据库”等。海外还有京都大学高田时雄先生主持开发的“日本所藏中文古籍数据库”，功能很简单，但是也是大家经常用到的。

最后，我们谈一下数字人文视野下古籍目录数据库的建设。图1是一个古籍数字化工作的示意图，从中可以看到古籍目录数据库的功能和地位。我们能够看到两个最基本的资源库即古籍目录库和古籍图像库，实际上古籍目录库更基本，因为它能够实现古籍图像资源的导航，这实际上也是目录最基本的功能，很可惜现在的目录库和图像库都没能链接起来。其实两者是不能分割的，古籍图像不仅要链接到书目上，还应该更进一步链接到书内的篇目上。在引用古籍时，引用篇目是一种重要的方式。所以说在古籍目录中消失很久的篇目，应该在数字人文时代重新回到目录学的视野中来。

图1 古籍数字化工作示意图

古籍的图像经过OCR文字识别，不同版本的文本可以进行自动校勘，然后可以进行自动句读、专名识别和关系提取等自然语言处理，从而基本上实现半自动化的古籍整理，大大提高古籍整理工作的效率。在此基础上，可以继续做检索、统计、重文分析、历时分析、共现分析、社会网络、可视化、知识图谱等各种分析和研究，达到数字人文的目的。可以说古籍资源库建设是基础，再加上支撑各种分析的古代知识本体库，两者构成古籍数字化研究的基础设施。现在大多数古籍数字化研究都集中在应用层，做底层工作也就是古籍数字化基础设施的太少了，就是因为有这个瓶颈在，所以古籍数字化研究一直处在不愠不火的状态。如果能很好地夯实和共享基础设施，我们必将迎来古籍数字化的发展和繁荣。

人文学者擅长解读经典文本，比如说汉代的经学家秦近君解说《尚书》“粤若稽古”四个字的解说就达三万言，这当然有些夸张，但人文学者的确就是有这个本领。随着时代逐渐靠近现当代，留存下来的史料越来越多，如何处理这么多史料则成为一个不能回避的现实挑战，仅靠学者阅读显然是无法实现的。比如我们要研究近代中国“科学”这个观念的引入和涵义变迁这一观念史的题目，就涉及太多的史料，除了书籍还有杂志、报纸、文件档案，等等。并且“科学”这个概念还有不同的名称，所以我们必须重视和充分利用数字人文的方法。傅斯年在《历史语言研究所之旨趣》中提出我们要“运用新材料,发现新问题,采取新方法。”我们认为数字人文就是这个意义上的新方法。然而应用数字人文方法的关键就是要让研究材料“可计算”，“可计算”是数字人文的核心概念。但是大家往往把“可计算”误解成“可计量”，认为要把材料都转变成数字才能计算。实际上“可计量”只是“可计算”概念中很小一部分内容。除了数字以外，更多计算的对象是各种关系。因此，数字人文的第一步是获取资源，第二步是将其结构化加工，这个结构化实际上还包括字段的标准化和属性的关系化。

我们用北京大学数字人文中心开发的“经籍指掌”来做解释说明，这个项目得到了国家古籍数字化专项的资助。根据《中国古籍总目》的调查结果，现存古籍大概有20万个品种，50万个版本。所以这个系统第一期的数据是在《中国古籍总目》的基础上加上七史艺文志、《四库全书总目》，目的是想覆盖古今所有典籍的品种，所以后续还会补充历代补史志艺文志和各种专科目录的数据。我们已经对亡佚古籍的品种数量做了初步考察，估计大约在15万到20万种之间，也就是说中国历史上存在的古籍大概在35万到40万种之间。我们加工这些书目文本，先通过计算机和算法进行自动记录拆分和字段提取，这样就完成了初步结构化。然后通过人工进行校对、书名和作者（包括作者朝代）规范以及数据补全，最后进行典籍品种认同。经过认同的书目数据，如果规范书名、作者朝代、规范作者名相同，那么两条数据就会被认为是同一种书，这样计算机就能自动进行品种关联和计算。我们目前开发了“检索统计”和“类目演化”两个功能，其中“检索统计”可以满足“查一类之书”和“查一书之著录”的需求。“类目演化”是我们尝试的一种分析功能，通过典籍类目的演化探索古代学术的变迁，实现这种分析的前提是不同目录中的典籍品种完成了认同关联。比如通过系统演示，《新唐书·艺文志》中经部乐类的典籍基本来自前代目录的经部乐类，有个别来自集部总集类，这些书在《宋史·艺文志》保持著录在经部乐类，到了《四库全书总目》，除去亡佚的，一部分进入子部艺术类，一部分进入子部小说家类。点击进去，可以看到具体是哪些书，从而实现了典籍类目演化的可视化分析。对于“查一书之著录”的需求，历代目录资源很多还没完成数字化，是今后目录数据库建设的重要瓶颈。而从典籍品种扩展到典籍版本，很多基础的工作还不够完善，因为版本认同在古籍普查工作中就没有完全解决，此外针对历史上已经亡佚的版本，也还有更多工作要做。总之，目前古籍目录数据库的建设已经取得一定的规模和成绩，但依然任重道远。

【作者简介】

孙显斌，北京大学计算机软件专业学士、中文系古典文献学博士，现为中国科学院自然科学史研究所研究员，中国古籍保护协会古籍智能开发与利用专业委员会委员、北京大学数字人文中心兼职研究员，“中国科技典籍选刊”联合主编，国家社科基金冷门绝学团队项目首席专家。曾任中国科学院自然科学史研究所所长助理、图书馆馆长。著有《〈汉书〉颜师古注研究》《攻玉集》，整理出版《王祯农书》《物理小识》等，参与开发“资治通鉴分析平台”“中国历代典籍目录数据集成与分析系统”等。

相关链接：

青年学者说文献学丨004中国科学院自然科学史研究所孙显斌

孙显斌丨从《王祯农书》看四库本系统的抄校与刊印

李文琦、王凤翔、孙显斌等丨历代史志目录的数据集成与可视化

王烟朦、孙显斌丨中国古代科技典籍英译文献之溯源、流布与影响（1736-1921）

孙显斌丨中国科技基本典籍刍议

孙显斌丨跨学科与跨文化：从海外汉学看国学或中国古典学的意义

孙显斌丨略论美国汉籍收藏史——以加州大学伯克利分校斯塔东亚图书馆为中心

孫顯斌、王孫涵之丨方以智《物理小識》與近代“科學革命”

孫顯斌：讀漢代三目札記兩則

孙显斌：写刻之间：《汉书》文本面貌之嬗变浅议

“书目文献”约稿：凡已经公开发表有关文献学、古代文史相关文章，古籍新书介绍、文史期刊目录摘要等均可。来稿敬请编辑为word格式，可以以文件夹压缩方式配图（含个人介绍），发到邮箱njt724@163.com。感谢您的支持！

需要图书推广、加读者群的各位师友请添加小编微信（sjhj2072），并备注“学校/单位/专业+推书/入群”。

http://mp.weixin.qq.com/s?__biz=MzkxNDI4MjM3MQ==&mid=2247547426&idx=1&sn=ee3b42e8b80a767d221fa3e7a0dbe585

十九号见

古代文史学术普及类个人账号

最新文章

托举庞大帝国走钢丝｜元朝书单

赵世超：怎样做好史学学位论文

齐鲁文化研究院 2025年博士研究生招生“申请-考核制”实施方案

陈文新：刘永济的曲学研究

以史为鉴，可以知兴替 | 30家古联体出版社秋季书单

杨巴金：南宋抗金英雄杨再兴探考

追寻已远｜一份早逝学人书单

中国训诂学研究会2025年学术年会通知

陈平原：“亲自读书”的重要性

姜小青 | 对编纂出版大型地方历史文献丛刊的再认识

赖瑞和：韦应物的诗《送杨氏女》——历史和文学的解读

文物出版社有限公司招聘启事（图书编辑）

杨念群谈清代“大一统”观念的形成

朱宏一：“钱钟书” 还是 “钱锺书”？ ——兼谈人名用字规范问题

合占词人第一流！“批校经籍丛编”集部第二种——郑文焯批校《花间集》全彩印刷出版

赵家的心事｜宋史阅读书单

黄博｜亡国的剧情各不相同，亡国的宿命殊途同归

李致忠：古籍版本鉴定知识浅谈

这是目前最全的论衡书目！

莫砺锋：我与程先生的师生缘

会议预告 |“万事可观：知识的思想史”——第四届复旦大学中国思想史研讨会

天地玄黄 | 一份易代遗民书单

罗时进：以四十年的坚持精心构造唐诗殿堂

董桥：小议胡适和傅斯年

张学锋：〔康熙〕《苏州府志》整理札记

陈尚君：我在向学之初就遇到朱东润、王运熙两位好老师

刘重喜 | 重现胡小石诗词的意境表达：《愿夏庐诗词》编后记

都来补课！黄永年、程千帆、杜泽逊等先生教你写信礼仪

公告 | 思勉人文高等研究院2025年博士研究生招生办法

南开史院学者的年度阅读著作推荐

新书丨《安徽文库》首批成果发布！

张宏生：最是从容读书时

戊戌六君子第一部诗文合集（精校本） | 汤志钧、杨天石推荐

为什么说晋朝是一个缺乏天命的朝代？

中国近一两百年变化多大｜思想史书单

陈先行：重视并做好古籍编目工作

新书推荐丨谭帆、王冉冉、李军均著《中国古代小说学史》出版

隋唐史、宋辽西夏金元史、明清史推荐书单

第二届中国研究生易学论坛征文启事

秦晖：在秦以后的历史中，士大夫最痛恨的是什么人？

新书速递 | 岳永逸《本末：艺人的身份、性情与社会》

张廷银丨关于口头文献的一点浅近思考

中国人有自己的漫威宇宙！姜子牙在这里修行、西王母在这儿定情……

柳素平：晚明名妓的气质与形象及其文化透视

仇鹿鸣：李世民篡改李唐建国的史实了吗？

70本值得再出的好书

书单 | 晚清以降中国亲历记相关书目（658种）

重庆大学中文系2025年教师招聘启事

别样的魏晋风度！“竹林七贤”嵇康的江苏后人｜方志江苏

陕西师范大学中国语言文学博士后科研流动站招聘公告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉