11月1日下午,明德书院“数字时代的古籍人文知识库建设方法与案例”专题讲座在立德楼二层书院第六空间举办。本次讲座由南京师范大学文学院李斌主讲,中华书局古联公司总编辑、《数字人文》副主编朱翠萍与谈,中国人民大学明德书院副院长华建光主持。
讲座伊始,华建光老师指出,伴随数字人文的发展需求,古籍人文知识库的建设价值日益凸显。为此,明德书院特邀长期在一线从事古籍数字化学术研究与人才培养工作的李斌老师,结合实例为同学们介绍古籍人文知识库建设的经验与现状。
首先,李斌老师从当下的教育体系建设问题出发,精确点出古籍数字化发展的重点与难点。一方面,不同于一般的文献整理,古籍整理需要更深厚的人文学科专业知识基础。另一方面,人文研究者对古籍的热爱与责任是支撑其长久投入古籍保护工作的“稳定器”。这样的人才在时下社会中还很欠缺,成为限制古籍数字化进一步发展的瓶颈问题。
尔后,李斌老师以南京师范大学文学院在古籍数字化整理人才培养工作中曾经面临的困惑与挑战以及当前已经取得的成果为例,简单分享了自己在此方面的经验心得。针对前者,李老师主要讨论了交叉学科背景下学生课程的设置安排、面向专家的检索平台与学生使用需求的不适配等突出问题。针对后者,李老师则以近三年来由南师大等高校组织筹办的EvaHan等国际测评竞赛结果为例,展现了当前国内古籍数字化人才培养的初步成效。。鉴于欧美国家在古籍知识库建设方面的研究起步较早,李斌老师援引了包括ctext、Digital Atlas of Roman and Medieval Civilizations、CBDB等在内的若干具有代表性的国外古籍知识库成果,带领同学们探讨其中可供学习参考的经验。
对比国外的古籍知识库建设工作,李老师指出,汉语文本的处理任务有其特殊性,也为我们带来了若干新的挑战,诸如断句、标点、分词、词性标注、专名标注等问题,都需要重新加以审视。李老师也对每一类问题都分别举例给予了详细说明。此外,李老师还指出,知识库的建设不同于一般的数字化,需要充分考虑底层结构的设计。
李老师以CBDB中亲属关系的正则化方法为例,指出以往CBDB中所记录的关系类型复杂,在表示亲属关系时所能构建的树状结构存在较多局限,不适合于家谱关系的呈现与推理补全。李老师将CBDB所包含的全部亲属关系归纳合并,极大简化了亲属关系的表示逻辑,由此将亲属关系转化为网状结构,便于可视化及预测分析。
最后,李斌老师强调,数字人文的核心未来逐渐转向人文计算。李老师建议,未来的数字人文话语可以逐渐回归到各个学科中去,以“计算语言学”“计算文学”“计算文献学”“计算史学”等“计算+人文”的名义,取代当下繁多不清的研究分支。无论是人文数据载体的转型、人文知识的组织与表示,抑或人文知识的分析和推理,其基础都要回归人文。与此同时,人文学者也不宜排斥计算机在人文研究中的作用,而应将计算机视作人类体力与脑力的延伸,根据人文本位的需求积极探索应用层面的设计更新,使之服务于人的需要,从而突破传统人文研究“深耕细作”模式下存在的种种局限。
在提问环节,李斌老师主要就实际任务下分词标准的评判与选定、当下古籍知识库建设中机器参与的贡献程度、知识库建设成果如何真正满足大众需求且为大众所用等问题给予了耐心详实的解答。
其后,朱翠萍老师总结强调,古籍人文知识库的建设是一个“老大难”的话题,但又具有极广阔的前景,值得学界为之持续探索。同时,朱老师也就讲座内容提出了自己的若干思考,包括分词等技术目前是否取得实质性的突破、数字技术的发展能否真正紧扣人文问题的需求,以及面对愈见纷繁的各领域知识库建设工作,我们是否有可能将数据加以统合,推出相关标准,使知识库之间能够融通、关联。在朱老师发言后,李老师也就以上观点逐一给予了深入回应。
文案|学术创新中心 米 合
摄影 | 学术创新中心 马琛沣
编辑 | 媒体与信息中心 孟子杰