以深度学习方法检索IIIF中世纪抄本中的图像

文化   2024-10-17 00:27   广东  
Fouad Aouinti / 法国索邦大学STIH实验室
Victoria Eyharabide / 法国索邦大学STIH实验室
Xavier Fresquet / 法国索邦大学IReMus实验室
Frédéric Billiet / 法国索邦大学IReMus实验室
贾方舟(译)/清华大学(通讯译者)
刘亚丽(译)/河北省文物考古研究院

摘要在中世纪研究中,插图抄本是至关重要的图像来源。随着IIIF的广泛应用,古老和新近的数字抄本集可在线访问,并提供可用于互动操作的图像数据。然而,在抄本页面中找到插图的过程变得越来越耗时。文章提出了一种基于机器学习和迁移学习的方法,可以浏览IIIF手稿页面并检测出插图。为了评估此方法,一组相关领域的专家创建了一个新的手动标注的IIIF抄本数据集。初步结果显示,该算法可以检测出抄本中的主要插图页面,从而减少相关研究人员的检索时间。

一、简介
在中世纪,抄本上的绘画和美术作品通常用于装饰书页或是作为文本的评述。这些图像是手绘的装饰,例如微缩画、页边画和插画。抄本插画的历史大概能够追溯到古典时代。一些留存至今的文书档案,能够让我们看到一些明显的装饰元素:例如,古典时代的《荷马史诗》(以古希腊语书写,藏于大英图书馆),或是《圣经》条目(如“亚历山大手抄本”[Codex Alexandrinus],一份公元5世纪的希腊《圣经》抄本,包含了希腊文《旧约圣经》和《新约圣经》的主要部分)。在加洛林时期(Carolingian period,8世纪中叶至10世纪),艺术中心及特殊风格在不同的城市工作坊发展(如查理曼宫廷学校[Court School of Charlemagne]、Touronian风格、Drogo风格、秃头查理斯宫廷学校[Court School of Charles the Bald]等)。早在墨洛温时代(Merovingian period,481—751),具有象征意义的装饰物就出现在了抄本的页面边缘,而到了11至12世纪,随着法国不同艺术中心的进一步发展(修道院为主,其中包括最典型的勃艮第克吕尼修道院[Abbey of Cluny in Burgundy]),手抄本有时能够反映一种地方风格。这种情况下,插画就成为了中世纪研究中必不可少的图像元素,也是其他学术领域(考古学、艺术史、建筑学、音乐学、文学)中的重要历史知识。例如,在音乐学中,中世纪图像学分析能够带来有用的关于乐器特性、物质特征以及演奏方法(书写本文的研究团队主要关注着中世纪音乐学)的信息;因此,我们研发出了第一个中世纪音乐学的多对象数据库:Musiconis。[1]正如图1所示,我们观察到一个人拿着一个用来调弦的琴键。中世纪的图像并不总是像人们有时所认为的那样,是“文盲的圣经,而是一种形式和内容有着内在联系的创造物,具有强烈的可塑性和明确的视觉语言,其中类比、隐喻和联想非常丰富”。[2]因此,这些图像也能够给予我们一些重要的信息,例如,中世纪社会中声音的角色和地位。 
图1  B字母形插画 牛津大学基督教堂1201—1300年间抄本,St OmerRede诗篇,第7页右。
对于中世纪研究学家、艺术史学家以及所有这类图像史料的研究者而言,一个主要的难题便是寻找到手抄本书页中确切的插画位置。档案分析通常已经在图书编目中全部或部分地完成,这些编目已经精确地对手抄本中的图像给出了文本分析:它的位置(对开页中的页码)、使用何种技术及与每个插画关联的原始信息。然而,只有很少数字化文本收集并归纳了这些图像。一些工具已经存在——如CNRS的Initiale数据库[3]——这一数据库是基于一丝不苟的手动添加完成的。不幸的是,它仅仅局限于一些特定国家或地区的藏品。随着自2011年开始开发的IIIF[4]的发展,研究者们已经可以看到大量的数字化图像资源,这是标志着中世纪图像研究进步的重要工程。到2019年为止,已经能够提供10亿图像,其中大约3亿出自中世纪。一些个人项目也在IIIF的基础上于近期推出,它们往往基于深度学习和计算机统计技术。[5]然而,直到现在,尚未出现一个团队或项目使用最先进的深度学习方法在IIIF图书馆中找寻抄本中的插画。在自主搜索插画过程中,最主要的困难在于将文本与图像分离(必须考虑那些既不包含文本也不包含图像的抄本背景页)。这篇文章提出了一种基于迁移学习的方法,该方法能够将IIIF中收藏的手抄本页面进行快速预览并寻找到其中带有插画的页面。我们使用了HBA语料库[6]进行训练,这是一个在2017年“历史书籍分析竞赛”(Competition on Historical Book Analysis, 2017)上发布的基于像素的数据库。通过我们初步的研究表明,这一工程能够定位到主要的抄本插画位置,大大节省了研究者找寻插画的时间,从而为大规模的插画研究提供了便利。
二、从手抄本到插画
在数个世纪里,几乎所有书籍制作都集中在最重要的修道院的手工作坊,即缮写室(scriptoria)。手抄本的制作是一个复杂的团队协作过程。羊皮纸的制作者需要选择皮毛、处理皮毛,最终形成羊皮纸,并保证这些纸张能够用来书写。一旦用于书写的纸张制作完成,抄写员们就开始了他们的工作。他们往往用得到许多抄写技巧,当直接誊抄他人手抄本中的内容,或根据口述书写时,这些技巧让抄写者们能够以较快的速度抄写同样的文本。画横线能够让羊皮纸上呈现的文本更工整。首先,线条以若干点作为标识,随后用铅笔连接画线。如今一些羊皮纸上仍然保留着“缝线”(stitches),即以沿着边缘的规则小孔来勾勒网格的痕迹。
无论是在一份文本的开始还是结束,抄写员们都经常会加入一页“版权记录”(colophon,即一个以很小的字体书写制作日期和抄写员名字的页面)。这些纸张通常会在书写完成后交给标题书写者,由他们以彩色墨水书写大写的书名并配上一些简单的微缩画。最后,手抄本会交给插画师,由他们来进行最奢侈华丽的插画制作,并且通常围绕着那些最重要的书页完成配图。我们的工作则聚焦在这些插画上(西方手抄本中的插画)。我们力求以基于机器运算和迁移算法的现代方法分离出那些重要的抄本图像。此外,在过去十多年里,IIIF项目的发展已经能够让中世纪历史学家即刻得到不同的图书馆和博物馆中的手抄本的阅读权限。这种非凡的源代码开放自然与待分析页面的指数式增长同时发展。从这一点来看,图像研究完全可以受益于计算机科学研究成果。例如,13至15世纪的中世纪抄本通常有上百页,正如前文提到的,只有很少的页面专门进行了装饰,而且有时甚至只会配一个大图。
这一总体观察是我们建议的出发点,我们试图回答以下问题:计算机视觉技术在多大程度上可以像人类研究者一样精确地分离数字化手稿中的插画?如果确实可行的话,这种方法能否扩展到世界各地不同机构持有的广泛的手抄本中?
三、当下的技术水准
如今,世界各地的大型图书馆大多采取IIIF的方式来共享图像和文本档案。图书馆联盟[7]提供的新工具是这个项目的一个典型成品。它能够提供保存于24个世界大型数字馆藏中的公元1800年之前的档案(或理解为前现代文本)的77,000多个IIIF清单。它提供了对数字化的古代文献的阅览权限,并且允许研究者查看、翻阅和学习数字化的手抄本及各种专门的文书档案。计算机技术团队已经使用自动分析处理了一定数量的电子化抄本中的图像。第一个基于AI和IIIF的实验最早出现在2017年,主要在那些早期接受IIIF的国家中(法国、美国、日本等)。然而,我们的工作展现了一些新鲜的东西,因为它不是一个仅限于收藏的数据库。由Schlecht、Carqué和Ommer从2011年开始进行的项目提供了一个基于理想模型的用于四大类中世纪抄本图像的检测工具。[8]这是一种以中世纪法律抄本中的插画作为小型模板进行分析的算法,通过应用一种高效的归类方法,对人物姿势、比例以及朝向进行定位。在2019年,这一工程围绕着dhSegment[9]开展,制作出了一种基于CNN的开源检索工具,并且能够与任何的后处理相结合。这是一个非常灵活的工具,能够使用标准的交集算法(IoU)分析插画(装饰)。在那之后的一年里(2020),Tom Monnier和Mathieu Aubry提出了docExtractor,[10]一种不需要任何现实数据注释就能够从历史文书中提取视觉元素(包括线条和插画)的通用工具。他们依靠一个能够合成文档的快速生成器,并且设计出了一个完全闭合的(文本)神经网络,它比基于检索的方法要更加便利。这一工具使用解码器系统来组合ResNet和U-Net。此外,他们介绍了IlluHisDoc数据源,以此来完善对历史文书中图像的分离。本文中的研究方法建立在前面这些团队研究的基础之上,为了更进一步推动项目,我们进一步提出了一些创新的思路。
四、我们的提议
本文提出了一种以深度学习工具对IIIF中多元抄本中的插画进行检索的技术方案。这一传统的计算机检索方法常常被用于公元1600年之后的现代文本处理而从未应用于古代以及中世纪丰富的抄本之中。
为了检索IIIF中世纪抄本中的插画页面,我们提出了一种基于当下最先进的YOLO系统(第5代版本[11])的网络搭建。图2展示了我们项目的一个大体框架。首先,由于HBA图像没有对抄本中位于页边缘的图像进行标注,我们随机生成了10,000个矩形框并将其标注(图像、文本等)出来(程序4.1)。预处理以后,我们在HBA语料库上以YOLO进行训练和验证(程序4.2)。随后,对于每一份IIIF手抄本的电子化界面,提取每一个页面上的URL[12](程序4.3)。在我们的模型上评估了每一个页面上的图像(程序4.4)以后,合并所有寻找到的矩形框以发现那些插画(4.5)。随后,对于每个找到插画的页面,我们针对那些确实有图像的页面生成相应URL。例如,从页面(图3a)中找到了图3b。最后,我们比较了专家们对法国国家图书馆(Bibliothèque nationale de France, BnF)、巴塞尔大学(Universität Basel)、剑桥大学(University of Cambridge)、普林斯顿大学(Princeton University)等不同图书馆的中世纪抄本的注释和判断,综合评估了我们的成果(程序5)。
图2 检索IIIF中世纪抄本中的插画页面的概览图
图3
(一)准备HBA语料库
1.HBA语料库
HBA语料库[13]源于法国电子图书馆Gallica。它包含了从11本13至19世纪发行的历史档案中提取的4,436个人工扫描了完整框架的图像。这些是以300dpi或400dpi数字化的黑白或彩色图像,并以TIFF格式保存。HBA语料库还提供了1,429个像素级的带注释的真实图像。这些注释包含了六个不同的类别:图像、常规文本、大写文本、手写文本、斜体和脚注。数据准备是任何深度学习项目中最关键的一步。由于其性质,HBA语料库包含一些可能对学习过程产生重大影响的特性。第一个挑战是图像过大且分散,这些图像最大宽度为5,500像素,最大高度为8,000像素。第二个挑战来自HBA语料库的自身特征,它具有文本异质性、图像多元性以及复杂且往往不规律的边缘修饰。最后,HBA语料库并不能被看做完全随机的图像集,因为其中的图像往往出自同一本书,图像之间很可能包含了固有的联系。在进行图像抓取之前,需要针对HBA的图像进行一个预处理步骤。首先,我们在一个目录中重组了所有不同文本(常规文本、大写字体、手写体、斜体和脚注)并将它们简化成了三类:图像、文本和其他(graphic, text, the _rest)。随后,我们删除了1,063张不包含图像、已损坏或有扫描缺陷的页面。因此,在原始的1,429张使用六个分类进行像素级标注的页面中,经过预处理步骤后,我们得到了366张划分为三类的像素级标注页面。
2.在HBA语料库中训练YOLO
为了训练YOLO,必须用环绕插画的边框对366个选定的HBA图像进行标记和注释。因此,对于每一幅图像,我们随机生成了10,000个不同大小的边界框,并根据背景颜色的阈值,赋予相应矩形框以适当的分类(图形、文本和其他),建立标准训练数据集。这个新的数据集被分成了训练(80%)和测试(20%)两个小部分。其中训练部分包含了对293个完整图像及其边界框的标注。根据YOLO规范,每个注释都包括:对象类(0:图像,1:文本,2:其他)、x和y中心坐标、边界框的高度和宽度(范围为[0.0, 1.0])。最终,我们构建的HBA语料库包含了94,084个标注,分为三个大类:图像(31,181个)、文本(31,138个)、其他(31,765个)。就训练目的而言,其分布是非常均衡且精确的。
3.从IIIF检索页面的图像
根据IIIF规范,[14]IIIF清单应描述数字化对象或其他图像的基本结构和布局。基于Shared Canvas Data Model,[15]一份清单必须基本具有以下结构:每个IIIF清单都有一个或多个序列;每个序列(视图的顺序)必须至少有画布;每个画布(一个表示页面或视图的虚拟容器)应该有一个或多个内容来源(例如手抄本中的图像或文本);图像与各自画布的联系需通过标注完成。受益于这个结构良好的IIIF规范,我们读取了JSON-LD清单,将URL列表提取至每个手稿页面的图像。
4.剥离装饰性插画
在YOLO基础上进行标注以后,我们依据所需的数据进行描述和改写,在YOLIOv5基础上特殊化其中带有名称和数量等信息的部分。在实例中,我们选择了一个基于YOLOv5的最小最快的数据模型,即YOLOv5s。在训练中,YOLOv5创造了三种依次增强的训练数据:缩放、调整颜色空间分布以及对局部镶嵌画的增强。我们可以将训练数据和增强训练数据的图像可视化。训练完成后,我们将训练的模型用于测试图4所示的手抄本图像。为了进行推理(inference),我们引入模型置信度分数用于样本权重自适应。
图4
5.整合边界框
如图4a所示,YOLO模型检测到的矩形框区域有很大的重叠。为此,我们开发了一种算法(如图5),将一组边界框组合成包含感兴趣区域的更大边界框。
图5 将一组边界框组合成包含感兴趣区域的更大边界框的算法示例
为此,我们评估了我们提出的算法在不同图像上合并重叠图形的能力,包括图4a中检测到的边界框。图4b所示的结果是令人满意的。
6.从相应区域生成URL
IIIF图像API 3.0[16]指定了一种通过标准HTTP请求传输图像的标准化URL算法。该算法适用于对同一图像的两种不同类型的指令:对图像本身的指令(图像文件)和对图像技术信息的指令(JSON文件)。URL需要符合以下基本指令:{scheme}://{server}{/prefix}/{identifier}/{region}/{size}/{rotation}/{quality}.{format}。
我们感兴趣的是区域参数,它定义了要返回的底层图像内容的矩形框部分。默认情况下,区域通常由阈值指定,这意味着应该返回完整的图像。在应用本文提出的算法合并重叠边界框后,我们按照IIIF标准指定的算法,用系统检测到的插画图像坐标替换全部的默认区域值。
五、AI创造力与艺术创作
我们咨询了中世纪研究学家以创造一组更具可信度的人工判断的IIIF图像组。由于人工注释的时间非常宝贵,他们只针对每个图书馆(瓦朗谢纳、巴塞尔大学、剑桥大学、普林斯顿大学)中的一份手抄本进行了注释,共计1,835张插画。在这一章节,我们提供测试数据并讨论其结果。
(一)创建一份IIIF抄本图像数据测试库
一组中世纪研究专家创建了一个中世纪抄本插画的IIIF数据库,以测试和验证我们在中世纪抄本中识别插画的深度学习算法。他们选择了四份具有不同形状、大小和特征的插画的抄本,其大约生产时间从公元800年至1300年不等。表1总结了抄本的特点。虽然这个数据集只适用于有限数量的文档,但我们选择了来自不同数据库的手稿,以证明远程IIIF图像分析系统可以应用于各种集合。
表 1IIIF测试数据集的特征
图6
图7
第一份手稿是保存在瓦朗谢纳—法国国家图书馆一份9世纪出版的主要包含《启示录》(Apocalypse)文本的一部分,可能出自西班牙。这本拉丁文书由40张皮纸(27×20厘米)组成,用压纹小牛皮装订,包含大约四十幅插画。每幅画都对应着一个出自《启示录》的传说(图6a)。除了IIIF收录的图像之外,每幅插画(包含用鲜明图案装饰的大写首字母、页边缘插画)已由CNRS/IRHT Initiale数据库中的人类专家人工识别。
第二个手抄本为《动物志》(History of Animals)抄写着大约公元前343年出自亚里士多德之手的物种志。这份文书包含152页(25×18厘米),书写于13世纪。抄本中的首字母装饰有着丰富含义(图6b)。
第三份抄本来自剑桥大学图书馆。它包含235页(27x21厘米),大约在1120—1130年间制作,有着精美的装饰,相比福音书中植物和人的装饰(用红、蓝、绿、白和金色绘制)更加倾向空心矩形装饰(图7a),其中较窄的矩形装饰则出现在主要部分开始之前。
第四份抄本是一份写于大约1270年代的《圣经》,制作于英格兰。这份文书采取福音书双栏对开的书写方法,左右两侧各有相互平行的板块,它包含了468页(24×16.8厘米)。文本内的装饰不同,多是1行高到8行高不等的首字母画(图7b)。
(二)实验结果
与整个页面相比,要检测的对象的尺寸可能非常小。因此,缩小图像尺寸可能会导致其中一些内容完全被消除,且无法恢复。由于这个纵横比的挑战,需要训练多个模型并测试不同的输入图像大小,才可以选择出其中最有效的。为了评估所提出方法的性能,我们设计了一个混淆矩阵,以获得以下分类指标的概貌:精准率(Precision)、查全率(Recall)和f-分数(f-score)。我们的系统执行所获得的结果,与对YOLO模型的全新训练有关,如表2所示。乍一看,结果可能略有不同,但这更多是由于测试抄本的性质造成的,包括退化特性、扫描缺陷,以及中世纪研究学家所采用的标注方法等。
表2 抄本图像检测实验结果
1TP(True Positive),指某(些)个正样本被模型预测为正。2TN(True Negative),指某(些)个负样本被预测判定为负。3FP(False Positives),指某(些)个负样本被模型预测为正。4FN(False Positive),指某(些)个正样本被模型预测为负。
从瓦朗谢纳—法国国家图书馆的抄本开始,我们的分类系统产生的14个假正例(TP)预测通常源于图像的形状问题,如图8a所示。这些IIIF图像的封面页、书脊(书口)、书写规范等出现了错误。不幸的是,这种类型的图像与HBA语料库训练图像有一些相似之处,这就是为什么我们的深度学习算法更容易学习一些共有特征。此外,在由资深专家注释的40个插画中,YOLO训练出的模型能够识别到37幅,精准率为0.73。表3向我们展示了IIIF插画的URL示例,该URL出自我们系统的整体URL生成页面。在这个例子中,深度神经网络预测了除表3第1行左侧页面中间的图形(动物)之外的所有图形,这是由于在学习阶段,系统没有在此类对象上进行训练以提取这些特征。因此,总的来说,可以注意到,在训练数据集较小且存在影响测试图像布局的问题的情况下,我们在HBA数据集上预训练的模型可以检测到瓦朗谢纳—法国国家图书馆的IIIF手稿中的指定类别。
图8
第二个实验是在巴塞尔大学的手抄本上进行的,以测试我们的检测系统的性能。在这种情况下,可以看到我们的模型能够正确检测到19个带注释图像中的16个(TP),检测插画的精准率为0.62。如表3(第2行左侧页面,巴塞尔大学所藏抄本)所示,我们的对象检测器正确地识别到了图像。然而,10个假正例(FP)预测主要是由扫描缺陷造成的,尤其是边缘、调色板和标尺。以包含调色板的IIIF图像为例(如图8b所示),我们的系统认为它是一组图形,因此在合并边界框后将检测到的区域作为插画标识。
表2还显示了第三次实验的结果,我们基于剑桥大学所藏手稿测试了该模型。事实上,得到的结果并不能反映真实情况,原因很简单,除了有扫描缺陷的图像外,YOLO训练的模型还检测到IIIF图像中的其他对象,这些对象通常是图表和装饰,但没有经过相关专家的标注。因此出现18个假正例(FP)预测,图8c展示了一个例子。
表3 IIIF图像的URL生成示例(左侧为IIIF原始图像,右侧为IIIF生成的URL)
我们的系统可以明显地帮助相关中世纪研究学家对图像进行标注和对图形对象进行检测,从而减少他们的研究时间。另一方面,在有实际插画的手抄本页面中,我们的模型也能有效地检索IIIF的URL,如表3所示(第3行左侧页面)。实际上,即使指定的大类没有获得足够的分数,训练过的模型仍然表现得足够好。
对普林斯顿大学的手抄本进行测试,我们所提出的算法具有相当的准确性,其精准率为0.67。在整个抄本页面包含一个小型装饰画的情况下,系统会因为它没有被学者们标注,就将其视为假正例(FP)。然后,包括图8d所示的带有小型装饰的文本在内,我们的模型将34张图像预测为有插画的文本。由于其对插画检测精度的重大影响,因此可以增加一个后处理步骤来指定插画的最小尺寸。此外,通过表3中的例子(第4行左侧页面),应该注意到对70张图像(72张图像中仅有2张例外)的预测为正例(TP)。
在这项工作中,深度学习算法的主要挑战之一是在使用HBA语料库进行训练的基础之上,识别IIIF格式的页面插画,并在经过简化的IIIF数据上进行迁移学习。这一困难带来了几个检测问题,因为我们能够很快地看到,相关的图像具有非常不同的性质:整页彩绘的图像,装饰丰富的中等大小的首字母,小的插画首字母,空白处不同形状、位置的插画,大范围的色彩使用,某些图像的背景使用(图表、示意图)。所有这些类型的图像,在训练有素的中世纪研究学者眼中是很容易识别的,但对于机器来说却产生了很大的困难。
六、结论和展望
在这项工作中,我们在HBA语料库上训练了YOLOv5,以使用迁移学习技术检测IIIF中世纪手稿中的插画,并得出结论——我们所提出的算法是有积极结果的,这可以解释为数字化文本本身的性质(文书的正面和背面、拍摄的多色采样尺度)使然。这项工作是具有探索性的,也值得进一步深化。
因此,我们提出了几个未来的研究视角,我们的团队将继续深入。首先,为了在更大的数据集上测试该模型,我们建议使用bibilissima[17]的数据库,特别是较为原始的初级数据库,以测量模型在像素化文本上的检测精准率。接下来,我们将借助几个数据库构建一个专门收录中世纪抄本插画的虚拟数据库,并探索以可用的工具来在线注释这些图像。最后,构建一个包含数千个IIIF图像的数据库,用于研究中世纪的音乐、舞蹈、表演,甚至声音。基于Musiconis项目,我们将探索IIIF作为使用机器学习技术推进音乐学研究的关键要素。
Illumination Detection in IIIF Medieval Manuscripts Using Deep Learning
Fouad Aouinti, Victoria Eyharabide, Xavier Fresquet, Frédéric Billiet
Abstract: Illuminated manuscripts are essential iconographic sources for medieval studies. With the massive adoption of IIIF, old and new digital collections of manuscripts are acces- sible online and provide interoperable image data. However, finding illuminations within the manuscripts’ pages is increasingly time consuming. This article proposes an approach based on machine learning and transfer learning that browses IIIF manuscript pages and detects the illuminated ones. To evaluate our approach, a group of domain experts created a new dataset of manually annotated IIIF manuscripts. The preliminary results show that our algorithm detects the main illuminated pages in a manuscript, thus reducing experts’ search time.
Keywords: Illumination Detection; Deep Neural Networks; IIIF; Medieval Studies; Iconography
原文信息:Fouad Aouinti, Victoria Eyharabide, Xavier Fresquet, and Frédéric Billiet, "Illumination Detection in IIIF Medieval Manuscripts Using Deep Learning," Digital Medievalist, vol. 15, no.1, 2022, pp. 1-18, DOI: https://doi.org/10.16995/dm.8073。翻译及出版均已获得作者允许。
IIIF:The International Image Interoperability Framework,网址:https://iiif.io/。
STIH: Sens Texte Informatique Histoire,实验室主页:http://stih-sorbonne-universite.fr/。
IReMus: Institut de Recherche en Musicologie,实验室主页:https://www.iremus.cnrs.fr/。
注释
[1]数据库网址:http://musiconis.huma-num.fr/fr/。
[2]Jérôme Baschet, L’iconographie médiévale, Paris: Gallimard, 2008.
[3]Initiale“, Initiale:CatelogueDemanuscritsInlumines,”http://initiale.irht.cnrs.fr,AccessedNovember15,2021.
[4]IIIF(International Image Interoperability Framework,国际图像互操作框架),是一组实现图像资源互操作的技术标准,旨在使用户能更轻松地查看、操纵、比较和注释网络上的数字图像。引自复旦大学图书馆“IIIF图像服务简介”,http://www.library.fudan.edu.cn/2020/0305/c1313a156261/page.htm,2023年12月12日。——编者注
[5]Jean-Philippe Moreux,“Using IIIF for Image Retrieval in Digital Libraries: Experimentation of Deep Learning Techniques,”In IIIF Conference, Göttingen, Germany, 2019; Satoru Nakamura,“Development of Content Retrieval System of Scrapbook 'Kunshujo' Using IIIF and Deep Learning,”In IIIF Conference, Göttingen, Germany, 2019; Victoria Eyharabide et al.,“Towards the Identification of Medieval Musical Performance Using Convolutional Neural Networks and IIIF,”In IIIF Annual Conference, Harvard University and MIT, USA, 2020.
[6]Maroua Mehri et al.,“HBA 1.0: A Pixel-Based Annotated Dataset for Historical Book Analysis,”In Proceedings of the 4th International Workshop on Historical Document Imaging and Processing, 2017, pp. 107-112, DOI: http://doi.org/10.1145/3151509.3151528.
[7]Biblissima+Consortium,网址:https://projet.biblissima.fr/en/community/biblissima-consortium#:~:text=Biblissima%2B%20Consortium%20Biblissima%2B%20brings%20together%2016%20institutions%20which,programme%20is%20supported%20by%20the%20Campus%20Condorcet%20%28EPCC%29。
[8]Joseph Schlecht, Carqué Bernd, OmmerBjörn“, Detecting Gestures in Medieval Images,”In Proceedings of the 18th IEEE International Conference on Image Processing, 2011, pp. 1285-1288, DOI: https://doi. org/10.1109/ICIP.2011.6115669.
[9]Sofia Ares Oliveira, Benoit Seguin, Frederic Kaplan“, dhSegment: A Generic DeepLearning Approach for Document Segmentation,”In Proceedings of the 16th International Conference on Frontiers in Handwriting Recognition (ICFHR), 2018, pp. 7-12, https://doi.org/10.1109/ICFHR-2018.2018.00011.
[10]Tom Monnier, Mathieu Aubry“, docExtractor: An Off-the-Shelf Historical Document Element Extraction,” In Proceedings of the 17th International Conference on Frontiers in Handwriting Recognition (ICFHR), 2020, pp. 91-96, DOI: https://doi.org/10.1109/ICFHR2020.2020.00027.
[11]Jocher et al,“Ultralytics/Yolov5: v5.0 – YOLOv5-P6 1280 Models, AWS, Supervise.ly and YouTube Integrations,”Zenodo, 2021, https://zenodo.org/record/4679653#. YZMUkS971QJ.
[12]URL(Uniform Resource Locator),统一资源定位符,是用于在互联网上定位资源的唯一标识符,指向特定网站、网页或文档,即俗称的网页地址。参考:https://www.zhihu.com/question/25118513。——编者注
[13]Maroua Mehri et al.,“HBA 1.0: A Pixel-Based Annotated Dataset for Historical Book Analysis,”In Proceedings of the 4th International Workshop on Historical Document Imaging and Processing, 2017, pp. 107-112, DOI: https://doi.org/10.1145/3151509.3151528.
[14]https://iiif.io/api/presentation/3.0/
[15]http://iiif-io.us-east-1.elasticbeanstalk.com/model/shared-canvas/
[16]https://iiif.io/api/image/3.0
[17]Biblissima,面向古代文献历史学家提供对中世纪手稿、古籍和早期印刷书籍数据,专注于研究8至18世纪书籍的流通和文本的传播。参考欧洲数字人文学会(EADH)网页介绍:https://eadh.org/projects/biblissima。——编者注
原刊《数字人文》2023年第4期

古籍
始于2014年,古籍及艺术品收藏拍卖行业第一大号,数十万古董收藏家爱好者都在关注的掌中文史副刊,从古旧书趣味考古中解读新鲜历史观点,古玩、古董、书画、收藏、拍卖、国学、文化、历史、读书、苏富比、佳士得、嘉德、保利最新资讯等及时送达。
 最新文章