文档智能遇上历史古籍:古籍文档修复及识别开源数据集

文摘   2024-12-19 11:40   北京  

今天是2024年12月19日,星期四,北京,天气阴天。

我们继续关注文档智能,来看看古籍文档处理的一些工作,昨晚看到一个文档修复的工作,很有趣,也很有意义。

古籍文档处理,包括文本检测、布局分析、阅读顺序、文本ocr以及修复等多个工作,这个难度很大,但很有意义。

我们来看看这个方面的代表工作以及对应的竞赛任务和数据集,这些都后续可以使用多模态大模型来做,是个方向。

供各位参考,多思考,多总结,多实践;

一、从历史古籍文档修复任务HDR说起

历史文档在长期保存过程中常常遭受氧化、虫害、水侵蚀等问题,导致字符缺失、纸张损坏和墨水侵蚀。如何修复受损的历史文档,使其恢复到原始状态。

但是这类方法并不好做,难点在于,现有文档处理方法主要集中在二值化、增强等方面,缺乏对文档损伤的修复;历史文档修复是一个多模态任务,需要理解上下文和像素级的修复。

就实现方案来看,现有的图像修复方法主要针对图像去雨、去雾、去模糊和去噪等低级视觉任务,而历史文档图像处理方法则包括文本恢复、单个字符恢复和文档图像增强等。然而,这些方法无法有效修复受损的历史文档。

昨天看到一个工作, 《Predicting the Original Appearance of Damaged Historical Documents》(https://arxiv.org/pdf/2412.11634,https://github.com/yeungchenwa/HDR) ,提出了一种新的任务,称为历史文档修复(Historical Document Repair, HDR),旨在预测受损历史文档的原始外观。

很有趣,我们可以看看具体实现思路:

一个是数据集的构建,构建了一个大规模的数据集HDR28K,基于MTHv2和M5HisDoc两个数据集,分别从这两个数据集的测试集中随机选择536张和891张原始图像作为HDR28K的测试集。

从这些高分辨率原始图像中裁剪出512×512的补丁图像,裁剪过程中,专注于文本区域,并手动过滤掉低分辨率或缺乏文本强度的图像,以真实模拟历史文献中的各种损伤情况,具有较高的多样性和复杂性,

提到三种合成思路:

字符缺失:随机生成掩码并使用LAMA算法擦除掩码区域的文本内容,掩码分为字符级和块级两种类型;

纸张损坏:随机在补丁图像中应用黑色或白色像素掩码,掩码形状可以是矩形或不规则形状;

墨水侵蚀:使用genalog1模拟水侵蚀和字符褪色,随机采样矩形区域并应用多样化的退化模式和卷积核;

一个是模型的设计,即DiffHDR网络-基于扩散的历史文献修复网络DiffHDR,将HDR任务视为一系列扩散步骤,逐步将受损区域转换为与目标字符内容和字符风格相匹配的图像。

可以借此看下有哪些代表方案及其具体表现:

二、古籍文档识别的竞赛任务及数据集

1、粤港澳大湾区(黄埔)国际算法算例大赛-古籍文档图像识别与分析算法比赛

任务:古籍文档图像分析与识别

输入:篇幅级别的古籍文档图片

输出:结构化的文本行坐标以及识别内容,其中各个文本的检测结果与识别内容按阅读顺序进行排列输出。模型仅输出正文的检测识别结果。

标注数据如下:端到端古籍文档图像结构化识别理解中的阅读顺序标注可视化,训练集、验证集与测试集各包括1000幅古籍文档图像(共3000张图像),数据选自四库全书、历代古籍善本、乾隆大藏经等多种古籍数据。任务仅考虑古籍文档的正文内容,忽略如版心、卷号等边框外的内容

地址:https://aistudio.baidu.com/projectdetail/4525530

2、中文古籍版面分析数据集(SCUT-CAB)

由华南理工大学深度学习和视觉计算实验室发布。包括4000张古籍图像。数据集被分为两个子集:用于物理布局分析的SCUT-CAB-物理和用于逻辑布局分析的SCUT-CAB-Logical。SCUT-CAB-Physical包含四个类别{中心折条、图、页面框和文本},

而SCUT-CAB-Logical包含27个类别,{EOV(卷末)、作者、参考书目、书号、标题、中心折条、章节标题、整理表、标题、编号、编纂器、耳注、尾注、雕刻者、图、叶子、标题、行间注释、边缘注释、页面框、部分、部分、章节标题、子章节标题、副标题、经文号、文本、标题、卷号}

此外,SCUT-CAB数据集包括读取顺序的标签,{中心折条、图、页面框和文本}。

地址:https://github.com/HCIILAB/SCUT-CAB_Dataset_Release

3、古籍单字数据集(CASIA-AHCDB)

中科院自动化所刘成林老师团队推出,包含超过220万个10658类的注释字符样本。字符样本来自12,000多页的注释中国古代手写文件。根据不同的文件来源,数据库主要分为两个子数据库:四个部分的完整图书馆(风格1)和古代佛教经文(风格2)。每个子数据库可以根据其应用程序分为三部分:基本类别集、增强类别集和保留类别集。style1和style2的基本类别集有相同的2,365类,style1和style2的增强类集没有交叉类。

地址:https://nlpr.ia.ac.cn/pal/CASIA-AHCDB.html

4、大藏经古籍数据集(MTH)系列数据集

由Tripitaka Koreana in Han (TKH)数据集和Multiple Tripitaka in Han (MTH),旨在促进对中国历史文献的研究。

TKH_MTH是第一版,地址:https://github.com/HCIILAB/TKH_MTH_Datasets_Release

MTHv2数据集是对TKH_MTH的扩展。

该数据集由Weihong Ma等人于2020年创建,主要研究人员来自华南理工大学(SCUT)和北京龙泉寺。

MTHv2数据集通过添加布局、字符和文本行注释,扩展了原始数据集的规模,并引入了更具挑战性的文档图像,总数达到2200张。

提供三种类型的注释(示例在可视化中显示)。

第一种类型是行级注释,包括文本行位置及其转录,按阅读顺序保存。

第二种类型是字符级注释,包括类类别和边界框坐标。

最后一种类型是边界线,由线段的起点和终点表示。

地址:https://github.com/HCIILAB/MTHv2_Datasets_Release

5、中文族谱数据集(HDRC-Chinese)

文档分析与识别国际会议(IC-DAR)举办的中文古籍族谱理解,即大型结构化中国家庭记录历史文件阅读挑战(ICDAR2019HDRC),其中包括文本行识别、像素级版面分析以及端到端文本行检测识别任务,1172张主要用繁体汉文字书写的中文文件图像组成。

地址:https://tc11.cvc.uab.es/datasets/ICDAR2019HDRC_1

6、古籍OCR数据集(古籍影文Shadowscript)

一个开源项目,主要收录古籍OCR数据集,提供了字符标注信息。

地址:https://aistudio.baidu.com/datasetdetail/263383/0

总结

本文主要介绍了关于古籍文档处理的代表工作以及对应的竞赛任务和数据集,这些都后续可以使用多模态大模型来做,是个方向。

脚踏实地,从数据出发,关注数据,解决实际业务问题。

参考文献

1、https://arxiv.org/pdf/2412.11634

关于我们

老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。

加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入


老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
 最新文章