文档智能遇上历史古籍：古籍文档修复及识别开源数据集

文摘 2024-12-19 11:40 北京

今天是2024年12月19日，星期四，北京，天气阴天。

我们继续关注文档智能，来看看古籍文档处理的一些工作，昨晚看到一个文档修复的工作，很有趣，也很有意义。

古籍文档处理，包括文本检测、布局分析、阅读顺序、文本ocr以及修复等多个工作，这个难度很大，但很有意义。

我们来看看这个方面的代表工作以及对应的竞赛任务和数据集，这些都后续可以使用多模态大模型来做，是个方向。

供各位参考，多思考，多总结，多实践；

一、从历史古籍文档修复任务HDR说起

历史文档在长期保存过程中常常遭受氧化、虫害、水侵蚀等问题，导致字符缺失、纸张损坏和墨水侵蚀。如何修复受损的历史文档，使其恢复到原始状态。

但是这类方法并不好做，难点在于，现有文档处理方法主要集中在二值化、增强等方面，缺乏对文档损伤的修复；历史文档修复是一个多模态任务，需要理解上下文和像素级的修复。

就实现方案来看，现有的图像修复方法主要针对图像去雨、去雾、去模糊和去噪等低级视觉任务，而历史文档图像处理方法则包括文本恢复、单个字符恢复和文档图像增强等。然而，这些方法无法有效修复受损的历史文档。

昨天看到一个工作， 《Predicting the Original Appearance of Damaged Historical Documents》(https://arxiv.org/pdf/2412.11634，https://github.com/yeungchenwa/HDR) ，提出了一种新的任务，称为历史文档修复（Historical Document Repair, HDR），旨在预测受损历史文档的原始外观。

很有趣，我们可以看看具体实现思路：

一个是数据集的构建，构建了一个大规模的数据集HDR28K，基于MTHv2和M5HisDoc两个数据集，分别从这两个数据集的测试集中随机选择536张和891张原始图像作为HDR28K的测试集。

从这些高分辨率原始图像中裁剪出512×512的补丁图像，裁剪过程中，专注于文本区域，并手动过滤掉低分辨率或缺乏文本强度的图像，以真实模拟历史文献中的各种损伤情况，具有较高的多样性和复杂性，

提到三种合成思路：

字符缺失：随机生成掩码并使用LAMA算法擦除掩码区域的文本内容，掩码分为字符级和块级两种类型；

纸张损坏：随机在补丁图像中应用黑色或白色像素掩码，掩码形状可以是矩形或不规则形状；

墨水侵蚀：使用genalog1模拟水侵蚀和字符褪色，随机采样矩形区域并应用多样化的退化模式和卷积核；

一个是模型的设计，即DiffHDR网络-基于扩散的历史文献修复网络DiffHDR，将HDR任务视为一系列扩散步骤，逐步将受损区域转换为与目标字符内容和字符风格相匹配的图像。

可以借此看下有哪些代表方案及其具体表现：

二、古籍文档识别的竞赛任务及数据集

1、粤港澳大湾区（黄埔）国际算法算例大赛-古籍文档图像识别与分析算法比赛

任务：古籍文档图像分析与识别

输入：篇幅级别的古籍文档图片

输出：结构化的文本行坐标以及识别内容，其中各个文本的检测结果与识别内容按阅读顺序进行排列输出。模型仅输出正文的检测识别结果。

标注数据如下：端到端古籍文档图像结构化识别理解中的阅读顺序标注可视化，训练集、验证集与测试集各包括1000幅古籍文档图像（共3000张图像），数据选自四库全书、历代古籍善本、乾隆大藏经等多种古籍数据。任务仅考虑古籍文档的正文内容，忽略如版心、卷号等边框外的内容

地址：https://aistudio.baidu.com/projectdetail/4525530

2、中文古籍版面分析数据集(SCUT-CAB)

由华南理工大学深度学习和视觉计算实验室发布。包括4000张古籍图像。数据集被分为两个子集：用于物理布局分析的SCUT-CAB-物理和用于逻辑布局分析的SCUT-CAB-Logical。SCUT-CAB-Physical包含四个类别{中心折条、图、页面框和文本}，

而SCUT-CAB-Logical包含27个类别，{EOV（卷末）、作者、参考书目、书号、标题、中心折条、章节标题、整理表、标题、编号、编纂器、耳注、尾注、雕刻者、图、叶子、标题、行间注释、边缘注释、页面框、部分、部分、章节标题、子章节标题、副标题、经文号、文本、标题、卷号}

此外，SCUT-CAB数据集包括读取顺序的标签，{中心折条、图、页面框和文本}。

地址：https://github.com/HCIILAB/SCUT-CAB_Dataset_Release

3、古籍单字数据集(CASIA-AHCDB)

中科院自动化所刘成林老师团队推出，包含超过220万个10658类的注释字符样本。字符样本来自12,000多页的注释中国古代手写文件。根据不同的文件来源，数据库主要分为两个子数据库：四个部分的完整图书馆（风格1）和古代佛教经文（风格2）。每个子数据库可以根据其应用程序分为三部分：基本类别集、增强类别集和保留类别集。style1和style2的基本类别集有相同的2,365类，style1和style2的增强类集没有交叉类。

地址：https://nlpr.ia.ac.cn/pal/CASIA-AHCDB.html

4、大藏经古籍数据集(MTH)系列数据集

由Tripitaka Koreana in Han (TKH)数据集和Multiple Tripitaka in Han (MTH)，旨在促进对中国历史文献的研究。

TKH_MTH是第一版，地址：https://github.com/HCIILAB/TKH_MTH_Datasets_Release

MTHv2数据集是对TKH_MTH的扩展。

该数据集由Weihong Ma等人于2020年创建，主要研究人员来自华南理工大学（SCUT）和北京龙泉寺。

MTHv2数据集通过添加布局、字符和文本行注释，扩展了原始数据集的规模，并引入了更具挑战性的文档图像，总数达到2200张。

提供三种类型的注释（示例在可视化中显示）。

第一种类型是行级注释，包括文本行位置及其转录，按阅读顺序保存。

第二种类型是字符级注释，包括类类别和边界框坐标。

最后一种类型是边界线，由线段的起点和终点表示。

地址：https://github.com/HCIILAB/MTHv2_Datasets_Release

5、中文族谱数据集(HDRC-Chinese)

文档分析与识别国际会议(IC-DAR)举办的中文古籍族谱理解，即大型结构化中国家庭记录历史文件阅读挑战（ICDAR2019HDRC），其中包括文本行识别、像素级版面分析以及端到端文本行检测识别任务，1172张主要用繁体汉文字书写的中文文件图像组成。

地址：https://tc11.cvc.uab.es/datasets/ICDAR2019HDRC_1

6、古籍OCR数据集（古籍影文Shadowscript）

一个开源项目，主要收录古籍OCR数据集，提供了字符标注信息。

地址：https://aistudio.baidu.com/datasetdetail/263383/0

总结

本文主要介绍了关于古籍文档处理的代表工作以及对应的竞赛任务和数据集，这些都后续可以使用多模态大模型来做，是个方向。

脚踏实地，从数据出发，关注数据，解决实际业务问题。

参考文献

1、https://arxiv.org/pdf/2412.11634

关于我们

老刘，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。

加入会员方式：关注公众号，在后台菜单栏中点击会员社区->会员入群加入

老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

最新文章

大模型用于情报分析时间线生成(TLS)任务：根本问题及两个代表工作

OCR噪声对RAG性能的影响分析：兼谈公众号文章的价值正确定位

60k感知算法岗面试，考察热门Occ算法及难点！

技术实践指引：3个适合练手的开源数据及项目平台

语音处理落地组件全家桶：语音大模型、数字人、语音到文本、文本转语音全集

老刘说NLP社区2024年终演讲：回顾得失，踏实前行

GraphRAG范式的新角度思考及一个很有信息量的总结

大模型4大神书《动手学大语言模型之语言理解和生成》分享

RAG落地端侧场景：EdgeRAG面向端侧RAG优化思路及特定领域多模态探索

2025年开篇：技术及宏观角度回顾2024年大模型发展

老刘说NLP及大模型的2024年终总结—不悲不喜、继续前行

GraphRAG前沿进展：引入本体的OG-RAG及HYBGRAG实现思路

大模型与知识图谱结合之三元组预测及GEAR多跳问答思路

老刘说NLP技术社区共享：围绕知识图谱+大模型+文档智能三驾马车前进

多模态RAG中的图文Embedding模型及8个图文对数据集

Prompt自动优化框架PromptWizard及AI搜索框架Level-Navi Agent实现思路

RAG的4种查询优化思路及用于时序预测的2个工作

又看多模态RAG进展：解读OmniSearch-多模态检索增强生成新SOTA！

大模型用于推荐(LLMERS)范式总结及缓存增强生成（CAG）实现思路

打破记录！“真心建议” 大家读一下这篇《Nature》重磅文章

再看情报分析中的事件名称生成策略：基于最长公共子串思想原理

两个值得一读的技术总结：OpenAI o1模型复现复现思想及多模态大模型用于数学推理

langchain关于Agent的年终统计及文档图片去水印思路

文档智能遇上历史古籍：古籍文档修复及识别开源数据集

再看多模态RAG进展：VisDoMRAG及DocVLM-OCR方案解读

《一书解决几乎所有机器学习问题》.PDF下载

【数字人应用基建】29个文本转语音TTS开源工具

大模型人才的薪资，彻底爆了！

【数字人应用基建】7个数字人生成及24个语音到文本ASR开源项目

RAG常见模式、痛点及最佳实践总结4张图：兼看大模型时代的工程开发工具集合

RAG＆KG＆LLM＆文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

RAG年终总结之12篇综述：从2022到2024看架构、策略、评测及演化

大模型行业，岗位也分三六九等

【RAG 2024时间线回顾】RAG七十二式：2024年度RAG清单索引

卷图不卷图谱-GraphRAG最近趋势：考虑结构性、相似性、相关性等Graph思想实现策略

视觉语言模型新SOTA！性能碾压LoRA，无需预训练，训练显存大大减少！

文档处理之E2M转Markdown工具及BigDocs大规模通用文档数据集

RAG＆KG＆LLM＆文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

【前沿进展】文档多模态嵌入表示方案DSE、数据合成及AI搜索应用新风向

AI生成文本检测数据集及9个工具索引：兼看“磁悬浮老鹰”逻辑陷进测试

RAG用于翻译实现思路及多模态模型用于文档理解的几个核心问题

【文档智能】多模态文档OCR评测CC-OCR及专有模型代表工作

aiops-challenge比赛简单总结

故障分析怎么做？朴素KG方案及LLM+Graph RAG方案实现思路

yyds！哈工大博士的PyTorch笔记火了！！

ChatGPT两周年历程回顾及大模型Text2SQL方案索引

王者归来！白皮书《从头训练大模型最佳实践》开源了。。。

12个开源AI搜索引擎项目及关于Ai搜索的一些思考

AUTO-RAG多轮对话迭代式检索及RAGDiffusion多模态图像生成思路

使用LLM进行标书写作简单开源项目及openai O1实现思路再索引

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉