LayoutParser：一个统一的基于深度学习的文档图像分析工具包

文摘 2024-11-11 11:04 江苏

『柏拉图说』是由南京大学计算传播学实验中心的成员们于2022年4月发起的论文精读与推介活动，我们将定期推送新闻传播学TOP期刊最新内容、新闻传播学前沿及相关量化研究方法论文。我们致力于深耕传播学领域，紧跟专业研究热点，延伸学术视角，拓展群体智慧。

柏拉图说 论文推介第 162 篇

Shen, Z., Zhang, R., Dell, M., Lee, B. C. G., Carlson, J., & Li, W. (2021). LayoutParser: A Unified Toolkit for Deep Learning Based Document Image Analysis. Document Analysis and Recognition – ICDAR 2021, 131–146. https://doi.org/10.1007/978-3-030-86549-8_9

摘要

文档图像分析( DIA )的最新进展主要是由神经网络的应用推动的。理想情况下，研究结果可以很容易地部署在生产中并扩展以进行进一步的研究。然而，各种因素，如松散组织的代码库和复杂的模型配置，使重要的创新易于被广泛的受众重用。尽管在自然语言处理和计算机视觉等学科中一直在努力提高可重用性和简化深度学习( deep learning，DL )模型开发，但它们都没有针对DIA领域的挑战进行优化。这代表了现有工具包的一个重大差距，因为DIA在社会科学和人文科学的广泛学科中都是学术研究的中心。本文介绍了一个用于简化DL在DIA研究和应用中的使用的开源库LayoutParser。核心LayoutParser库自带一套简单直观的接口，用于应用和定制DL模型，用于布局检测、字符识别和许多其他文档处理任务。为了提高可扩展性，Layout Parser还集成了一个社区平台，用于共享预训练的模型和完整的文档数字化流水线。我们证明了LayoutParser在实际用例中对轻量级和大规模的数字化流水线都是有帮助的。该库在https://layout-parser.github.io.上公开可用

介绍

LayoutParser提供了一个统一的工具包来支持基于DL的文档图像分析与处理。为了解决上述挑战，LayoutParser由以下组件构建：

1 .一个用于将DL模型应用于布局检测、字符识别和其他DIA任务的现成工具包(第3节)

2 .丰富的预训练神经网络模型库( Model Zoo )，是现成使用的基础

3 .提供高效的文档图像数据标注和模型调优的综合工具，支持不同程度的定制化

4 .一个DL模型集线器和社区平台，用于DIA模型和流水线的共享、分发和讨论，以促进可重用性、可重复性和可扩展性

Layoutparser包的核心

LayoutParser的核心是一个现成的工具包，它简化了基于DL的文档图像分析。五个组件支持简单的界面和全面的功能：

(1)版面检测只需要4行代码即可直接加载预训练模型or自己训练的深度学习模型

(2)检测到的布局信息存储在经过精心设计的数据结构中

(3)用户可以用现成的或是自定义的OCR模型(通过OCR模块中的API接口实现)

(4)LayoutParser自带一套效用函数，用于布局数据的可视化和存储

(5)LayoutParser还具有高度的可定制性，通过与布局数据标注和模型训练功能的集成。我们现在为每个组件提供了详细的描述

布局检测模块

在LayoutParser中，布局模型以文档图像作为输入，为目标内容区域生成矩形框列表。与传统方法不同，它依赖于深度卷积神经网络而不是手动制定规则来识别内容区域。LayoutParser建立在Detectron2的基础上，提供了一个最小的API，可以在Python中仅用四行代码就可以进行布局检测：

LayoutParser使用覆盖不同语言、时间段和文档类型的各种数据集提供了丰富的预训练模型权重。由于领域迁移，当模型应用于与训练数据集显著不同的目标样本时，预测性能会显著下降。如表1所示，LayoutParser目前在5个不同的数据集上训练了9个预训练模型。训练数据集的描述与训练好的模型一起提供，以便用户能够快速地识别出最适合其任务的模型。

布局数据结构

LayoutParser的一个关键特性是实现了一系列的数据结构和操作，可以用来高效地处理和操纵布局元素。在文档图像分析流水线中，通常需要对布局分析模型的输出结果进行各种后处理以获得最终的输出结果。数据结构中有3个关键组件，分别是坐标系、文本框和布局。它们为布局数据提供了不同的抽象层次，并支持对这些类进行变换或操作的一组API。

坐标是存储布局信息的基石。目前，LayoutParser提供了3种坐标数据结构，如下图2所示。区间和矩形是最常见的数据类型，支持指定文档中的1D或2D区域。它们分别用2个和4个参数进行参数化。还实现了一个四边形类，以支持文档倾斜或扭曲时矩形区域的更一般化表示，其中可以指定4个角点，共支持8个自由度。这些类支持大量的变换，如shift、pad和scale，以及相交、并集和is_in等操作。LayoutParser通过图像裁剪操作Crop_image和坐标变换(如relative_to和condition_on )为该场景提供了全面的支持。具体操作见下表2

OCR

LayoutParser为现有的OCR工具提供了一个统一的接口。尽管有许多OCR工具，但它们通常被配置成不同的API或协议来使用它们。为此，LayoutParser在现有的OCR引擎中构建了一系列包装器，并提供了几乎相同的语法来使用它们。它支持即插即用的OCR引擎使用方式，使得切换、评估和比较不同的OCR模块变得轻而易举：

OCR输出也将存储在上述布局数据结构中，并可无缝集成到数字化流水线中。目前LayoutParser支持Tesseract和Google Cloud Vision OCR引擎。除此之外，Layout Parser还附带了基于深度学习的CNN - RNN OCR模型，采用链接时序分类( CTC )损失进行训练。它可以像其他OCR模块一样使用，并且可以很容易地在定制的数据集上进行训练。

存储和可视化

DIA的最终目标是将基于图像的文档数据转化为结构化的数据库。LayoutParser支持将版图数据导出为JSON、csv等不同格式，并增加了对METS / ALTO XML格式的支持。它还可以加载来自布局分析特定格式的数据集，如COCO和Page Format，用于训练布局模型。布局检测结果的可视化对于展示和调试都至关重要。LayoutParser是一个集成的API，用于将布局信息与原始文档图像一起显示。如下图3所示，它能够以不同的模式呈现具有丰富元信息和特征的布局数据。更详细的信息可以在在线的LayoutParser文档页面中找到。

训练自定义模型

除了现成的库外，LayoutParser还具有高度的可定制性，支持高度独特和具有挑战性的文档分析任务。LayoutParser集成了一个使用对象级主动学习对文档布局进行注释的优化工具包。借助随标注一起训练的布局检测模型，只需要每张图像中最重要的布局对象进行标注，而不需要整张图像。其余区域由布局检测模型以高置信度预测自动标注。这使得布局数据集的创建效率更高，只需要大约60 %的标注预算。

训练数据集整理后，LayoutParser支持不同模式的布局模型训练。微调可以通过已有的预训练权重初始化模型，用于在一个小的新标记数据集上训练模型。当源数据集和目标有显著差异且有较大的训练集可用时，从头开始训练是有帮助的。然而，正如Studer等人的工作所建议的那样，在像ImageNet这样的大规模数据集上加载预训练的权重，即使来自完全不同的领域，仍然可以提高模型性能。通过Layout Parser提供的集成API，用户可以方便地在基准数据集上比较模型性能。

Layoutparser社区平台

LayoutParser的另一个重点是提高版图检测模型和全数字化流水线的可重用性。与许多现有的深度学习库类似，LayoutParser附带了一个社区模型集线器，用于分发布局模型。端用户可以将自己训练好的模型上传到模型hub，这些模型可以加载到与当前可用的LayoutParser预训练模型类似的界面中。例如，在News Navigator数据集上训练的模型已被纳入模型集。

在DL模型之外，LayoutParser还促进了整个文档数字化流水线的共享。例如，有时流水线需要多个DL模型的组合才能达到更好的精度。目前，流水线主要在学术论文中描述，实施情况往往不公开。为此，Layout Parser社区平台还实现了布局管线的共享，以促进技术的讨论和重用。对于每一个共享流水线，它都有一个专门的项目页面，有源代码的链接，文档和方法的概述。提供了一个讨论小组，以交换想法。结合核心的Layout Parser库，用户可以轻松地构建基于共享流水线的可重用组件，并将其应用于解决其特有的问题。

用例

(1) 全面的历史文献数字化流水线

历史文献的数字化可以释放出有价值的数据，这些数据可以揭示许多重要的社会、经济和历史问题。然而，由于扫描噪声、页面磨损以及复杂布局结构的普遍存在，获取历史文献扫描的结构化表示往往是极其复杂的。

在本例中，使用Layout Parser开发了如图5所示的综合流程，从布局复杂的日本公司历史财务报表中生成高质量的结构化数据。该流水线应用了两种布局模型来识别不同级别的文档结构和两个定制的OCR引擎来优化字符识别精度。

如图4 ( a )所示，该文档包含垂直书写的15列文本，这是日语中常见的文体。由于扫描噪声和古老的印刷技术，柱子可能是倾斜的或宽度可变的，因此不能很容易地通过基于规则的方法来识别。在每一列中，单词被大小可变的空格分隔，对象的垂直位置可以作为其布局类型的指标。

为了解密复杂的版面结构，训练了两个目标检测模型，分别用于识别单独的列和token。通过Layout Parser中基于主动学习的标注工具生成一个小的训练集( 400幅图像,每幅图像约100个注释)。模型通过其独特的视觉特征来学习识别每个token或列的类别和区域。布局数据结构可以方便地对每一列内的token进行分组，并根据水平位置对列进行重新排列以实现正确的读取顺序。通过检验模型预测的一致性来识别和修正误差。因此，该流水线虽然在小数据集上训练，但获得了较高的布局检测准确率：列检测模型跨5个类别达到96.97 AP，token检测模型跨4个类别达到89.23 AP。

为解决该文档中的独特挑战，开发了一种字符识别方法的组合。在我们的实验中，我们发现标记之间的不规则间隔导致了较低的字符识别召回率，而现有的OCR模型倾向于在密集排列的文本上表现更好。为了克服这个挑战，我们创建了一个文档重组算法，该算法基于布局分析步骤中检测到的令牌包围盒来重新排列文本。图4 ( b )说明了生成的稠密文本图像，作为一个整体发送给OCR API，以减少交易成本。利用Layout Parser中的柔性坐标系将OCR结果相对于其在页面上的原始位置进行变换。此外，历史文献中使用不同字形的独特字体非常普遍，这极大地降低了在现代文本上训练的OCR模型的准确性。在该文档中，一种特殊的扁平字体用于打印数字，无法通过现成的OCR引擎检测到。利用Layout Parser提供的高度灵活的功能，构建了一种流水线方法，以最小的努力达到了较高的识别精度。由于字符具有独特的视觉结构，通常聚集在一起，因此我们训练布局模型来识别具有专用类别的数字区域。随后，在这些区域内使用Layout Parser作物图像，并使用基于CNN - RNN的自训练OCR模型识别其中的字符[ 6 ]。该模型共检测出15个可能的类别，并在测试集上实现了0.98的Jaccard score和0.17的平均Levinstein distances的token预测。

总体而言，利用LayoutParser为大规模数字化创建一个错综复杂且精度较高的数字化流水线是可能的。该流水线避免了指定传统方法中使用的复杂规则，开发简单，并且对异常值具有鲁棒性。DL模型还可以生成细粒度的结果，从而为OCR提供创造性的方法，如页面重组。

(2) 一个轻量级的可视化表提取器

在这一部分中，我们展示了LayoutParser如何使用现有的资源，以最小的努力为法律文件夹表构建一个轻量级的精确可视化表提取器。提取器使用预训练的布局检测模型识别表格区域，并使用一些简单的规则对PDF图像中的行和列进行配对。在Layout Parser Model Zoo的Pub LayNet数据集上训练的Mask R-CNN可用于检测表格区域。通过过滤掉低置信度的模型预测和去除重叠预测，LayoutParser可以识别出每个页面上的表格区域，显著简化了后续步骤。通过使用Layout Parser提供的实用工具模块中的表格段内的直线检测功能，流水线可以识别表中的3个不同列。然后，通过分析从OCR引擎中获得的令牌边界框在最左列的y坐标，采用行聚类方法。使用非极大值抑制算法去除具有极小间隙的重复行。如下图6所示，所构建的流水线能够准确地检测出页面中不同位置的表格。来自不同页面的连续表被连接起来，并且很容易地创建了结构化的表表示。

结论

Layout Parser为基于深度学习的文档图像分析提供了一个全面的工具包。现成的库易于安装，可用于构建灵活、准确的流水线，用于处理结构复杂的文档。它还支持高级定制，并能够在独特的文档图像数据集上轻松地标注和训练DL模型。Layout Parser社区平台便于共享DL模型和DIA管道，邀请讨论，促进代码的可重复性和可重用性。Layout Parser团队致力于保持库的不断更新，将DL - based DIA的最新进展，如多模态文档建模(一个即将到来的优先事项)，带给最终用户多样化的体验。

主要作者简介

https://www.szj.io/

I am a third year PhD Student at MIT CSAIL,
working at the intersection between NLP and HCI,
advised by Prof. David Sontag.

分享者介绍

黄靖翔

https://huang-jingxiang.github.io/

raconz1211@gmail.com

南京大学新闻传播学院2024级专业硕士研究生

南京大学计算传播学实验中心成员

研究方向：计算传播、自然语言处理

计算传播学园

寻找人类传播行为的基因，通往计算传播研究之路

衡量殖民主义的影响：亚洲、非洲的新数据集

留意差距：公众对人工智能和社会技术想象的看法

数字化治理中国：一个用来评估 101 个中国城市数字治理的框架

13915个英语词的效价、唤醒度和优势度

儒家宗族阻碍中国金融市场的发展

人工智能焦虑？比较英国、中国和印度报纸上人工智能的社会技术想象

生成式人工智能对就业的短期影响：来自一个在线劳动平台的证据

近现代中国城市的国际知名度

有什么好怕的？从技术可供型的角度理解人工智能的多维恐惧

资源保护：一个对压力概念化的新尝试

替罪羊还是被操纵的受害者？中美财经新闻中人民币汇率争端的隐喻呈现

序列分析：过去、现在与未来

新闻媒体对政治精英的影响：调查国会的战略反应

探索新冠疫情期间强制远程工作时的公众情绪

专著危机对传播学领域的影响

计算传播学实验中心师生在2024年NCA年会上荣获两个重要奖项

在传播福音时扩散知识：1840-1920年中国新教与经济繁荣

Pantheon 1.0：一个经过人工验证的全球著名传记数据集

叙事反转与叙事成功

使用大语言模型和结构叙事文本嵌入绘制新闻叙事图谱

欧洲媒体是否忽视女性政治家？议员知名度的比较分析

“2024年高等教育数字化转型与教育现代化实践研究”专项课题评选结果公示

通过政治领袖和文化机构的语言研究政治和文化的长期趋势

AI的简单宏观经济学

测量创新的扩散：基于引用分析

晚清铁路建设与辛亥革命

开发微博简体中文心理语言分析词典

LayoutParser：一个统一的基于深度学习的文档图像分析工具包

多样性和网络联系对创新的影响：一个新科学领域的出现

清代的文字狱与自我审查

对COVID-19爆发的公众关注、风险认知、情绪和行为反应评估：中国的社交媒体监测

发展中国劳动力市场的技能分类法揭示了劳动力市场两极分化的程度

使用报纸数据文本分析的叙事经济学：对 1928-1936 年美国白银购买法案和中国价格水平的新见解

揭开社交媒体上的道德和情感话语：三个案例的研究

Archigos 简介：政治领袖数据集

Newswire：一个跨越了一个世纪的大规模结构化数据集

当国家认同遇上阴谋论：国家认同语言在公众参与和关于 COVID-19 阴谋论的讨论中的传染

经济不确定性与分裂性政治：来自西班牙的证据

社交媒体大数据分析的系统综述

ChatGPT在文本标注上优于众包工作者

在传播学领域跨学科性和期刊影响力的关系

战争还是仅仅是摩擦？审视《纽约时报》和《中国日报》有关当前中美贸易争端的新闻报道

内战的经济成本：综合反事实证据和种族分化的影响

当危险来袭：追踪美国对威胁的集体反应的语言工具

人际交往，认知和手工型技能：他们是如何塑造就业和薪资的？

范式迷失了？传播学期刊中的批判研究孤岛

驱逐后的报道：驱逐记者对外国新闻报道的影响

政治治理与城市体系：中国古代首都迁徙对人口分布的持续冲击

欺负讲坛？Twitter 用户对特朗普总统推文的参与度

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉