金融领域文档智能应用实践

文摘   2024-07-03 17:00   上海  

导读 吾道科技(iWudao Tech)一直致力于将 AI 技术和金融领域知识相结合,面向一级市场提供金融大数据和资讯服务。站在 2024 年二季度,金融行业试水大模型应用已经一年半了,在以大模型为代表的 AI 技术驱动下,金融行业的众多技术路线、业务场景迎来升级。在这个大变革的时代下,本次分享将聚焦于文档智能在金融领域的应用。

文章主要包括以下五大部分:

1. 文档智能的技术范畴

2. 金融领域的文档智能

3. 文档分析与识别

4. 文档理解

5. 文档智能的未来展望

分享嘉宾|侯启予 南京吾道知信信息技术有限公司 技术预研负责人 

编辑整理|方星泰

内容校对|李瑶

出品社区|DataFun


01

文档智能的技术范畴

首先介绍一下文档智能技术范畴。

文档是指含有文字的纸张、图像或电子文件,随着数字化智能化的发展,对各行各业中图文并茂的富格式文档进行分析识别与理解具有广泛的应用需求。

文档智能又称为 Document AI 或 Document Intelligence,包含文档分析与识别、文档理解两个技术领域。

文档分析与识别的流程,是从输入文档图像到输出 HTML 等结构化数据,中间经过图像处理、版面分析、内容识别等主要环节,每个环节有很多不同的技术问题。
  • 图像处理:预处理得到高质量的文档页面图像,为后续版面分析和内容识别提供支撑。
  • 版面分析:包含物理版面分析(即区域分割及分类)和逻辑版面分析(即阅读顺序判定),常见的区域类别有文本、表格、图形等,其中文本又可分为标题、段落、公式、附注等,表格分为有边框表格、无边框表格、部分边框表格等,图形分为流程图、结构图、数据图、印章、照片等。
  • 内容识别:对版面分析输出的不同分割区域类型进行相对应的内容识别。其中对文本部分的识别称为光学字符识别即 OCROCR 一直是文档识别研究的中心和主线,通常分为文字检测和文字识别两个环节,近年来也有很多端到端的文本识别技术被提出。随着文本识别技术日趋成熟以及工业界对表格识别需求的日益增长,2019 年以来,表格识别的研究迅猛发展,主要分为自顶向下的行列分割方法、自底向上的单元格检测方法、由图片生成结构序列的端到端方法。另外还有图形识别、公式识别等,就不在这里一一列出。
文档智能的另一个领域是文档理解,是指对文档进行语义理解和信息抽取,过去通常作为文档分析与识别的重要下游任务,近年来多模态、多模态大模型以及 OCR-Free 的端到端文档理解技术开始涌现。

02

金融领域的文档智能

接下来介绍金融领域文档智能的意义和特点。

金融行业广泛使用图文并茂的富格式文档,这些文档中蕴含着丰富的高价值信息资源。与手动处理方式相比,自动化地将这些文档内容转换为结构化数据可以大幅提升处理效率,且极大地便利后续的数据分析和挖掘工作,从而为金融从业者和决策制定者提供更加全面和精确的数据支持。

随着深度学习技术的发展,文档智能相关的新技术纷纷涌现,卷积神经网络、循环神经网络、图神经网络、Transformer 等技术的发展使得复杂版面的文档分析与识别实现性能突破,受益于多模态融合、大模型等技术的提出,很多以前不可能做到的文档深度理解场景已经成为可能。

上图中列出了常见的金融文档类型,这些文档里面包含了大量有价值的信息,比如审计报告里的财务数据、募集说明书和招股说明书里的历史沿革等,可以很好地反映一个公司的经营状况和发展历史。那么如何快速处理海量富格式文档,从中精准定位并抽取有用的信息,从而构建知识图谱、进行数据分析或用户交互,对于金融领域的文档智能是很大的挑战。

金融领域文档的一个显著特点就是页数多文字多,像审计报告、年报半年报、募集说明书、招股说明书等通常都是几百页的 PDF 文件。即使是目前上下文长度最大的大模型服务,这些 PDF 的字数仍然远远超过其最大 token 限制,那么如何从几百页的富格式文档中快速定位是必须要做的工作。

另外,金融领域文档版面十分复杂,除了常见的单栏和双栏页面外,还有很多嵌套的复杂版面格式,比如第一张图里的评级报告页面。

金融领域文档的样式也足够丰富,流程图、结构图、数据图等图形里蕴含大量数据,逻辑结构复杂的表格十分常见,对于信息抽取而言,有时需要合并不同区域对象中抽取到的信息才能获得完整的结构化数据。

从图像质量的角度来看,金融领域也存在不少歪曲、模糊等低质量画面的文档,尤其是一些拍照扫描材料或年代久远的文档,后面会在图像处理中简述这方面的原因及修复工作。另外,金融文档也常见密集小尺寸的文本对象,如图中的财务报表,往往都是至关重要的数据。再加上印章、水印的干扰,尤其是黑白印章的覆盖,使得后续的内容识别任务相当困难。

以上就是金融领域文档智能的特点和面临的挑战。

03

文档分析与识别

接下来对文档分析与识别的各项技术做一下归纳综述并介绍一下我们的探索

1. 图像处理

文档图像质量影响后续的版面分析和内容识别效果,而图像质量取决于物理文档形状、成像条件和成像视角等。

常见的文档图像预处理工作有:文档检测、图像矫正和图像增强。

文档检测是为了判断图像是否是文档页面以及文档的类型。

图像矫正的目的是将 90 度旋转或倾斜的页面进行修正,以及还原扭曲变形的纸张。旋转和倾斜是因为纸张放置不正导致的,因此 20 世纪 90 年代以来一些学者开始研究如何矫正,主要采用多方向投影。纸张不平、弯曲、褶皱以及相机视角是造成图像形变的因素,早期基于 3D 重构和 2D 图像处理的矫正方法不具备普适性,近几年基于深度学习形变矫正已成为主流,例如基于预测密集形变场进行矫正的方法,典型的有 ICCV-2019 上的工作 DewarpNet 如右上角所示,通过预测出三维坐标图、形变场和阴影图等来继续更精细的文档矫正,也有一些工作是基于预测稀疏控制点进行矫正的方法,可以减少矫正模型的计算量。

图像增强的目的是为了去除页面中阴影、水印等有干扰的噪声,为后续版面分析和内容识别的工作提供支撑。历史文档因纸张陈旧、污损等,图像噪声多,为此提出了一些颜色分离、局部二值化等改进方法来处理文本和背景的分离问题。值得一提的是,因为黑白扫描导致和文字颜色相同的印章去除仍是比较有挑战性的工作。

2. 版面分析

版面分析的目的是将文档图像分割成不同类型内容的区域并分析区域之间的关系,是内容识别之前的关键步骤。

一种方式是采用基于目标检测或实例分割的路线,Faster R-CNN、Mask R-CNN 等通用框架被用来对文档图像中的目标区域进行分割。近年来随着基于 Vision Transformer 和多模态技术的提出,版面分析技术得到进一步发展,比如这里贴出的海康威视在 ICDAR-2021 发表的工作 VSR、以及阿里在 ICCV-2023 发表的工作 VGT,都是我们常用的模型,另外,LayoutLM 系列模型除了文档理解任务以外,版面分析也是其工作一个主要任务。

下面介绍一下我们在版面分析的一些实验工作,在使用 Mask R-CNN 框架的模型中,我们把传统的 CNN BackBone 替换为 ViT BackBone,比如这边我们用差不多参数量的 Swin-T 替换 ResNet-50,发现精度提升明显,尤其是检测目标不完整或遗漏的情况得以缓解。

另外一个工作是基于多模态融合的版面分析工作,通过实验我们发现 VSR 等多模态模型和基于 Mask R-CNN 等分割模型相比,视觉上相似目标区域的识别精度提升明显,如图所示,文本段落和表格附注的视觉特征很相似,加入语义信息后,版面分析的精度提升显著。

3. 内容识别

接下来介绍内容识别的工作,将分别介绍文本检测与识别、表格识别和图形识别。

(1)文本检测与识别

文本检测与识别,也是我们常说的光学字符识别(OCR),接下来我会分别介绍一下二阶段也就是先文字检测再文本识别的技术以及端到端的方法。

文本检测旨在获取文档或自然场景图像中的文本区域,与通用目标不同,文本往往具有多方向、极端长宽比和形状多变等特点,这导致基于水平框的通用目标检测方法难以处理。受限于手工设计特征的表征能力,早期的文本检测方法性能不佳。随着深度学习方法的流行,文本检测性能快速提升。检测方法演变的显著趋势是变得越来越灵活以及轻量化,从简单场景水平文本到多方向文本再到复杂场景的任意形状文本检测,从复杂多阶段以及烦琐的后处理方法再到轻量级单阶段的方法。

首先讲一下基于回归的方法:基于回归的方法与通用目标检测类似,需要回归预测文本包围框的顶点坐标位置。然而,由于文本往往存在多方向、任意形变以及极端长宽比变化等特点,现有的通用目标检测框架难以直接用于处理文本检测,为此提出了一些有针对性的方法。

一个比较著名的早期工作是 ECCV-2016 上发表的工作 CTPN,如左上角所示,将图像空间划分为多个小块,再使用循环神经网络去分析小块的上下文连接关系。CTPN 对于长文本检测具有稳定的效果,但只能处理近似水平的文本。

右下角所示的 AAAI-2017 上发表的工作 TextBoxes 系列设计了一系列具有不同长宽比的锚点和卷积核来适应文本的长宽比变化,通过多任务学习来同时预测文本的水平框和四边形框。

为了针对任意方向的文本进行检测,SegLink 系列和 DRRG 都是直接回归获得文本单元以及关系。

为了更好地拟合不规则文本的轮廓,一些方法采用基于曲线拟合的方法来拟合文本的形状,比如 CVPR-2021 上的基于傅里叶曲线的 FCENet 等,就不在这里一一赘述。

再来介绍一下基于图像分割的方法。基于图像分割的方法能够提供像素级的检测结果,可适应文本的任意形状。基于图像分割的场景文本检测通常可以看做是二分类分割任务,旨在精确分离文本和背景。由于分割方法只能提供一个像素级的预测概率,这类方法通常需要后处理操作以获取精准的文本检测结果。

华科白翔老师的团队在 CVPR-2016 首次提出用全卷积网络 FCN 检测文本行,实现了多方向场景文本检测。

AAAI-2018 上的工作 PixelLink,在预测文本像素的同时,预测了像素间的文本连接关系,对于分割后处理提供了更丰富的信息。

此后的代表性分割方法大多致力于设计信息更丰富的分割网络,这有利于后处理过程能够获得更加准确的文本区域。比如同在 CVPR-2019 上的文章 PSENet 和 Naver 的 CRAFT。

虽然基于分割的文本检测能够适应文本形状的多样性,但其后处理过程往往带来了更多的时间消耗。为了简化后处理的过程,华科白翔老师团队在 AAAI-2020 上的工作 DBNet 提出了一个可微的二值化网络模块,该模块可以与分割网络一同进行优化,并使模型自适应地选择所有位置所需的二值化阈值。联合优化的过程不仅提升了检测的性能,而且简化了后处理的操作,在场景文本检测任务的速度和精度方面取得了理想的平衡。DBNet 后来被著名的开源项目 PaddleOCR 选做检测算法,且在 OpenCV 和微信 OCR 中被使用,是一个应用广泛的文字检测算法。

除此之外,还有混合的方法,将回归和分割融合到一起,结合两者的优势从而更精确地定位文本位置。

其中最具代表性的工作是旷视在 CVPR-2017 上发表的工作 EAST 以及中科院自动化研究所刘成林老师团队在 ICCV-2017 上发表的工作,在全卷积分割网络的基础上直接得到本文区域任意四边形框,消除了中间候选框提取的过程,具有较高的效率和精度。

近几年,基于 Transformer 的混合回归与分割的方法也在文本检测领域上逐步展现了潜力,例如 CVPR-2022 上阿里和网易的两篇工作在上图中列出,就不在这里展开。

检测出文字区域后,我们需要通过文本识别技术将区域内的文本内容提取出来。传统的文本识别主要针对纸张文档,包括印刷体文本识别和手写体文本识别两大类。近年来,自然场景文本识别由于其字形多变、背景复杂等技术挑战,受到了广泛关注,逐渐成为 OCR 领域新的研究热点。对于我们金融行业来说,传统的纸张文档文本识别还是我们主要的处理对象。

首先讲一下基于 CTC 的方法,CTC 方法的优势在于无需进行单字符切分,也无需文本标注和模型输入的对齐信息,即可学习到二者的隐式对齐信息。

最著名的工作是华科白翔老师团队在 TRAMI-2016 上发表的工作 CRNN,如右图所示,该方法将文本识别任务视为序列识别任务,在多种不同场景下都展现了不错的性能。从 CRNN 以后,基于 CNN + RNN + CTC 的文本识别方法成为文本识别领域的主流方法之一。有句话这么讲,比 CRNN 速度快的性能没它好,比 CRNN 性能好的速度没它快,因此该方法在发布后的很多年里在工业界极具竞争力。

此外,Facebook 在 KDD-2018 上发表的 Rosetta 也是一个基于 CTC 的工作,商汤在 AAAI-2020 上发表的 GTC 提出使用注意力机制来引导 CTC 的训练,并使用图卷积网络来发挥 CTC 解码器的潜力。

百度 Paddle 在 IJCAI-2022 上出品的 SVTR 摒弃了包含特征模型和序列模型的二阶段算法,仅通过单个视觉模型就完成了特征提取和文本转录这两个任务,既能保证推理速度,又能获得更好的识别效果。

文本识别的另一种方法是基于注意力机制也就是 Attention 的方法,Attention 的方法早期应用于机器翻译,特点是可以自动地为需要关注的区域分配较高的权重。在文字识别任务中,模型会为每个字符预测一个注意力权重,通过该注意力权重与视觉特征的加权和,来预测出相应的字符。

基于Attention 的方法可以分为基于 RNN Attention 和基于Transformer Attention 的方法。

CVPR-2016上雅虎支持的一项工作 R²AM 首次将 Attention 引入文本识别领域,同样在 CVPR-2016 华科白翔老师团队发表的 RARE,如左图所示,较早地将注意力机制用于文本识别,值得一提的是这个方法后来在 ppstructure 中被修改去做表格识别的任务。

根据 PaddleOCR 的实验结论,从效果上来看,通用 OCR 场景 CTC 的识别效果优于 RNN Attention,因为常用中文汉字三千字以上,训练样本不足的情况下序列关系挖掘比较困难,导致中文场景下 Attention 模型的优势无法体现。而且 Attention 适合短语句识别,对长句子识别比较差。从训练和预测速度上来看,RNN Attention 的串行解码结构限制了预测速度,而 CTC 网络结构更高效,预测速度上也更有优势。

前面提到 RNN Attention 串行解码的方式耗时较多且计算量大,因此很多工作开始使用基于 Transformer 来进行并行化处理,相比 RNN 也可获得更强的语义信息。

中科院在 2018 年一项工作 NRTR 使用了完整的 Transformer 结构对输入图片进行编码和解码,如左图所示,只使用了简单的几个卷积层做高层特征提取,在文本识别上验证了 Transformer 结构的有效性。

还有 Naver 在 2019 年提出的 SATRN、平安在 2019 年提出的 Master、中科大团队分别在 CVPR-2021 发表的 ABINet 和 ICCV-2021 发表的 VisionLAN 等,都验证了基于 Transformer 方法并行训练的高效性和精度可靠性。

近年来,有些工作将文本检测和识别联合起来考虑,提出了一系列端到端文本检测与识别技术,称为 Text Spotting。

基于深度学习的端到端方法大致可以分为两阶段和一阶段两大类方法。

两阶段模型中,刘成林老师团队在 ICCV-2019 上发表的 TextDragon 及 Naver 在 ECCV-2020 发表的 CRAFTS,都是基于组件的方式处理不规则文本。华南理工团队的 ABCNet 系列对不规则文本的边界进行几何建模,而华科白翔老师团队的 Mask TextSpotter 系列模型结合上述两种方式的特点,在 Mask R-CNN 检测文本行的基础上加入了单字检测与识别。华南理工金连文老师团队在 CVPR-2022 提出的 SwinTextSpotter 模型可以使识别分支更充分地利用来自检测分支的反馈,提高了端到端文本识别的性能。

近年来,考虑到端到端联合训练检测与识别分支时,特征对齐与变换的操作会造成特征的失真,从而给识别带来负面影响,一些学者提出了单阶段的方法,即模型可以在检测文本区域的同时预测文本的内容。深圳码隆科技在 ICCV-2019 提出的 CharNet 是较早提出的方法。海康威视在 AAAI-2021 提出的 MANGO 可根据字符级别的分类结果,并行输出端到端识别结果。CVPR-2022 上发表的 TESTR 设计了双通道解码器,同时输出文本检测框及其对应的文本识别内容。华南理工金连文老师团队和华科白翔老师团队联合发布的 SPTS 模型首次将端到端文本检测和识别任务建模为简洁的序列预测问题,采用基于 Transformer 的序列预测模型将文本检测和识别融为一体。

总体来看,近年来此领域涌现出不少基于 Transformer 框架的端到端场景文本识别新方法,是值得关注的发展方向。

(2)表格识别

接下来介绍内容识别的第二个部分:表格识别。

表格识别的目标是识别出表格的布局结构、层次结构等,将表格视觉信息转换成可重建表格的结构描述信息,这些表格结构描述信息包括:单元格的具体位置、单元格之间的关系和单元格的行列位置等。在当前的研究中,表格结构信息主要包括以下两类描述形式:单元格的列表(包含每个单元格的信息:行列位置、单元格坐标、文本坐标及内容等);表格的逻辑结构(HTML、Latex 等)。表格识别的方法主要分为自顶向下的行类分割方法、自底向上的单元格检测方法、由图片生成序列的端到端方法,接下来我会具体介绍这三类方法的处理流程及特点。

首先是自顶向下的行列分割方法,是较早开始研究的基于深度学习的方法。通常分为两个步骤,第一步是将表格分割成网格单元(语义分割或目标检测获得分割交点、行列像素分类)。第二步是判断网格关系(规则判断、CNN 或多模态相邻网格二分类、GNN 边分类、基于网格单元的 RNN/Transformer)。

当然早期很多工作没考虑网格关系判断,因此无法处理有合并单元格的表格,只能处理简单二维表格。

第一个比较完善的方法是 Adobe 在 ICDAR-2019 上发表的工作 SPLERGE,对表格的行列分割和分割后的合并都进行了详细的讨论,提出了一个合并网络,将表格分割为最细粒度的基本单元,然后进行合并得到真正的表格结构。

随后国内在表格识别领域逐渐兴起并逐渐处于较为领先的水平,中科大团队在 ICDAR-2021 提出的 SEM 在会议举办的比赛中获得复杂表格识别的第一名,采用 ResNet-34 + FPN 做行列分割,复用分割网络的视觉特征 + Bert 提取的语义信息作为网格特征,采用 GRU 处理网格合并,而在 2023 年更新的 SEMv2 中,用 Transformer 获取网格单元的依赖关系来处理单元格的合并。

另外一个微软亚洲的工作 TSRFormer 在使用 ResNet-18 + FPN + Spatial CNN 提取特征后,采用基于 Transformer 的 Decoder 分割行列,然后通过 Grid CNN 判断相邻网格是否需要合并。

接着是自底向上的单元格检测方法,通常分为两个步骤,先检测单元格或文本块区域(语义分割、顶点检测、文本聚合等),再判断单元格或文本块关系(根据位置规则判断、GNN 边分类、多模态等)。

一个较早在 2019 年提出的方法 GraphTSR 模型,将每个单元格视做一个节点,构建出全连接图,使用图网络来对每条边进行分类,判断 K 邻的单元格对是否在同一行或同一列。另一个由北交大团队在 ICDAR-2019 提出的 Res2TIM 系统,在融合得到特征后,构建单元格对来判断两个单元格的上下左右关系来重建表格。不过这两个工作都没有给出完善的单元格区域检测说明。

另一个工作是来自印度的团队在 ECCV-2020 上提出的 TabStruct-Net,使用修改的 Mask R-CNN 检测单元格,FPN 和 LSTM 提取单元格的视觉特征,DGCNN 构建无向图,判断单元格对是否属于同行同列。

海康威视在 ICDAR-2021 夺得比赛第一名的 LGPMA,重点优化了空白单元格对检测模型的干扰。阿里在 ICCV-2021 提出的 Cycle-CenterNet,通过同时检测单元格的中心以及 4 个单元格的交汇点来得到单元格区域。腾讯优图在 CVPR-2022 提出的 NCGM 提取几何、视觉和文本等多模态特征,判断文本行是否同行、同列、同单元格。

这个分类的方法较多,已在左下角列出,就不一一介绍了。

在图片生成序列的方法中,早期使用 RNN 生成结构序列和单元格信息(单元格坐标或文本内容),近几年基于 Transformer 的序列生成方法在公开数据集效果提升显著。

早期的几个工作都是基于 RNN 生成结构序列,如微软亚洲在 LREC-2020 发表的工作 TableBank、Bloomberg 在 ICDAR-2019 发表的工作 Table2Latex、IBM 澳洲在 ECCV-2020 发表的工作 EDD 等。

平安在 ICDAR-2021 提出的 TableMaster 首先将 Transformer Decoder 应用在基于序列生成的表格识别任务中,随后 IBM 在 CVPR-2022 发表了处理流程差不多的 TableFormer,他们加入Transformer Encoder 做特征提取并降低了 Transformer 的参数量使得模型更轻量化。

华为在 CVPR-2023 上提出的 VAST 额外添加了视觉和结构对齐模块,以解决单元格 bounding box 漂移的问题。

另外 IBM 在 ICDAR-2023 上提出新的表格表示方法 OTSL,和 HTML 的表示方式相比可以极大得减少序列长度。

复旦团队在 ACL-2023 上提出的 TableVLM 融合文本、视觉、空间位置特征的多模态 Transformer 作为 Encoder,而 Decoder 依然采用标准 Transformer 输出 HTML 序列。

金融领域的表格样式非常丰富,那么面对这些差异很大的表格时,能否训练一个通用模型来解决金融领域所有的表格识别场景呢,目前来看是很难做到的,因为每类方法都有明显的优缺点。如图所示的这些表格,表头结构十分复杂,如果用 image-to-sequence 的方法,Transformer 毕竟是为语言模型设计的,而表格复杂的部分往往是在序列靠前的位置,因此想要整个序列完全正确会十分困难。

再看这一页的例子,行或列的分割特征不明显情况下,使用行列分割的方法难度很大,并且如果使用基于 OCR 的多模态技术,如何检测出准确的文本行也是一个挑战。如果表格过大的话会导致 HTML 序列长度很长,如果使用基于 image-to-sequence 的方法会带来很大的计算量,同时也要考虑到 Transformer 误差累积的特性,大表格也更容易出错。预测出来的单元格框容易偏移。

这一页的左图,表格有大量空白单元格,对于基于单元格检测的方法会很不利,并且对于判断相邻单元格关系对的方法,两个空白单元格没有任何特征,不可能实现合并的判断。对白右边的图,单元格内有多行文本,这种情况不适合以文本行为节点构建图用 GNN 边分类判断关系的方法,否则会导致计算量过大。

仅凭视觉信息无法判断表格结构的表格也很常见,例如左边这张表,最左边一列是同样的缩进,最下面的字段是换行关系,而上方的字段则是归属关系,这种情况没有多模态技术是很难做对的。

每一类的表格识别方法都有明显的优缺点,如何自动识别表格的种类从而选择最合适的识别方法,也是工业领域工程落地工作的一个难点。

(3)图形识别

内容识别里面最重要的两个模块:OCR 和表格识别已经介绍完了,还有很多的特殊版块内容识别就不在这里一一列举了,下面简单介绍一下我们在图形识别中的一个工作:股权结构图的识别。

这项工作是吾道科技和华中科技大学合作的,主要目标是从招股说明书或募集说明书中识别股权结构,以构建金融知识图谱。我们提出了一种更可靠的框图识别系统,用于股权结构图识别,能够很好识别各种场景下的复杂连线。此外,我们利用股权结构图自身的结构特点,开发实现了一套自动生成股权结构图和对应标注数据的工具。

首先使用 VSR 版面分析抽取出股权结构图,然后基于 Oriented R-CNN,使用改进后的关键点检测对股权图的节点和线进行检测,最后生成股权关系三元组。

实验结果显示我们提出的方法对于 Arrow R-CNN 在性能上有显著的进步,尤其是对连线的识别有巨大的改进,如果有兴趣可以到 arxiv 查看我们的论文。

04

文档理解

接下来介绍一下文档理解的相关技术。

在文档分析与识别工作的基础上,通过信息抽取或语义理解等技术来处理文档理解,此时文档理解作为文档分析与识别的一个重要下游任务。

随着大模型的发展,越来越多的信息抽取及语义理解任务被降维替换,但文档分析与识别目前来看依旧可以扮演重要的角色,相对于简单文本行的抽取,一个性能良好的文档分析与识别工具可以为大模型提供带有结构信息的稳定输入,很大程度提高大模型信息抽取的性能。

这边的例子是我们关于股权变动事件抽取的工作,首先通过章节定位和版面分析将事件所在的段落和表格筛选出来,然后判断变动事件的类型是增资、减资还是转让,从表格抽取子事件并分析筛选出相关的句子,然后用基于触发词的事件抽取模型从文本中抽取子事件论元,最后将子事件合并为完整的股权变动事件。

在我们的业务场景中,还有很多相似的业务流程,以前通常我们要为每个任务训练专用模型,从准备数据、训练模型到工程落地往往持续较长的周期,随着大模型的发展,很多简单的任务只需替换为 zero-shot 或 few-shot 的 prompt 就可以达到应用需求,极大地提升了开发效率。

多模态文档理解的一个常见的工作范式:图像经过 OCR 获取到文本,图像通过视觉的 BackBone 获得视觉特征,然后做特征融合送进 Transformer Encoder 去获取融合之后的特征,然后去做后续的预训练任务,每个模型的预训练任务都是不一样的,做完预训练后再去做下游的微调任务。

基于这个范式会有很多优化工作,比如 LayoutLM 系列,右下角这张是微软亚洲在 ACM-MM-2022 发表的 LayoutLMv3,他的做法是对图像做成 patch embedding 来和文本拼接,省去了 LayoutLMv2 中 CNN BackBone 的计算量,然后直接把 Transformer Encoder 当做一个 ViT 做融合学习。

然后左上角这个图是一个比较有特点的模型,是华南理工金连文老师团队在 ACL-2022 发表的 LiLT,LiLT 是双塔结构,把 text flow 和 layout flow 分开了,可以进行灵活的替换 text 或 layout,并且 LiLT 是纯文本输入,没有图像作为输入也可以达到一个很好的效果,甚至比 LayoutLMv2 还要好。

此外还有百度在 ACM-MM-2021 发表的 StructTexT、蚂蚁在 CVPR-2022 的工作 XYLayoutLM、Google 在 ACL-2022 的工作 FormNet 系列、微软亚洲在 AAAI-2023 的工作 KVPFormer、阿里在 CVPR-2023 的工作 GeoLayoutLM 以及发表在 EMNLP-2023 针对关系抽取任务做优化的 GOSE,如右上角图片所示,时间关系就不在这里展开介绍了。

随着大模型把 Transformer Decoder 带入我们的视角,诞生了一种 OCR-Free 的架构,这个做法是把图像直接送进 Transformer Encoder 里,然后直接经过一个 Transformer Decoder 去理解信息,最后通过自回归的方式直接输出信息。

这方面最早的工作是 Naver 在 ECCV-2022 发表的工作 Donut,以及百度在 ICLR-2023 的工作 StrucTexTv2。

虽然 OCR-Free 的模型非常灵活可以同时做多任务训练,但也存在一个问题就是文字准确率不如前面我们讲的范式,这也是后续研究需要解决的问题。

随着 MLLM(多模态大模型)和 LVLM(视觉大模型)的发展,文档理解从去年下半年开始迎来新的范式,很多基于多模态大模型或视觉大模型的文档理解工作开始涌现。这里展示的是今年最新的文档理解模型:华科和金山研究人员在 CVPR-2024 发表的多模态大模型 Monkey 基础上提出的 TextMonkey、阿里的 DocOwl 1.5。

随着大模型技术的不断发展,很多以前无法自动化处理的任务都成为了可能,比如如图所示的一些 Chart Understanding 领域的工作,将图表转化成结构化数据,之前没有太关注,现在已经有大模型产品比如 GPT4V、Claude 提供类似的功能。

随着LVLMs(Large Vision Language Models)的持续发展,Chart Understanding 的各项任务都取得了变革性的突破,SOTA 基本都是被基于预训练模型和 LVLM 所刷新的。

下面这篇文章是我这几天看到的一篇旷视在本周开源的工作,是一篇关于图表结构化提取的最新文章,柱状图、折线图、饼图等图表的理解和推理能力是目前 VLM 研究中的重点和难点。在金融领域会有很多可落地的场景,是值得我们去持续关注和探索的研究领域。

05

文档智能未来展望

最后探讨一下文档智能技术的未来发展趋势和展望。

首先回顾一下文档智能在金融领域面临的挑战和问题:
  • 金融行业是文档密集型的行业,有海量的公告、文书需要处理,金融文档种类繁多且复杂多样,如何构建能够泛化到不同金融文档类型的模型是目前面临的一大挑战。
  • 金融文档通常页数很多,并且需要保持较高的分辨率,用基于深度学习或大模型的方法处理几百页的文档需要很多算力,如何快速响应是需要考虑的问题。
  • 金融行业对数据安全性有极高的要求,如何保证模型尤其是大模型的可靠性和稳定性是工程落地需要思考的问题。
接着说下大模型技术给我的冲击和启示:
  • ChatGPT 从发布到现在一年多,其发展速度说实话是比我想象中要快不少的,回看去年年初测试 davinci codex 的实验文档,无论是从上下文长度、速度、价格还是效果来看都有非常大的进步,而多模态大模型和视觉大模型所拥有的理解能力也让我觉得很不可思议,我们的工作方式和技术路线都产生了巨大的变革。
  • 大模型从技术上并不算是一个全新的概念,2020 年就发布了 GPT-3,但是感觉部署这样庞大的模型距离实际生产环境的落地还很远,所以继续聚焦在 BERT 为代表的常规预训练模型上,OpenAI 在发展很久还是局面不利的情况下依旧坚持 Autoregressive,是他们成功的原因。这也启示我要跳出局限的认知用发展的眼光看待技术。
最后讲一下我对未来的展望,抛出我的观点,我相信并且期望大模型可以一统江山,一个模型可以处理 NLP 和 CV 所有的任务,希望那一天早日到来。在学术研究迅速发展的同时,我们工业界也应该跟上节奏,提升对新技术的关注和敏感性,及时探索更多的落地场景和实际应用。

以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


侯启予

南京吾道知信信息技术有限公司

技术预研负责人

吾道科技技术预研负责人,多年致力于 Document AI 领域相关工作

进交流群请添加小助手微信



关于互联网持续学习圈


互联网持续学习圈是由清华大学计算机系校友、前阿里和微软算法工程师创办。汇聚互联网精英、985高校及海外硕博、自主创业者等,是持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先,文艺其从,陪你进化二十年。


点个在看你最好看

SPRING HAS ARRIVED

互联网持续学习圈
清华大学计算机系校友、前微软、阿里高级算法工程师创办。汇聚互联网精英、985高校及海外硕博、自主创业者,持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先,文艺其从,陪你进化二十年。
 最新文章