中科大李厚强&字节跳动联合团队 | DocPedia:高分辨率多模态文档大模型

文摘   科技   2024-12-25 12:01   北京  

研究团队

冯浩,周文罡,李厚强:中国科学技术大学

刘琦,刘皓,唐景群,黄灿:字节跳动


文章下载

Hao FENG, Qi LIU, Hao LIU, Jingqun TANG, Wengang ZHOU, Houqiang LI & Can HUANG. DocPedia: unleashing the power of large multimodal model in the frequency domain for versatile document understanding. Sci China Inf Sci, 2024, 67(12): 220106, doi: 10.1007/s11432-024-4250-y



研究意义

目前,人工智能在处理文档图像时面临着分辨率的瓶颈。现有的多模态大模型(如LLaVA,Mini-GPT4等)无法有效解析高分辨率的文档图像,这极大地限制了其在实际应用场景中的表现。高质量的文档理解需要模型能够准确捕捉文档中的细节信息,这就要求模型具备处理高分辨率图像的能力。因此,开发能够处理高分辨率文档图像的多模态模型具有重要的实践意义。

本文工作

为了解决上述问题,本文提出了DocPedia模型,这是一个高分辨率多模态文档大模型。
该模型的创新点如下:
(1) 从频域角度解决分辨率问题。模型首先提取文档图像的DCT系数矩阵,在保留原图像图文信息的同时将空间分辨率下采样8倍。
(2) 设计了级联的频域适配器(Frequency Adapter),通过与视觉编码器配合,实现了高效的分辨率压缩和特征提取。这使得一张2560×2560的图像可以用1600个token表示,相比传统方法token数量减少4倍。
(3) 提出了创新的两阶段训练策略:预训练阶段专注于增强模型的感知能力,包括文字检测、识别等基础任务;微调阶段采用感知-理解联合训练策略,提升模型的语义理解能力。

实验结果

DocPedia在多个基准中取得了显著的性能提升:

• 将可处理的文档图像分辨率提升至2560×2560;

• 在关键信息抽取(KIE)和视觉问答(VQA)等任务上取得了出色成果;

• 具备准确的文字识别能力和出色的语义理解能力;

• 能同时处理文档图像和自然场景图像,展现了较强的通用性。

实验结果证明,DocPedia成功突破了高分辨率的限制,实现了出色的文档图像识别和理解能力。





中国科学信息科学
《中国科学:信息科学》及其英文版《Science China Information Sciences》的宣传平台。
 最新文章