研究团队
冯浩,周文罡,李厚强:中国科学技术大学
刘琦,刘皓,唐景群,黄灿:字节跳动
文章下载
Hao FENG, Qi LIU, Hao LIU, Jingqun TANG, Wengang ZHOU, Houqiang LI & Can HUANG. DocPedia: unleashing the power of large multimodal model in the frequency domain for versatile document understanding. Sci China Inf Sci, 2024, 67(12): 220106, doi: 10.1007/s11432-024-4250-y
目前,人工智能在处理文档图像时面临着分辨率的瓶颈。现有的多模态大模型(如LLaVA,Mini-GPT4等)无法有效解析高分辨率的文档图像,这极大地限制了其在实际应用场景中的表现。高质量的文档理解需要模型能够准确捕捉文档中的细节信息,这就要求模型具备处理高分辨率图像的能力。因此,开发能够处理高分辨率文档图像的多模态模型具有重要的实践意义。为了解决上述问题,本文提出了DocPedia模型,这是一个高分辨率多模态文档大模型。(1) 从频域角度解决分辨率问题。模型首先提取文档图像的DCT系数矩阵,在保留原图像图文信息的同时将空间分辨率下采样8倍。(2) 设计了级联的频域适配器(Frequency Adapter),通过与视觉编码器配合,实现了高效的分辨率压缩和特征提取。这使得一张2560×2560的图像可以用1600个token表示,相比传统方法token数量减少4倍。(3) 提出了创新的两阶段训练策略:预训练阶段专注于增强模型的感知能力,包括文字检测、识别等基础任务;微调阶段采用感知-理解联合训练策略,提升模型的语义理解能力。DocPedia在多个基准中取得了显著的性能提升:• 将可处理的文档图像分辨率提升至2560×2560;
• 在关键信息抽取(KIE)和视觉问答(VQA)等任务上取得了出色成果;
• 具备准确的文字识别能力和出色的语义理解能力;
• 能同时处理文档图像和自然场景图像,展现了较强的通用性。
实验结果证明,DocPedia成功突破了高分辨率的限制,实现了出色的文档图像识别和理解能力。