研究团队
刘禹良,李长,杨彪,余文文,白翔:华中科技大学
李春元:微软
殷绪成:北京科技大学
刘成林:中国科学院自动化研究所
黄明鑫,金连文:华南理工大学
文章下载
Yuliang LIU, Zhang LI, Mingxin HUANG, Biao YANG, Wenwen YU, Chunyuan LI, Xu-Cheng YIN, Cheng-Lin LIU, Lianwen JIN & Xiang BAI. OCRBench: on the hidden mystery of OCR in large multimodal models. Sci China Inf Sci, 2024, doi: 10.1007/s11432-024-4235-6
多模态大模型(LMMs)在视觉-语言任务中展现了卓越的性能,即使未经过OCR领域特定数据的训练,LMMs在自然环境中的零样本OCR任务中依然表现出色。然而,现有的OCR评估数据集为小模型设计,评测方式通常依赖完全匹配的方式,难以适应LMMs生成开放性答案的特性。此外,多模态大模型在OCR任务中的局限性尚未被探索。深入认识这些局限性,不仅有助于发现现有方法的不足,还能够为多模态技术的优化提供指导,从而推动设计出更加稳健且高效的模型,能够更好地应对复杂的文本相关任务。这使得全面且准确地评估LMMs在OCR领域的性能成为当前亟需解决的关键问题。本文对多模态大模型的OCR能力进行了深入的研究,在27个公有数据集和2个生成的无语义和对比的有语义的数据集上对文字识别、场景文本VQA、文档VQA、关键信息抽取和手写数学表达式识别这五个任务上进行了广泛的实验。为了方便而准确地评估多模态大模型的OCR能力,本文还进一步构建了用于验证多模态大模型零样本泛化能力的文字领域最全面的评估基准OCRBench,评测了谷歌GEMINI,OpenAI-GPT4V以及目前开源的多个类GPT4V多模态大模型,揭示了多模态大模型直接应用在OCR领域的局限。
本文的创新点如下:
(1) 构建了用于验证多模态大模型零样本泛化能力的文字领域最全面的评估基准OCRBench。
(2) 评测了谷歌GEMINI,OpenAI-GPT4V以及目前开源的多个类GPT4V多模态大模型在OCR任务上的性能,揭示了多模态大模型直接应用在OCR领域的局限。
(3) 将模型的评测标准从完全匹配优化为答案包含判断以适配多模态大模型的灵活输出。
如表1和2所示,LMM在识别常规文本、不规则文本、遮挡场景下的文本和艺术字方面取得了与Supervised-SOTA相媲美的性能。InstructBLIP2和BLIVA在WordArt数据集中的性能甚至超过了Supervised-SOTA。语义依赖。LMMs在识别缺乏语义的字符组合时表现出较差的识别性能。具体而言, LMMs在NST(无语义)数据集上的准确率相比于ST(有语义)数据集平均下降了57.0%,而Supervised-SOTA只下降了约4.6%。这是因为场景文本识别的Supervised-SOTA直接识别每个字符,语义信息仅用于辅助识别过程,而LMMs主要依赖语义理解来识别单词。例如Figure1中,LMM成功识别了单词"Message",但错误地识别了"egaesMs",这只是单词"Message"的重新排序。手写文本。LMMs在准确识别手写文本方面存在挑战。手写文本通常因快速书写、不规则手写或低质量纸张等因素而显得不完整或模糊。平均而言,LMMs在这项任务中的性能比Supervised-SOTA差了51.9%。多语言文本。在ReCTS、ESTVQA(En)和ESTVQA(Ch)上观察到的显著性能差距展示了LMMs在中文文本识别和问答方面的不足。这可能是由于中文训练数据的缺少导致的。而Monkey的语言模型和视觉编码器都经过大量中文数据的训练,因此它在中文场景中表现优于其他多模态大模型。细粒度感知。目前,大多数LMMs的输入图像分辨率受限于224 x 224,与它们架构中使用的视觉编码器的输入尺寸一致。然而,高分辨率的输入图像可以捕捉到更多的图像细节,从而提供更细粒度的信息。由于BLIP2等LMMs的输入分辨率受限,它们在场景文本问答、文档问答和关键信息抽取等任务中提取细粒度信息的能力较弱。相比之下,Monkey和 DocPedia等具有更高输入分辨率的多模态大模型在这些任务中具有更好的表现。HMER。LMMs在识别手写数学表达式方面存在极大的挑战。这主要是由于杂乱的手写字符、复杂的空间结构、间接的LaTeX表示以及训练数据的缺乏所导致的。完整地评估所有数据集可能非常耗时,而且一些数据集中的不准确标注使得基于准确率的评估不够精确。鉴于这些限制,本文进一步构建了OCRBench,以方便而准确地评估LMMs的OCR能力。OCRBench包含了来自文本识别、场景文本问答、文档问答、关键信息抽取和手写数学表达式识别这五个任务的1000个问题-答案对。对于KIE任务,本文还在提示中进一步添加了“Answer this question using the text in the image directly.”来限制模型的回答格式。为了确保更准确的评估,本文对OCRBench中的1000个问答对进行了人工校验,修正了错误选项,并提供了正确答案的其他候选。其结果如Table 3所示,Gemini获得了最高分,GPT4V获得了第二名。需要注意的是,由于OpenAI进行了严格的安全审查,GPT4V拒绝为OCRBench中的84张图像提供结果。Monkey展示了仅次于GPT4V和Gemini的OCR能力。从测试结果中,我们可以观察到,即便是GPT4V和Gemini这样最先进的多模态大模型在HMER任务上也面临困难。此外,它们在处理模糊图像、手写文本、无语义文本和遵循任务指令方面也存在挑战。正如图2(g)所示,即使明确要求使用图像中的文本回答,Gemini仍将"02/02/2018"解释为"2 February 2018"。表4展示了目前最先进的多模态大模型在OCRBench上的性能表现。本文构建的OCRBench评测基准已被国际权威“司南”多模态大模型排行榜及LMMs-Eval收录,并被应用于微软、Meta、通义千问、智谱AI等国内外知名研究团队,以及图灵奖得主Yann LeCun等的研究工作,成为评估多模态大模型OCR能力的重要基准。近一年内,OCRBench被引用156次,被下载使用近十万次,推动了多模态大模型在OCR领域的发展。