多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

科技 2025-01-02 10:56 北京

LongDocURL团队投稿
量子位 | 公众号 QbitAI

GPT-4o仅得分64.5，其余模型均未及格！

全面、细粒度评估模型多模态长文档理解能力的评测集来了～

名为LongDocURL，集成了长文档理解、数值推理和跨元素定位三个主任务，并包含20个细分子任务。

LongDocURL主打多模态、长上下文，专注于篇幅在50～150页的英文文档，平均页数和文档标记数分别为85.6和43622.6。

数据质量也很高，经过了模型自动验证和人工验证，包括21位全职外包标注员和6位经验丰富的硕博研究生的监督。

△图1 新Benchmark与其它数据集在单文档平均页数、文本标记数上的比较

△图2 新Benchmark与其它文档理解基准的比较。(U) 理解任务、(R) 推理任务和 (L) 定位任务

这项工作由中科院自动化研究所刘成林课题组和淘天集团算法技术-未来生活实验室团队合作完成。

团队在多模态输入和纯文本输入共26种配置下全面评估了国内外主流的开源和闭源大模型。

目前在评测集上GPT-4o排第一，但也仅刚过及格线，正确率64.5。

更全面细粒度的评估任务分类标准

大型视觉语言模型 (LVLMs) 显著提高了文档理解能力，能够处理复杂的文档元素、更长的上下文和更广泛的任务。

然而，现有的文档理解基准仅限于处理单页或少页文档，也未提供模型对文档布局元素定位能力的全面分析。

本文研究团队指出了现有文档理解基准的一些局限性：

复杂元素：大多数基准未能涵盖段落、标题、表格和图形等所有元素，而是仅关注部分内容。此外，关于不同元素之间相互关系的讨论很少。
长上下文：当前的多页文档问答基准，例如 MPDocVQA 和 DUDE ，不评估超过 20 页的文档。虽然 MMLongBench-Doc 收集了较长的文档，但它仅提供了大约 1k 个有效样本，只有大约 30% 的问题涉及跨页信息。
更多样的任务：现有工作更多侧重于OCR或简单的问答任务，而忽略了跨元素定位任务等其他领域能力的探索。这表明，现有基准落后于模型的进步，可能会阻碍文档理解的发展。

那么，LongDocURL究竟新在哪，又难在哪？

团队首先定义了三个主任务类别：

1）理解 (Understanding)：通过识别关键字、解析表格结构等从文档中提取信息。答案直接在文档中找到。

2）数值推理 (Numerical Reasoning)：通过计数 (count)、计算 (calculate)、比较 (compare) 和总结 (summarize) 来处理文档中的数值信息。在提取信息的基础上进一步推理才能得出正确答案。

3）跨元素定位 (Cross-element Locating)：团队注意到，建立一个任务来评估模型分析不同类型元素之间关系的能力本来是很重要的，但是以前的研究在这方面的关注很少。

例如，在段落标题定位任务中，模型必须总结相关章节以识别与给定摘要匹配的部分，然后确定段落与其章节标题之间的关系。此任务需要在回答过程中切换元素类型（即段落到标题）。

△图3 三类任务问答对示意图。

（上）文档样例的缩略图。橙色框表示答案证据页面。（下）从文档生成的数据示例和答案证据页面相关部分的截图。

团队根据不同的主任务类别和答案证据，将数据集进一步细分为 20 个子任务。

首先，每个问答对都可以根据三个主任务进行分类：理解、推理和定位。其次，根据元素类型定义四种类型的答案证据：

文本 (Text)：纯文本，例如段落；
布局 (Layout)：具有特殊布局含义的文本元素（Generalized Text），例如标题、页眉、页脚、表名和图名；
图 (Figure)：包括图表 (Chart) 和一般图像 (Image)。
表格 (Table)。

此外，每个问答对可以根据答案证据页数分为单页或多页，根据证据元素类型的数量分为单元素或跨元素。

△图4 任务分类体系。

内环：按主要任务类别（理解、推理和定位）划分。中环：按答案证据页数（单页、多页）和证据元素类型数量（跨元素）划分。外部：按证据元素类型（文本、表格、图形、布局）划分。

半自动化数据构造流程

为了高效、低成本构建LongDocURL的评估数据集，团队设计了一个由四个模块组成的半自动化流程。

△图5 构建流程概述。

该流程包含四个模块：(a) 提取和过滤；(b) QA 生成；(c) 自动验证；(d) 人工验证

首先，提取和过滤模块 (Extract&Filter module) 从不同的文档源中挑选丰富布局且长度合适的文档，并用Docmind工具获得 “text-type-bbox” 三元组符号序列。

其次，问答对生成模块 (QA Generation module) 基于三元组符号序列和强模型（如GPT-4o），多步骤迭代提示生成具有证据源的问答对。

最后，自动验证 (Automated Verification module) 和人工验证模块 (Human Verification module) 确保问答对的质量。

通过这个半自动化流程，团队最终生成了 2,325 个问答对，涵盖了超过 33,000 页的文档。

长上下文理解能力综合评估

主实验

△图6 归一准确度分数（0~1）。

任务分为 3 种类型：理解（U）、推理（R）和定位（L）。证据元素分为 4 种类型：纯文本（TXT）、布局（LAY）、图表和图像（FIG）和表格（TAB）。证据页数/元素分为 3 种类型：单页（SP）、多页（MP）和跨元素（CE）。CTi：跨标题，CTa：跨表格，PTi：副标题，FTa：图表-表格。得分最高的模型以绿色突出

关于 LVLMs，团队得出以下结论：

（1）得分最高的模型：只有 GPT-4o 及格，获得 64.5 分，这表明 LongDocURL 对当前模型是一大挑战。

（2）开源和闭源模型的比较：闭源模型与开源模型相比表现出更好的整体性能。在开源模型中，只有 Qwen2-VL（得分30.6）和 LLaVA-OneVision（得分22.0和25.0）的得分超过 20，而其他参数少于 13B 的模型都低于此阈值。

为了比较使用文本输入和图像输入的模型性能，团队加了O1-preview和Qwen2.5系列。

实验结果表明，LLM的总体得分明显低于LVLM，最高LLM得分落后最高LVLM得分约30分。

团队分析，这一差距主要是因为使用PyMuPDF解析为纯文本时丢失了重要的文档结构信息。考虑到我们的数据集包含大量与表格和图表相关的问答对，结构信息的丢失阻碍了LLM提取关键证据的能力。这些结果凸显了 LongDocURL作为评估LVLM文档结构解析能力的基准的重要性。

细粒度分析结果

团队挑选了3个闭源和开源模型，根据文档来源、任务类别、文档元素和证据页对实验结果进行了更细粒度的分析。

△图7 细粒度分析

任务类型：

（1）专有LVLM在推理和定位任务上的表现相当，但图像到文本的转换对推理能力的影响更大。例如，切换到文本输入，GPT-4o的推理分数下降了31.6分，而定位分数下降了22.4分。

(2) 强模型在推理和定位方面表现均衡，而较弱的模型在定位方面表现不佳，这表明在定位任务中，训练的重点是理解和推理能力，而不是空间和逻辑关系。

文档元素：

模型在文本问题上的得分最高，在表格问题上的得分最低，凸显了文档结构解析方面的不足。图形和布局问题类型的得分相似。跨元素任务的分数介于单页和多页QA之间，与整体评估紧密相关。

单页与多页：

单页QA准确率低于多页QA。这表明一些问题的答案可以从多页中收集，从而降低了难度。然而，像GPT-4o和Qwen-VL-Max这样的模型在多页QA上的准确率较低，表明矛盾的是，他们在多页QA中的定位任务得分较低，从而影响了整体表现。

输入方式消融实验

为了探索长文档问答中的最佳输入格式，团队在两种图像输入和两种文本输入范式中进行了消融实验。

图像输入范式包括：(1) 截断 (cut-off)，主实验的配置，以及 (2) 合并 (merge)，将文档图像从原始文档长度（50~150）组合成20~30张新图像。

团队注意到，表格结构信息在PyMuPDF解析时会显著降低，而Docmind解析的markdown格式表格文本保留了更高的结构完整性。为了评估结构信息丢失对模型性能的影响，团队对两种输入类型进行了实验：docmind解析文本输入、pymupdf解析文本输入。

△图8 输入方式消融实验

文本输入vs.图像输入：截断范式中的分数高于文本输入-pymupdf范式中的分数，但低于文本输入-docmind范式中的分数，表明该方法可以有效提取表格结构信息，但可以进一步改进。

截断vs.合并：合并方法通过连接多个图像保留了更多的上下文标记，而截断方法通过缩短上下文窗口成功获取了先验信息。实验结果表明，截断可能比合并产生更好的问题解决能力，为未来构建多模态检索增强生成 (RAG) 系统提供了见解。

结构信息的影响：对于专有模型，使用Docmind的性能至少比使用 PyMuPDF高25分，而开源模型的差异为15分。缺乏表结构信息会严重阻碍开源和专有模型的性能。

Case Study

（a）错误的证据源

△图9 示例1

（b）缺失证据源

△图10 示例2

示例样本

Understanding

△图11 Understanding QA示例

Reasoning

△图12 Reasoning QA示例

Locating

△图13 Locating QA示例

论文链接：https://arxiv.org/abs/2412.18424
项目主页：https://longdocurl.github.io/
数据集：https://huggingface.co/datasets/dengchao/LongDocURL

— 完 —

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

量子位

追踪人工智能新趋势，关注科技行业新突破

最新文章

「为啥最强开源CPU是中国的」，硅谷大V灵魂发问，震动50万人在线围观

斯坦福打脸大模型数学水平：题干一改就集体降智，强如o1也失准，能力涌现怕不是检索题库

CES2025倒计时，量子位AI专题已就位

全网都在扒的DeepSeek团队，是清北应届生撑起一片天

AGI-Eval团队：AI视频生成模型年度横评，Sora大饼落地，但国产模型仍然领先！

破解大模型隐私防线，华科清华联手实现微调数据90%精准识别 | NeurIPS24

CES2025倒计时，量子位AI专题已就位

刚拿下NeurIPS最佳论文，字节就开源VAR文生图版本，拿下SOTA击败扩散模型

OpenAI再招华人研究员！高中入围美国“少年诺贝尔奖”，还在哈佛教书

Grok新生图功能大翻车，画人总是画不对，网友喊话马斯克：给谷歌道歉

你的专属“钢铁侠”助手OS Agents来了！浙大联手OPPO、零一万物等10个机构推出全新综述

CES2025倒计时，量子位AI专题已就位

抑郁6个月后，DeepMind两万引科学家离世，万字绝笔谈在AI行业工作的压力

昆仑万维周亚辉：AGI时代也叫机器人时代，决定未来十年新首富

阿里零一万物强强联合！成立产业大模型联合实验室

4o-mini只有8B，o1也才300B！微软论文意外曝光GPT核心机密

10秒极速出片！还有超多特效模版，国产视频模型又整新活了

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

CES2025倒计时，量子位AI专题已就位

具身智能工业场景需求明确，扩大应用场景和处理复杂数据仍是发展重点｜云深处李超@MEET2025

潞晨尤洋：视频生成的GPT-4时刻，3年后可以见证 | MEET 2025

阿里前端第一人AI创业首秀，要做全球内容创作者的GitHub！公司俩月估值过亿，5k人排队内测

本科学历但创造出GPT，奥特曼盛赞为「爱因斯坦级」天才，OpenAI总裁：他想要的，我们都给

搞乐队的物理学家，开始给普通人科普黑洞了

这届打工人太难带？全能智能体出手了

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

黄仁勋自掏腰包50亿，开源英伟达GPU管理工具

ViT作者飞机上也要读的改进版Transformer论文，花2个小时详细批注解读分享出来

奥特曼公布OpenAI新年目标：AGI/Agent排前列，4o/Sora要更新，还有……

智谱版o1终于也来了：直接拿下考研数学，一句话就能做小游戏！

智源王仲远：多模态大模型对产业更加重要，得多模态大模型得天下 | MEET 2025

AI视频突飞猛进这一年，国产之光可灵AI笑到最后

苹果布局人形机器人：“自我为中心”感知系统动态避障，比英伟达cuRobo计算效率提升26倍

LeCun：对人工智能末日的担忧被夸大了，Meta正在构建超级智能助手

一张图生成高质量广视野3D场景，还可控制摄像轨迹

南京大学FinTech课题组招募大模型AI4Finance国际联培博士生

稚晖君开源百万机器人真机数据集

南大周志华：百万模型进入学件基座系统，很多我们没预期过的事也有可能实现 | MEET 2025

DeepSeek V3“报错家门”：我是ChatGPT

算力直降97%，GPT-3存储只用20MB？！这篇直接在1.58-bit下训练模型的新论文火了

机器人空间泛化也有Scaling Law！清华新国大新算法框架让机器人操作更加鲁棒

北大数学家独作论文登数学顶刊！袁新意统一了算术与几何Bogomolov猜想

CPO薪资倒挂CEO，创业公司薪酬情况大起底

超越ControlNet++！腾讯优图提出动态条件选择新架构

OpenAI科学家：现有模型+后训练足以产生黎曼猜想的新证明

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

3D版抖音有望诞生，零门槛3D创作时代来临｜VAST宋亚宸@MEET 2025

协议曝光！原来微软OpenAI这样定义AGI

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

把注意力计算丢给CPU，大模型解码吞吐量提高1.76~4.99倍

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

LongDocURL团队 投稿量子位 | 公众号 QbitAI

△图1 新Benchmark与其它数据集在单文档平均页数、文本标记数上的比较

△图2 新Benchmark与其它文档理解基准的比较。(U) 理解任务、(R) 推理任务和 (L) 定位任务

更全面细粒度的评估任务分类标准

△图3 三类任务问答对示意图。

△图4 任务分类体系。

半自动化数据构造流程

△图5 构建流程概述。

长上下文理解能力综合评估

主实验

△图6 归一准确度分数（0~1）。

细粒度分析结果

△图7 细粒度分析

输入方式消融实验

△图8 输入方式消融实验

Case Study

△图9 示例1

△图10 示例2

示例样本

△图11 Understanding QA示例

△图12 Reasoning QA示例

△图13 Locating QA示例

LongDocURL团队投稿
量子位 | 公众号 QbitAI