摘要
我们介绍了 MM1.5,一个新的多模态大型语言模型 (MLLM) 家族,旨在增强在富文本图像理解、视觉参照和定位以及多图像推理方面的能力。 在 MM1 架构的基础上,MM1.5 采用以数据为中心的模型训练方法,系统地探索了整个模型训练生命周期中各种数据混合的影响。 这包括用于持续预训练的高质量 OCR 数据和合成字幕,以及用于监督微调的优化视觉指令调优数据混合。 我们的模型参数范围从 10 亿到 300 亿,涵盖密集型和专家混合 (MoE) 变体,并证明即使在较小规模(10 亿和 30 亿)下,仔细的数据整理和训练策略也能产生强大的性能。 此外,我们还介绍了两种专门的变体:MM1.5-Video,专为视频理解而设计,以及 MM1.5-UI,专为移动 UI 理解而设计。 通过广泛的经验研究和消融实验,我们提供了关于训练过程和决策的详细见解,这些见解为我们最终的设计提供了依据,并为 MLLM 开发的未来研究提供了宝贵的指导。
1引言
近年来,多模态大型语言模型 (MLLM) 已成为一个越来越活跃的研究课题。 闭源模型,如 GPT-4o [51]、GPT-4V [125]、Gemini-1.5 [149, 130] 和 Claude-3.5 [5],在高级多模态理解方面表现出非凡的能力。 同时,开源模型,如 LLaVA 系列工作 [102, 100, 101, 74]、InternVL2 [21]、Cambrian-1 [151] 和 Qwen2-VL [9, 150],正在迅速缩小性能差距。 越来越多的兴趣在于开发能够使用一组模型权重来理解单图像、多图像和视频数据的模型 [74]。
基于 MM1 [118] 的成功,我们推出了 MM1.5,一个新的大型语言模型 (MLLM) 家族,经过精心设计以增强一组核心功能。 具体来说,我们关注以下几个方面。
•
光学字符识别 (OCR). 基于最近在开发具有高分辨率图像理解能力的 MLLM 方面的趋势 [182, 21],MM1.5 支持高达 400 万像素的任意图像纵横比和分辨率。 通过在不同的训练阶段纳入精心挑选的 OCR 数据来增强文本理解能力,MM1.5 在理解富含文本的图像方面表现出色。
•
视觉参照和定位。 MM1.5 提供强大且细粒度的图像理解,超越文本提示,可以解释 视觉 提示,例如点和边界框。 此外,MM1.5 可以通过将文本输出与图像边界框相结合来生成定位响应。 这种能力在大多数开源模型中尚未得到充分探索(例如,LLaVA-OneVision [74] 和 Phi-3-Vision [3]),甚至在像 GPT-4o 这样的强大专有模型中也是如此,这些模型依赖于标记集 (SoM) 提示 [167] 来引用图像区域。
•
多图像推理和上下文学习。 MM1.5 得益于大规模交错预训练,从而在开箱即用时具备强大的上下文学习和多图像推理能力。 我们通过对额外的高质量多图像数据进行监督微调 (SFT) 来进一步提高其能力,类似于 [53, 77] 中探讨的方法。
我们的主要重点是最有效的模型规模,10 亿和 30 亿,并证明即使是相对较小的 MLLM 也能在各种下游任务上取得具有竞争力的性能。 具体来说,我们在此模式下展示了两种类型的模型。
•
密集模型:这些模型以 10 亿和 30 亿的尺寸提供,足够紧凑,便于在移动设备上部署,但功能强大,足以胜过更大的开源模型。
•
专家混合 (MoE) 模型:MoE 模型也以 10 亿和 30 亿的变体提供,具有 64 个专家,在推断期间保持固定数量的激活参数,从而提高性能。
在更小的模型规模之外,我们进一步证明了 MM1.5 方法在高达 300 亿参数的范围内表现出强大的扩展行为,在广泛的基准测试中取得了具有竞争力的性能。
MM1.5 是一款通用模型;但是,在某些情况下,特定下游应用需要专门的模型。 为此,我们开发了另外两个变体:
•
MM1.5-Video,一种用于视频理解的变体。 我们探索了两种训练方法:使用仅在图像数据上训练的 MM1.5 的无训练方法,以及在视频特定数据上的监督微调。
•
MM1.5-UI,一个定制版本的 MM1.5,专注于移动 UI 理解(e.g.,iPhone 屏幕)[44, 171],其中视觉引用和定位起着至关重要的作用。
构建高效的 MLLM 是一项高度经验性的工作。 虽然总体目标和高级训练流程定义明确,但其执行的细节仍然不清楚。 在开发 MM1.5 时,我们选择保留与 MM1 相同的模型架构[118],使我们能够专注于完善和研究数据中心训练方法的复杂性。 我们的注意力集中在以下关键方面:
•
持续预训练。 我们在 SFT 阶段之前引入了一个额外的、高分辨率的持续预训练阶段,我们发现这对于提升富文本图像理解性能至关重要。 我们消除了此阶段两种高质量数据的影响:
–
我们探索了文本丰富的 OCR 数据以进行持续预训练,重点关注图像中文本的详细转录 [46, 68]。
–
我们还尝试了高质量的合成图像标题,这些标题要么是公共数据,要么是使用基于先前训练的 MM1 模型的图像标题生成器生成的。
•
SFT。 虽然之前有大量工作讨论了用于 MLLM 的 SFT 数据,但关于混合物中每类 SFT 数据如何影响最终模型性能的探索仍然有限。 特别是,支持每个能力的数据对其他能力的影响尚待研究。 我们进行了广泛的消融以确定权衡和协同作用,最终从公共数据集中构建了一种混合,这有助于在 MM1.5 中的一组广泛能力中实现均衡的性能。
•
动态高分辨率。 此外,对于 高分辨率 图像编码,我们遵循流行的任何分辨率方法,动态地将图像划分为子图像 [99, 93, 182],并进行彻底的消融以细化设计中的关键细节。
与大多数仅关注 SFT [102, 100, 101] 的开源模型不同,MM1 通过大规模预训练展示了强大的零样本和少样本学习能力。 在开发 MM1.5 时,我们的目标是保留这些优势,并更有效地将它们转移到 SFT 阶段。 为此,我们通过探索纯文本数据的影响和优化不同预训练数据类型的比例来进一步扩展 MM1 的预训练。 此方法提高了知识密集型基准测试的性能,并增强了整体多模态理解能力。
我们的主要贡献总结如下:(
2相关工作
多模态大型语言模型 (MLLM) [125, 51, 149, 76, 49] 近年来成为研究的重点领域。 MLLM 的发展可以追溯到 Frozen [153] 和 Flamingo [4, 6],最近的进展如 LLaVA [102] 和 MiniGPT-4 [191] 引入了视觉指令调优的概念。 过去一年见证了开源 MLLM 的繁荣,其中一些声称在某些基准测试中与 GPT-4o 相媲美。 值得注意的例子包括 Emu2 [144, 143]、VILA [97]、Idefics2/3 [68, 66]、Cambrian-1 [151]、InternLM-XComposer-2.5 [26, 182]、InternVL2 [22, 21]、MiniCPM-V [169]、CogVLM2 [156, 43]、BLIP-3 [82, 166]、LLaVA-OneVision [77]、Llama3.1-V [29] 以及最新的 Qwen2-VL [9]。
MLLM 的研究已在多个方面扩展:(
在关于 MLLM 的大量文献中,MM1.5 作为其前身 MM1 [118] 的重大升级而脱颖而出。 MM1.5 模型系列集成了各种核心功能,包括文本丰富的图像理解、视觉引用和定位以及多图像推理。 相比之下,最近的通用 MLLM,如 Cambrian-1 [151] 和 LLaVA-OneVision [77],在处理引用和定位任务方面表现不太令人满意,GPT-4o 必须依赖于标记集 (SoM) 提示 [167] 来理解图像区域。
尽管最近有几项工作开源了详细的 SFT 数据混合供公众使用 [68, 151],但每个数据类别的确切影响以及最佳组合方法仍未得到充分探索。 这对于需要多种功能的模型尤其如此。 MM1.5 凭借其全面实证研究脱颖而出,该研究展示了构建高效多模态大语言模型 (MLLMs) 的成熟方案。 MM1.5 扩展到移动 UI 理解进一步增强了这项工作的独特性。
该领域另一个新兴趋势是开发轻量级 MLLMs,以实现潜在的边缘部署 [55, 48, 11, 104, 42, 91, 190, 41]。 在 MM1.5 中,提供了具有 10 亿和 30 亿参数的模型,这些模型的性能优于类似规模的模型,例如 Phi-3-Vision [3] 和 MiniCPM-V [169]。
3构建 MM1.5 的方案
开发和改进 MLLMs 是一种高度经验性的实践。 在这项工作中,除了包含 MM1 中的预训练和监督微调 (SFT) 阶段 [118],我们还引入了一个使用高质量 OCR 数据和合成字幕的持续预训练阶段。 如图 2 所示,为了获得最佳数据方案,
•
我们首先对 SFT 数据混合进行全面消融研究(第 3.2 节)。 我们根据 SFT 数据旨在支持的功能将其分类为多个组。 我们仔细评估了每个类别数据集的影响,并调整了最终混合中每个类别的比例,以平衡不同的核心功能。
•
为了进一步提高模型性能,特别是对于富文本图像理解,我们进一步对持续预训练的数据选择进行了消融研究(第 3.3 节)。 这包括 4500 万个丰富的 OCR 数据和 700 万个由先前训练的基于 MM1 的图像字幕器生成的优质图像字幕。 VILA2 [30] 和 LLaVA-OneVision [74] 中也探索了类似的想法。
•
最后,为了提高在 MMMU 等知识密集型基准上的性能 [177],我们进一步研究了预训练数据的影响(第 3.4 节)。 我们保留了与 MM1 相同的图像字幕和交织图像文本数据 [118],更新了纯文本数据,并仔细调整了数据混合比例,从而产生了经过显著细化的最终数据组合。
除了数据消融外,我们还提供了关于动态图像分割的详细消融,也称为 AnyRes [101](第 3.5 节,另见图 1),用于高分辨率图像理解。
3.1消融的经验设置
除非另有说明,否则我们在消融研究中遵循以下默认设置。
模型架构和数据预处理。 我们使用与 MM1 [118] 相同的架构,专注于 3B 密集模型,用于本节中的所有消融研究。 具体来说,
•
静态图像分割 [99] 启用了 4 个子图像分割(加上一个概述图像),每个子图像通过位置嵌入插值调整为 672
672 分辨率。 请注意,我们在消融期间没有使用动态图像分割,以加快实验迭代速度。× •
关于多图像数据的编码,我们仅在当前训练样本包含少于三个图像时启用图像分割,以避免过长的序列长度。
•
与 Ferret [170] 中介绍的功能类似,MM1.5 直接支持参照和定位。 应请求,MM1.5 可以在其文本输出中生成边界框以定位其响应。 此外,该模型可以解释对输入图像中的点和区域的引用,以参照坐标和边界框的形式(见图 1)。
•
与 MM1 一样,CLIP 图像编码器和 LLM 主干基于我们的内部模型,其中 C-Abstractor [14] 作为视觉语言连接器。
模型优化。 对于持续预训练和 SFT,我们将批次大小设置为 256。 我们使用 AdaFactor 优化器,峰值学习率为 1e-5,余弦衰减为 0。 对于持续预训练,我们最多训练 30k 步。 在 SFT 期间,所有模型都经过一个 epoch 的优化。
持续预训练。 模型使用 MM1 预训练检查点进行初始化。 默认情况下,我们在 45M 高分辨率 OCR 数据(包括 PDFA、IDL、渲染文本 [68] 和 DocStruct-4M [46] 1 )上进行持续预训练。 在每个训练批次中,数据从这四个数据集中等量采样。 与 SFT 阶段类似,我们使用静态图像分割,将每个图像分成五个子图像,每个子图像调整大小到 672
SFT 数据分类。 将数据集分组到类别中可能有助于数据平衡和简化分析 [68, 151]。 在高级别上,我们根据每个示例中呈现的图像数量将数据集聚类到 单图像、多图像 和 纯文本 类别中。 对于单图像组,我们进一步将每个数据集分类为以下子类别:general,text-rich,refer&ground,science,math 和 code。 请参见附录 A.2 中的表格 13,以了解用于消融研究的每个类别的详细信息,以及图 4,以了解组类别的概述。
评估基准。 我们根据基准主要衡量的能力将基准分组。 我们的基准组包括一般、文本丰富、参考和接地、知识和多图像。 请参见附录 A.4 中的表格 14 以了解更多详细信息。 我们提出Category Average Score,即每个子类别所有基准数字的平均分数,以表示该能力的平均性能。 我们专注于一般、文本丰富和知识类别,因为这些能力被广泛认为是 MLLM 的必要条件。 为了评估模型对这些能力的影响,我们参考一个 MMBase 分数,定义为一般、文本丰富和知识类别的平均分数。 评估指标的详细信息见附录 A.4。
3.2SFT 消融
为了确定最佳的 SFT 方案,我们首先在第 3.2.1 节中研究了不同数据类别带来的影响,然后在第 3.2.2 节中研究了如何最佳地混合所有数据。
3.2.1不同数据类别的影响
在本小节中,我们重点评估单图像数据类别。 我们首先评估通用数据类别,然后逐步评估单独添加其他子类别带来的影响。 在训练过程中,我们混合来自不同子类别的数据,并通过随机抽样对应混合中的数据来构建每个训练批次。 我们使用 类别平均得分 来比较每个能力的模型。
我们的结果总结在图 5 中。 我们观察到,添加文本丰富的数据可以显著提高文本丰富和知识基准的性能。 数学数据的加入遵循类似的趋势,尽管我们观察到文本丰富平均得分提高的程度较小。 当添加科学数据时,我们观察到知识基准的预期改进,以及文本丰富性能的轻微改进。 添加代码类别会导致文本丰富平均得分略微增加,而其他基准的性能没有提高。 包括参照与定位数据将赋予模型参照和定位能力,但我们也观察到所有其他能力类别的轻微下降。
3.2.2数据混合比例研究
我们首先研究单图像类别内的混合比例。 由于根据数据大小直接混合一般数据和文本丰富数据在各种基准测试中显示出强大的结果(见图 5),我们使用这种组合作为起点来研究如何将其他类别混合到该集合中。 然后,我们将整个单图像集与多图像集和仅文本集结合在一起,采样权重分别为
单图像数据的混合。 由于不同子类别的数据样本数量不平衡,直接混合来自不同类别的所有数据集可能并不理想。 例如,一般数据类别的规模大约是科学数据类别规模的 68
为了衡量
单张图像、多张图像和纯文本数据的混合。 现在,我们研究混合比例,
与单张图像混合研究类似,我们也从通用数据和文本丰富数据的组合开始,并枚举
对于多图像数据,我们使用多图像平均得分(在表 14 中的多图像基准上评估)作为额外的指标来评估模型处理多图像任务的能力。 结果总结在图 7(右) 中。 我们观察到,增加多图像数据的采样比例会降低基本能力的性能,如 MMBase 得分减少所示,而多图像平均得分会增加。 我们选择
混合多个类别。 基于以上研究,我们展示了三种混合,即 Base 混合,Single-image 混合和 All 混合,并分析它们的权衡。 Base 混合包括通用数据、文本丰富数据、科学 (
我们的结果总结在图 8 中。 前三列表明,包含参考和接地数据以及多图像数据略微降低了文本密集、知识和一般基准的平均性能。 第四列显示,添加参考和接地数据显着提高了参考和接地性能,而第五列则强调,添加多图像数据极大地提高了多图像基准。 最后一列表明,我们优化的混合体在所有基准上平衡了所有能力,从而实现了最佳的整体性能。
3.3持续预训练消融
除非另有说明,否则我们在高分辨率设置 (1344
图像分辨率的影响。 直观地说,使用 OCR 数据训练时,更高分辨率的图像更可取。 我们首先通过建立两个基线来消除此阶段图像分辨率的影响,分别使用 378
我们可以清楚地看到,使用 1344
OCR 数据和合成字幕的影响。 除了 OCR 数据,高质量的合成图像字幕 [18, 71] 也被广泛认为对预训练很有用。 为了研究其影响,我们使用默认设置,除了在持续预训练中使用的数据。 我们研究了两个合成字幕数据集:LLaVA-Recap-3M [71] 和 ShareGPT4V-PT [18],以及它们与我们的 OCR 数据的组合。 当我们将 ShareGPT4V-PT 或 LLaVA-Recap-3M 与我们的 OCR 数据组合时,我们在每个训练批次中从各个数据集平等地采样数据。 结果如 图 9(b) 所示。 我们观察到所有持续预训练的模型都比没有持续预训练的基线模型表现更好。 但是,我们没有找到确凿的证据表明这些高质量的合成字幕比可以说更简单的 OCR 数据更能提高性能。 虽然之前的一些研究 [74] 表明合成字幕可以提高性能,但我们的结果表明需要进一步研究其确切的影响。
因此,我们进一步研究了通过自训练生成的合成字幕对更大规模(高达 7M)和更可控风格的影响,使用在人类标注的字幕上微调的预训练 MM1 模型,类似于 [30]。 这组新数据集在某些环境中展现出了一些希望,详见附录 A.1。 我们将在未来的工作中进一步研究这个课题。
3.4预训练消融
除了 SFT 和持续预训练之外,我们强调在预训练过程中使用大规模、特定任务的数据对于建立模型有效处理各种任务的稳固基础的重要性。 对于像 MMMU [177] 这样对知识要求很高的基准测试,我们发现模型性能对它的文本理解能力高度敏感。 LLM 理解和处理文本内容的能力对于解决这些基准测试中提出的复杂推理和知识表示挑战至关重要,正如在 Cambrian-1 [151] 中观察到的那样。
我们在预训练阶段加入了 [39] 提出的更高质量、更多样化的纯文本数据集,称为 HQ-Text。 这些数据集经过专门策划,通过提供更深入、更多样的文本内容来增强模型的语言能力,重点关注常识、数学和编码。 此更新旨在增强模型在基于语言的推理方面的能力。
如图 10 所示,只需用新数据替换,知识方面的平均得分就提高了 0.85 分。
结合纯文本数据集和第 3.2 节中讨论的最新 SFT 方法,我们进一步完善了预训练数据组合。 MM1 [118] 中提出的原始数据比例分别为图像-标题、交错图像-文本和纯文本数据的 45:45:10。 进一步的实验表明,减少交错预训练数据的数量,同时相应地将纯文本数据的权重增加到 50:10:40 的比例,可以在 SFT 之后提高大多数任务的性能。 我们注意到,与 MM1 中的预训练消融不同,对于 MM1.5,我们在 SFT 后的下游基准测试上进行评估以选择我们最终的预训练混合。 我们假设主要依赖于少样本预训练指标可能不是理想的,因为这种评估上的改进可能无法有效地转移到下游性能。 我们为 MM1.5 优化的新数据混合不仅增强了多模态能力,还加强了语言理解,从而在各基准测试中取得了优异的整体性能。
通过更新混合数据,文本丰富类平均性能提升了 0.85,知识类平均提升了 0.99,参考和地面任务提升了约 1.4,如图 10 所示。 尽管由于交叉数据的权重较低,多图像数据集略有下降 0.05,但我们认为这种权衡是合理的,因为它可以保证所有任务都能保持良好的性能。
3.5动态图像分割消融研究
为了有效地处理具有可变纵横比和分辨率的图像,我们引入了 动态 图像分割方法,用于高分辨率图像编码。 我们还详细说明了这种提出的分割方法的消融设置和相应结果。
动态图像分割。 处理高分辨率图像对于文本丰富的图像理解至关重要。 在 静态 图像分割 [99] 中,图像被分割成多个子图像,并由视觉编码器分别编码。 LLM 然后可以访问同一图像的多个块,从而实现更高的有效分辨率。 然而,将每个图像分割成一个严格的 2
给定最小和最大子图像数量,
受制于
图 11 可视化了两种情况下最小化的区域。 假设我们允许最多
全局-局部格式。 除了子图像之外,我们还始终将长边调整到编码器分辨率
子图像位置指示器。 鉴于输入图像被动态地分割成多个子图像,我们探索是否可以帮助指示每个子图像在原始高分辨率图像中的位置,以确保模型能够理解原始二维图像结构。 具体来说,我们考虑两种方法。
•
索引。 一个
元组用于表示子图像位置信息,其中( 𝑘 , 𝑖 , 𝑗 ) 是示例中图像的零索引编号(假设训练样本中可能有多个图像),𝑘 和𝑖 是单索引行和列 ID,例如,𝑗 是图像( 0 , 0 , 0 ) 的概览图像,而0 是图像( 0 , 2 , 1 ) 中第二行第一列的子图像。0 •
间隔。 我们使用三个文本符元来代替使用索引。 具体来说,‘:’ 是概览图像指示器,‘,’ 是列分隔符,而 ‘
’ 是行分隔符。 后两个符元插入到对应于每个子图像的图像符元集中,以便从扁平化的图像符元序列中恢复原始二维图像结构。
Row# | Mode | #image tokens(per sub-img / total) | Image Enc.Resolution | EffectiveResolution | Text-rich | Knowledge | General | Refer &Ground | Average | |
1 | Static | 1 | 144/144 | 672 | 0.45MP | 49.4 | 53.6 | 62.6 | 71.3 | 59.2 |
2 | 5 | 144/720 | 672 | 1.8MP | 57.7 | 53.8 | 64.4 | 74.8 | 62.7 | |
3 | Dynamic | 5 | 144/720 | 672 | 1.8MP | 58.6 | 53.7 | 64.1 | 74.0 | 62.5 |
4 | 10 | 81/810 | 378 | 1.3MP | 57.6 | 53.3 | 62.9 | 74.0 | 62.0 | |
5 | 10 | 81/810 | 672 | 4.1MP | 58.3 | 53.8 | 64.3 | 74.9 | 62.8 | |
6 | 10 | 144/1440 | 378 | 1.3MP | 58.5 | 54.0 | 63.2 | 74.5 | 62.6 | |
7 | 10 | 144/1440 | 672 | 4.1MP | 59.8 | 54.0 | 64.5 | 75.2 | 63.3 |
Row | DocVQA | InfoVQA | Text-rich | Knowledge | General | Refer & | Average | ||
# | Train | Inference | Ground | ||||||
3B Model Comparison | |||||||||
1 | 73.2 | 48.3 | 58.6 | 53.3 | 64.1 | 74.0 | 62.5 | ||
2 | 75.7 | 53.8 | 60.0 | 54.0 | 63.9 | 74.6 | 63.1 | ||
3 | 76.3 | 55.2 | 60.7 | 53.4 | 64.0 | 73.8 | 63.0 | ||
4 | 76.2 | 54.1 | 60.4 | 53.7 | 62.5 | 71.5 | 62.0 | ||
5 | 73.4 | 52.9 | 59.7 | 53.5 | 63.8 | 74.0 | 62.8 | ||
6 | 72.3 | 53.5 | 59.6 | 53.8 | 63.5 | 74.0 | 62.7 | ||
7 | 73.5 | 52.7 | 59.8 | 50.7 | 62.6 | 24.5 | 49.4 | ||
7B Model Comparison | |||||||||
8 | 77.0 | 54.3 | 64.5 | 61.1 | 66.8 | 77.7 | 67.5 | ||
9 | 81.7 | 62.1 | 67.4 | 60.1 | 66.6 | 78.0 | 68.0 | ||
10 | 83.3 | 64.1 | 68.0 | 58.7 | 67.7 | 77.2 | 67.9 |
更高分辨率的推理。 元组
3.5.1消融研究结果
在本节中,我们使用最终的 单图像混合 作为我们的默认实验设置,包括通用、富文本、知识(科学、数学和代码)和参考与地面真实数据。 为了快速迭代实验,所有模型都使用 MM1 预训练检查点初始化,没有进行持续预训练。 遵循图 5,我们报告了在富文本、知识、通用和参考与地面真实基准上的平均性能。 我们的发现总结如下。
图像分辨率和图像符元数量的影响(表 1)。 即使在两者都使用相同最大 5 个子图像的情况下,动态图像分割也比静态图像分割(第 2 行与第 3 行)获得了更好的富文本性能。 我们观察到,富文本任务对图像分辨率和子图像数量都很敏感,而其他任务则不太受影响。 请注意,增加子图像的数量意味着图像符元总数的增加。 具体而言,在相同有效分辨率的情况下,更多图像符元会提高富文本性能(第 4 行与第 6 行,第 5 行与第 7 行)。 反之,在相同图像符元数量的情况下,更高的有效分辨率会带来更好的富文本性能(第 4 行与第 5 行,第 6 行与第 7 行)。 总体而言,使用最多 10 个子图像,图像编码器分辨率为 672
图像网格配置的影响(表 2)。 使用更大的
子图像位置指示器和概述图像位置的影响(表 3)。 我们发现位置指示器并非严格必要(第 1 行至第 3 行)。 之前的消融研究,例如在 [27] 中,表明这可能是有益的,特别是对于 DocVQA 和 InfoVQA,这与我们的发现一致。 但是,平均而言,我们没有看到对富文本任务的显著影响。 索引位置指示器似乎有助于参照和定位,这是预期的,因为空间理解对于这些任务至关重要。 将概述图像放在子图像之后略微提高了性能(第 1 行与第 4 行),因为解码器注意力掩码允许概述图像关注所有子图像。
Row# | Sub-imgpos. indicator | Overviewimage pos. | DocVQA | InfoVQA | Text-rich | Knowledge | General | Refer &Ground | Average |
1 | none | before | 73.2 | 48.3 | 58.6 | 53.5 | 64.1 | 74.0 | 62.5 |
2 | seps | before | 74.3 | 49.7 | 58.8 | 53.0 | 63.8 | 74.5 | 62.5 |
3 | index | before | 73.4 | 48.6 | 58.6 | 52.7 | 63.4 | 74.8 | 62.4 |
4 | none | after | 73.3 | 49.7 | 59.2 | 54.3 | 64.1 | 73.8 | 62.8 |
效率。 虽然动态图像分割优于静态分割的一个可能解释是,为了性能而牺牲额外的计算量,因此允许高分辨率输入具有更多总子图像,但这并不一定总是这样。 在从附录 A.2 中描述的单图像训练数据混合中随机抽取的 100,000 个示例中,静态分割总共生成了 500,000 个子图像。 相比之下,具有
4最终模型和训练方案
Capability | Benchmark | MM1.5 1B | MM1.5 1B (MoE) | MM1.5 3B | MiniCPM-V2 3B | Phi-3-Vision 4B | InternVL2 2B |
GeneralVQA | MME [32] (SUM) Multi-discip | 1611.4 | 1873.0 | 1798.0 | 1808.2 | 1761.6 | 1864.3 |
SeedBench [75] (image) Multi-discip; Large-scale | 70.2% | 71.4% | 72.4% | 67.1% | 71.8% | 70.9% | |
POPE [92] Obj. Hallu | 88.1% | 88.6% | 88.1% | 87.8% | 85.8% | 85.2% | |
LLaVA OOD General | 71.6 | 75.5 | 73.0 | 69.2 | 71.6 | 60.0 | |
MM-Vet [174] Multi-discip | 37.4% | 39.8% | 41.0% | 38.2% | 46.2% | 39.7% | |
RealworldQA [160] Realwold QA | 53.3% | 57.8% | 56.9% | 55.8% | 59.4% | 57.4% | |
Text-rich | Wiki-table Questions | 34.1% | 38.9% | 41.8% | 24.2% | 47.4% | 35.8% |
Table Fact Verification | 66.1% | 71.4% | 72.9% | 58.2% | 67.8% | 56.7% | |
OCRBench [103] OCR; Multi-discip | 60.5% | 62.6% | 65.7% | 60.5% | 63.7% | 78.1% | |
Chart Understanding | 67.2% | 73.7% | 74.2% | 59.8% | 81.4% | 76.2% | |
OCR; Reason | 72.5% | 76.1% | 76.5% | 74.1% | 70.1% | 73.4% | |
Document Understanding | 81.0% | 84.8% | 87.7% | 71.9% | 83.3% | 86.9% | |
Infographic Understanding | 50.5% | 55.9% | 58.5% | 37.6% | 49.0% | 58.9% | |
Knowledge | Science Diagrams | 59.3% | 67.1% | 65.7% | 62.9% | 76.7% | 74.1% |
High-school Science | 82.1% | 87.6% | 85.8% | 80.7% | 90.8% | 94.1% | |
MMMU [177](val, w/o CoT) College-level Multi-discip | 35.8% | 41.2% | 37.1% | 38.2% | 40.4% | 36.3% | |
MathVista [105] (testmini) General Math Understanding | 37.2% | 42.9% | 44.4% | 38.7% | 44.5% | 46.0% | |
Refer&Ground | Visual Ground | 81.4% | 83.9% | 85.6% | – | 38.1% | 77.7% |
Phrase Ground | 83.0% | 85.4% | 85.9% | – | 27.1% | 51.6% | |
LVIS-Ref [170] (avg) Obj. Refer | 62.2% | 64.1% | 67.9% | 48.0% | 54.2% | 51.1% | |
Ferret-Bench [170] Refer Reason | 67.4 | 69.6 | 69.5 | 22.1 | 32.2 | 34.9 | |
Multi-image | Low-level percep | 66.4% | 70.9% | 73.2% | – | 56.8% | 52.0% |
Mantis [53] Multi-image in the Wild | 50.7% | 51.2% | 54.8% | – | 47.9% | 53.0% | |
Visual Reason | 79.0% | 83.2% | 83.8% | – | 53.6% | 67.4% | |
MVBench [85] Multi-discip | 45.8% | 48.3% | 47.7% | – | 46.7% | 60.2% | |
BLINK [35] Unusual Visual Scenarios | 46.3% | 43.7% | 46.8% | 41.2% | 44.2% | 42.8% | |
MuirBench [155] Comprehensive Multi-image | 34.7% | 40.9% | 44.3% | – | 38.0% | 23.1% | |
In-context Learning | VL-ICL [193] (avg) Multimodal In-context | 51.0% | 56.0% | 56.3% | – | 19.5% | 18.5% |
7结论
在这项工作中,我们在 MM1 [118] 的见解基础上,引入了 MM1.5,这是一系列高性能的通用 MLLM。 MM1 对关键预训练选择进行了广泛的研究,这项工作通过关注如何进一步提高预训练后的性能来补充 MM1,超越 MM1 设置的强大基线。 具体来说,我们专注于完善持续预训练技术、动态高分辨率图像处理以及对监督微调数据集的精心策划。 我们提供了大量的消融实验和论证,并表明我们的选择使 MM1.5 模型家族能够在各种核心能力中取得优异的结果,包括富文本图像理解、视觉引用和定位以及多图像推理。 此外,我们还展示了如何将我们的通用模型进一步微调以用于视频和 UI 理解。 未来工作将旨在将这些能力统一成一个更强大的通用模型。 我们希望这些见解能够通过帮助他们构建超越任何特定架构或代码库的强大模型,使社区受益。