摘要
多模态大型语言模型 (MLLMs) 的发展在各个领域(例如多模态代理、具身智能)的日益增长的需求推动下取得了重大进展。 尽管模型驱动的方法试图通过不同的架构来增强 MLLMs 的能力,但其收益已变得越来越微不足道。 相反,数据驱动的方法通过扩展图像文本指令数据来提升效率,但面临着数据多样性和复杂性有限的挑战。 高质量数据的缺乏构成了 MLLMs 发展的一大障碍。 为了解决数据质量瓶颈,我们提出了 MMEvol,一个新颖的多模态指令数据演化框架。 该框架通过细粒度感知、认知推理和交互演化的精细组合迭代地提高数据质量,生成更复杂和多样化的图像文本指令数据集,从而赋予 MLLMs 更强的能力。 从一组初始指令 SEED-163K 开始,我们利用 MMEvol 有条不紊地扩展指令类型的多样性,延长视觉推理步骤以提高认知推理能力,并深入探索图像中的细粒度信息以增强视觉理解和鲁棒性。 为了全面评估我们方法的有效性,我们在 13 个视觉语言任务中进行了广泛的定性分析和定量实验。 与使用初始种子数据训练的基线模型相比,结果表明我们的方法平均精度提高了 3.1 个百分点。 此外,与最先进的模型相比,我们的方法在九项任务中使用明显更少的数据实现了最先进 (SOTA) 的性能。 项目页面可从 https://mmevol.github.io/ 访问。
1引言
“真正的知识获取在于掌握最细微的细节。”
亚里士多德,公元前 4 世纪
多模态大型语言模型 (MLLMs) (Liu et al., 2024b; a; Li et al., 2023b; Dong et al., 2023; Sun et al., 2023b; Dai et al., 2024; Luo et al., 2024; Qi et al., 2024) 在过去两年中发展迅速,已成为各种视觉语言任务的首选方法 (Kembhavi et al., 2016; Fu et al., 2024; Zhang et al., 2024a; Qian et al., 2024)。 通过将视觉编码器 (Radford et al., 2021; Zhai et al., 2023; Sun et al., 2023a) 与 LLMs (Touvron et al., 2023; Bai et al., 2023; Lu et al., 2024; Young et al., 2024; Tao et al., 2024) 对齐,并采用大规模粗粒度图像文本预训练 (Zhu et al., 2024; Schuhmann et al., 2022; 2021),然后进行小规模指令调优 (Chen et al., 2024a; Liu et al., 2024b),MLLMs 在众多视觉语言任务中展现出令人印象深刻的能力,并在许多领域(例如多模态代理、具身智能)得到广泛应用。 模型驱动的方法 (Luo et al., 2024; Liu et al., 2024a; Tong et al., 2024; Zhang et al., 2024b) 旨在通过设计不同的网络架构来提高 MLLMs 的性能,从而更有效地整合来自图像和文本的知识。 然而,由于缺乏高质量数据,它们的有效性正在下降,而冗余的模型设计难以发挥其潜力并推动模型智能的边界。 相反,数据驱动方法 (Liu 等人,2024b;Chen 等人,2024a;Yu 等人,2023;Liu 等人,2024c;Fang 等人,2024;Chen 等人,2023)虽然更有效,但通常会产生多样性和复杂性有限的数据。 缺乏高质量数据仍然是多模态大语言模型 (MLLMs) 开发中一个重大障碍。 因此,迫切需要开发能够以相对低成本生成更具挑战性和多样化的指令数据的自动化方法,以增强MLLMs的能力。
对现有的用于生成图像-文本指令数据的基于数据的分析方法的分析揭示了三个常见的局限性:1) 指令多样性有限。 手动标注的指令受限于标注者的认知能力,而模型生成的指令受限于模板预设,难以满足现实世界中各种任务需求。 这限制了MLLMs的指令遵循能力。 2) 指令复杂度有限。 手动标注通常会导致简单或中等复杂度的指令,而自动生成的指令往往简短且缺乏视觉推理步骤,这限制了模型处理复杂任务的能力。 3) 对齐粒度不足。 手动和模型生成的指令都主要关注常见物体,而忽略了稀有或小物体,导致图像-文本对齐的粒度有限。 这会影响模型的视觉感知鲁棒性和对幻觉的抵抗力。
为了解决这些限制,我们提出了MMEvol,这是一种利用先进的MLLMs进行迭代演化的全新方法。 该方法自动生成各种类型的开放域指令,并涵盖不同的难度级别,以提高MLLMs的性能。 鉴于视觉语言指令数据受视觉内容的限制,通过Evol-Instruct (Xu 等人,2023;Luo 等人,2023a;b)多次迭代生成的数据往往包含简单的复述和与视觉内容无关的数据,使得深度和广泛的演化具有挑战性。 因此,我们对演化提示过程进行了若干调整,最终开发出一种图像-文本指令演化范式。 这些调整包括一个更精细的图像-文本指令数据范式,以及定义了三个演化方向:细粒度感知演化、认知推理演化和交互演化。 MMEvol机制总结在图 1中,每个演化周期包含两个主要步骤:指令演化和指令消除。 指令演化随机选择细粒度感知演化、认知推理演化或交互演化之一,将简单的指令升级为更复杂或更多样化的指令。 具体而言,细粒度感知演化旨在利用图像中的视觉信息来生成包含更详细信息的數據;认知推理演化延长了指令的视觉操作推理步骤以增加其复杂性;交互演化旨在通过提供更多样化的指令形式来增强指令多样性。 为了解决演化指令中偶尔出现的错误,我们使用指令消除来过滤掉失败的演化。 MMEvol 重复指令演化和消除过程多次,以获得包含各种指令形式的复杂指令数据集。
为了验证MMEvol的有效性,我们对 163K 个种子数据进行了三轮演化迭代,产生了 447K 个演化样本。 我们使用这些演化数据微调了开源的 LLaVA-NeXT (Liu et al., 2024a) 模型,并在 13 个视觉语言基准测试中与其他先进方法进行了比较。 我们的方法取得了最先进 (SOTA) 的性能,证明了MMEvol的有效性和效率。 此外,我们进行了详细的定性分析和消融实验,以展示我们方法中每个组件的贡献。 我们希望发布的演化数据和代码将帮助社区理解,使用少量高质量的图像-文本指令数据比使用大规模低质量的图像-文本指令数据训练 MLLM 重要得多。
我们的主要贡献可以总结如下:
•
设计了一个图像文本指令进化框架,MMEvol,以利用先进的 MLLM,自动生成跨不同难度级别的开放域图像文本指令数据,以增强现有数据集的多样性和复杂性。
•
通过利用指令进化数据,构建了一个高质量的数据配方,并且进化后的数据将被发布,以进一步提升其他开源 MLLM 的能力。
•
我们使用这种高质量的数据配方训练了一个 MLLM,与其他完全开源的方法相比,在各种下游视觉语言任务中取得了优异的性能。
•
通过大量的定性和定量分析验证了所提出方法的有效性和效率。
2方法
在本节中,我们首先介绍种子指令数据的整理,然后详细说明 MMEvol 的方法论细节。 由于篇幅限制,我们简化了种子数据整理过程和提示模板。 更多详细信息可以在附录 D 中找到。
2.1种子数据整理
种子指令数据是从 LLaVA-Instruct (Liu et al., 2024b) 和 ShareGPT4V (Chen et al., 2023) 数据集中整理而来,并补充了从 Cambrain-1 (Tong et al., 2024) 中抽取的额外科学和图表数据。 此过程涉及仔细选择和优化,以确保指令的质量和多样性。 对于只有标题的指令,我们使用 OpenAI GPT-4o mini API 来生成种子指令数据。 最终,在合并和过滤后,我们获得了包含 163K 个具有独特图像的指令样本的综合数据集,它为我们后续的 Evol-Instruct 奠定了基础。 种子数据混合在图 2 中显示。 请参阅附录 A 了解更多详情。
2.2方法论细节
图像文本指令数据的演化受视觉信息的约束,要求演化的指令数据与图像内容相关,以避免幻觉。 这使得图像文本指令的多样性演化特别具有挑战性。 此外,图像文本指令数据的复杂性演化过程通常会导致浅层推理现象,MLLM 难以提供复杂的答案。 如 图 1 所示,为了解决这些问题并提高进化的成功率,我们纳入了精心设计的领域,如视觉对象、原子能力、视觉操作和指令格式,以标准化每种指令数据格式。 视觉对象领域包括指令数据中涉及的图像中的视觉对象,隐式约束演化数据并减少视觉幻觉。 我们还总结了图像文本指令数据中涉及的九种原子能力类型,以填充原子能力领域,旨在增强数据多样性。 具体来说,这包括五种以视觉为中心的的能力:定位、引用、计算、光学字符识别 (OCR) 和存在判断,以及四种以语言为中心的的能力:关系描述、场景理解、行为预测和世界知识关联。 视觉操作领域包括用于解决问题的视觉操作链,其中视觉操作的每个步骤都基于以视觉为中心的原子能力,明确定义了视觉推理过程,以缓解浅层推理。 指令格式域指定了指令数据的交互类型。 这些调整增强了图像-文本指令数据的多样性和复杂性,提高了进化的成功率。
精细感知进化。 精细感知进化的目标是最大限度地从图像中提取可用的视觉信息,尤其是被忽视的非主要视觉对象。 我们观察到,大多数指令数据倾向于构建涉及图像中主要对象的问题,而忽略了不太常见的非主要对象。 这导致缺乏与长尾分布对象相关的指令。 使用此类数据进行训练会导致视觉幻觉以及泛化能力和鲁棒性差。 精细感知进化会生成涉及新视觉对象的问题,揭示可用的且经常被忽视的视觉信息。 演化提示模板和过程如 图 4 所示。
认知推理演化. 推理能力是多模态大型语言模型的关键能力之一。 然而,大多数现有的指令数据,例如 LLaVA-Instruct (Liu 等人,2024b),由简单的问答对组成,缺乏详细的推理过程,使得训练后的模型难以完成需要推理能力的复杂任务,例如多模态代理和视觉推理。 我们引入了视觉操作链的概念,将四种以视觉为中心的推理能力抽象成四种用文本描述的视觉操作函数。 通过生成解决问题所需的视觉推理步骤,我们定义了指令数据的复杂性。 在认知推理演化过程中,我们通过增加数据中的视觉推理步骤来演化新的指令数据,以获得更复杂的数据。 演化提示模板和过程如 图 5 所示。
交互式演化. 现有模型以很少的形式生成指令数据。 例如,LLaVA-Instruct 仅提供基于对话的问答、复杂推理和全局描述任务。 人工制作的指令数据,例如 ALLaVA (Chen 等人,2024a),受标注者经验的限制,使得设计各种任务形式变得具有挑战性。 使用此类数据训练的模型通常难以遵循复杂且多样的用户指定指令或目标,限制了它们在现实场景中的实用性和适用性。 为了演化具有丰富任务形式的指令数据并提供良好的交互体验,我们设计了交互式演化,以自动生成具有不同任务形式的指令数据。 演化提示模板和过程在 图 6 中展示。
指令消除。 在每一轮演化之后,我们对演化的指令数据在多个维度进行评分,以评估演化的成功程度。 我们保留具有演化增益的指令数据,并丢弃那些演化失败的指令数据。 演化淘汰提示模板和过程如 图 7 所示。
3实验
3.1基准测试
为了全面评估进化方法的有效性,我们选择了 13 个基准,它们的数据源和测试技能在 表 1 中展示。 MIA (Qian 等人,2024) 是一个开放域指令遵循基准测试,它使用广泛的指令数据全面测试模型的指令遵循能力。 MM-Self-Instruct (Zhang 等人,2024a) 是一个新颖的视觉推理基准,它关注模型的视觉感知能力,并执行日常生活中遇到的常见视觉推理任务。
Skills | Sources | Skills | Sources |
VQA | VQAv2 (Goyal et al., 2017) | General Knowledge | MMEC (Fu et al., 2023) |
Knowledge Leakage | MMStar (Chen et al., 2024b) | MMMU (Yue et al., 2024) | |
Math Reasoning | MathVistaM (Lu et al., 2023) | Hallucination | POPE (Li et al., 2023c) |
OCR Related | AI2D (Kembhavi et al., 2016) | HallBench (Guan et al., 2023) | |
Instruction Following | MIA (Qian et al., 2024) | Visual Reasoning | GQA (Hudson & Manning, 2019) |
Visual Perception | BLINK (Fu et al., 2024), RWQA | MMSInst (Zhang et al., 2024a) |
3.2实施细节
数据。 在预训练阶段,我们使用 LLaVA-Pretrain-595K (Liu et al., 2024b) 进行图像-文本对齐训练。 在消融实验设置中,我们分别使用种子数据和演化数据进行微调,以确保公平比较并验证 MMEvol 的优势。 在 SOTA 设置实验中,我们使用演化指令数据与从 Cambrain-1 (Tong et al., 2024) 采样的其他公开可用数据集相结合进行微调,并将其与其他方法进行比较。 培训数据配方的更多详细信息可以在 附录 B 中找到。
模型。 我们遵循 LLaVA-NeXT 的架构,其中多模态大型模型包含三个关键组件:用于下一个符元预测的 LLM、用于提取视觉特征的视觉编码器以及用于对齐视觉和文本模态的图像-文本投影器。 我们使用 Llama3-8B-Instruct (Touvron et al., 2023) 进行消融实验。 为了与其他方法进行比较,我们切换到我们之前使用 Llama3-8B-Instruct 和 Qwen2-7B-Instruct (Bai 等人,2023) 的 SOTA 设置。 我们使用 CLIP-ViT-L (Radford et al., 2021) 作为视觉编码器,并使用简单的线性层来桥接图像和文本模态。
训练策略。 我们按照广泛使用的两阶段设置进行 MMEvol 训练。 视觉-语言预训练和视觉指令微调。 语言模型和 ViT 分别进行预训练,而投影仪则随机初始化。 为了最初对齐视觉和文本模态之间的特征空间,我们利用对齐数据集。 最后,我们对视觉语言指令数据集上的预训练模型进行指令微调。 我们的实验是在 8
3.3定性分析
我们从 SEED-163K 中采样一个样本,并在 图 8 中显示其进化过程。 在第 1 轮中,我们执行细粒度的感知演化,导致指令数据包含更精确的细节,包括动作和属性。 在第 2 轮中,交互演化将指令形式从一般性的问答转变为创造性的诗歌生成,增加了指令格式的多样性。 在第三轮中,认知推理演化在指令数据中的答案中添加了推理步骤,从而增强了其复杂性。 通过多轮指令演化,我们提高了种子数据的多样性和复杂性。
此外,我们从种子数据中随机抽取 30K 个数据点,并在演化前后对指令数据进行定性分析。 如 图 10 所示,进化后的数据明显更复杂。 具体来说,每个进化后的指令在 图 10(a) 中涉及 0.68 个更多的原子能力,并且与进化前相比,在 图 10(b) 中,其平均视觉操作链推理长度长 0.86。 如 图 10(c) 所示,每个演化轮次的平均难度得分呈递增趋势,这表明认知推理演化在提高指令数据复杂性方面是有效的。
我们识别生成的指令中的动词-名词结构,以研究生成的指令类型和演化数据的多样性。 我们使用 Berkeley 神经解析器 (Kitaev & Klein, 2018; Kitaev et al., 2018) 解析指令,提取最靠近根的动词及其第一个直接名词宾语。 图 9 绘制了数量超过 2K 的根动词及其直接宾语。 我们观察到,与演化前相比,演化后的数据显着提高了指令多样性,演化后的指令具有不同的意图和文本格式。 此外,我们对演化前后指令数据中的视觉对象域进行了长尾分布可视化分析,以验证细粒度感知演化的有效性。 图 11 显示,细粒度的感知演化极大地改善了长尾视觉对象的分布,最大限度地从图像中提取可用的视觉信息,细化指令数据中图像-文本对齐的粒度,增强数据多样性,从而提高模型泛化能力并减少视觉幻觉。
3.4消融研究
我们在七个视觉语言基准上进行消融研究,以探索指令演化和消除的影响。 如 表 2 所示,不同的演化过程可以正交叠加,以持续增强数据的多样性和复杂性。 这导致在多个视觉语言基准测试中平均性能提升了 3.8 个点。 然而,缺乏指令消除会引入来自失败演化的有害数据,这不可避免地会将模型对幻觉的抵抗力降低 1.2 个点,在 POPE (Li 等人,2023c) 上。 当采用指令演化和指令消除时,指令消除会过滤掉来自失败演化的有害数据,进一步提高演化数据的质量和密度,并使模型的性能平均提高 0.9 个点,特别是将对幻觉的抵抗力提高了 1.7 个点,这与我们在 第 3.3 节的定性分析结果相一致。
3.5基准比较
在全面验证了我们的方法增强指令数据复杂性和多样性的能力后,我们在 13 个视觉语言基准测试中与之前最先进的方法进行了彻底比较,并将结果汇总在 表 3 中。 值得注意的是,我们观察到,在增强和改进的指令数据的支持下,我们的 MLLM 在几乎所有基准测试中都显著提升了性能边界,这与我们在 第 3.4 节的消融实验中观察到的性能改进一致。 值得注意的是,与完全开源的 SOTA 模型 Cambrain-1 (Tong 等人,2024) 相比,我们的方法虽然使用从 Cambrain-1 训练数据中采样的种子数据,但实现了更好的结果,性能大幅提升 (
与开源 SOTA 模型 MiniCPM-v2.5 (Yao 等人,2024) 相比,尽管训练数据量存在较大差异,但我们的模型仍然取得了更好的结果,特别是在指令遵循、视觉幻觉和视觉推理方面表现出提升,在 HallBench 上提高了
4相关工作
多模态大型语言模型 (MLLMs)。 由于大型语言模型 (LLM) 的成功以及互联网上可获取的各种图像-文本指令数据,MLLM 在近年来迅速发展。 LLaVA (Liu 等人,2024b) 和 MiniGPT-4 (Zhu 等人,2023) 通过使用简单的连接器将视觉编码器与大型语言模型集成,并在指令数据上进行训练,展示了强大的跨任务泛化能力。 LLaVA-NeXT (Liu 等人,2024a) 通过采用动态分辨率技术显著增强了视觉感知能力。 Cambrain-1 (Tong 等人,2024) 通过视觉编码器路由提高了模型鲁棒性,尽管这会产生更高的训练成本。 DEEM (Luo 等人,2024) 通过使用扩散模型来提取视觉特征而不是传统的视觉编码器,简化了模型架构并增强了鲁棒性。 随后在 DEEM 的基础上进行的研究 (Wang 等人,2024b; Zhou 等人,2024; Xie 等人,2024) 将扩散模型与 LLM 相结合,以进一步增强 MLLM 的生成和理解能力。 然而,这些模型仍然面临着与数据数量和质量相关的挑战,这限制了性能的进一步提升。
图像-文本指令数据构建. LLaVA (Liu et al., 2024b) 通过利用 LLaVA-Instruct (Liu et al., 2024b)(一个由高级 LLM 标注的数据集)来提高模型能力。 然而,这种方法并未充分利用视觉信息,并且指令类型有限。 ALLaVA (Chen et al., 2024a) 通过手动制作和重写指令数据,提供了更大的多样性,但受制于高昂的手动标注成本、低效率和过于简单的問題。 MMInstruct (Liu et al., 2024c) 使用高级 MLLM 自动生成指令数据,但指令的复杂性和多样性受限于预定义的格式,无法充分利用有效的视觉信息。 VILA2 (Fang et al., 2024) 通过指令演变生成了大量数据,但缺乏复杂性和多样性,限制了其在其他模型中的实用性。 相反,我们针对这一挑战提出了MMEvol,它通过在有限数据上进行指令演变来迭代地提高指令的多样性和复杂性,旨在提取更多可用的视觉信息,并赋予 MLLM 更强大的能力。
5结论
在这项工作中,我们提出了一个图像文本指令演化框架,并探索了 Evol-Instruct 的技术、见解和益处,以提高图像文本指令数据的质量和数量。 我们采用三种不同的演化方法来增加指令数据的复杂性和多样性,这些方法基于有限的种子数据集,同时利用指令消除来过滤有害数据。 该数据经过三轮演化,用于训练新模型,在全面的基准测试集上展现出最先进(SOTA)的性能。 未来方向包括探索整合图像生成模型以合成新图像并执行图像和文本的双重演化,旨在训练更加稳健的基础模型。
局限性。 由于资源限制,我们仅对 163K 个样本进行了演化,并使用 8B 规模的模型进行了实验。 扩展数据集和使用更大规模的模型可能会产生更好的结果。 我们计划在未来的工作中探索这些途径。