NeurIPS 2024|颠覆性发现!大型视觉-语言模型真的会“看”吗?MMStar基准揭示多模态评估误区与数据泄漏隐患

文摘   2024-09-28 09:25   英国  

点击上方蓝字关注我们

Are We on the Right Way for Evaluating Large Vision-Language Models?

作者: Lin Chen, Jinsong Li, Xiaoyi Dong, et al.

作者单位: 中国科学技术大学、香港中文大学、上海AI Lab

论文链接:

https://arxiv.org/pdf/2403.20330

代码链接:

https://github.com/MMStar-Benchmark/MMStar?tab=readme-ov-file

简介

近年来,大型视觉-语言模型(LVLMs)取得了快速进展,激发了大量研究来评估其多模态能力。然而,在深入分析当前的评估工作后,文中指出了两个主要问题:1) 许多样本中视觉内容并非必要。 答案可以直接从问题和选项推断出来,或者通过LLM中嵌入的世界知识得出。2) LLM和LVLM训练中存在无意的数据泄漏。 LLM和LVLM在没有视觉内容的情况下仍能回答一些需要视觉的题目,表明这些样本可能在大规模训练数据中被记忆。这两个问题导致了对实际多模态收益的误判,并可能误导LVLM研究。为此,文中提出了一个由人工精心挑选的、以视觉为核心的多模态基准,MMStar,包含1,500个样本。 MMStar评估了6项核心能力和18个详细维度,旨在通过精心平衡和净化的样本来评估LVLM的多模态能力。这些样本首先通过自动流程从当前基准中大致筛选,然后由人工审核,确保每个样本都依赖视觉、数据泄漏最小,并且需要高级的多模态能力。此外,作者还开发了两个指标来衡量数据泄漏和多模态训练中的实际性能提升。在MMStar上评估了16个领先的LVLM,并在7个基准上使用提出的指标来研究它们的数据泄漏情况及实际的多模态收益。

研究动机

图1:现有多模态基准中评估样本缺乏视觉依赖或无意间泄露到LLM和LVLM训练数据中的情况。(a) 某些样本可以通过LLM仅使用基于文本的世界知识进行解答;(b) 对于某些实例,问题本身就包含答案,使得图像变得多余;(c) 一些样本泄露到LLM的训练语料库中,可以通过文本问题和答案直接“回忆”出来;(d) 某些对LLM无法区分的样本被LVLM解答,但不需要访问图像,这表明样本可能泄露到LVLM的多模态训练数据中。

图 3:LVLM 多模态训练过程中数据泄漏的图示。展示了 LLM 无法正确回答但不访问图像(LVLM-text)的 LVLM 可以正确回答的示例。每个LLM-LVLM对代表一个LLM及其对应的LVLM,不访问图像,总共16对。中间的图表统计了现有基准中超过一半的LLM-LVLM对命中的样本数量,强调了多模态训练过程中的数据泄漏问题。

论文贡献

  • 文中深入研究了现有的评估基准和流程,并确定了两个关键问题:(1)视觉内容对于许多样本来说是不必要的。(2)LLM和LVLM训练中存在无意的数据泄露。两者都会导致LVLM能力的误判,并可能误导后续的研究。(文末给出了具体的案例

  • 构建了一个多模态基准,MMStar,由人类精心挑选的1,500 个挑战样本组成。MMStar 涵盖了来自不同任务和困难的样本,旨在评估 LVLM 的实际多模态能力。

  • 基于MMStar,评估了LVLM 的准确性和两个新提出的指标:多模态增益和多模态泄漏。GPT-4V的高分辨率版本超越了16位领先的LLM,排名第一。

MMStar

数据管理流程

数据管理的标准 构建MMStar基准的评估样本应满足三个基本标准:1)视觉依赖性。采集到的样本只有在理解视觉内容的基础上才能正确回答;2) 最小的数据泄露。收集的样本应尽量减少无意纳入LLM训练语料库的风险,或有效地从单模态格式转换为多模态格式,以防止LLM“回忆”正确答案;3) 需要先进的多模态解析能力。除了通过遵守上述标准来确保公平性和可靠性外,还希望样本能够涵盖各种难度级别。且期望通过简洁的高质量样本全面捕捉 LVLM 的多模态能力。

数据过滤器 首先为样本集合选择两个专注于自然图像的基准和四个以科学和技术知识为中心的基准。然后,开发了一个自动化管道来初步过滤掉不符合前两个标准的样本。具体来说,选择了两个闭源 LLM 和六个规模为 20B 或更大的开源 LLM 作为检查员。这些开源LLM应用了 2-shot 上下文推理策略,以最大限度地减少响应拒绝并确保答案格式的一致性。接下来,我们与这些LLM检查员一起评估样本池,记录每个评估样本的命中频率。最后,只保留那些命中次数为两次或更少的样本,这表明大约 75% 的 LLM 检查员未能提供正确的答案。如图 4 所示,经过初始粗略过滤后,样本池从 22,401 个减少到 11,607 个。

图 4:数据管理过程中数据源的静态数据。

人工审核 经过LLM审查员的粗略筛选后,作者进一步聘请了三名专家进行人工审查过程,以确保:1)每个样本的答案应该基于对视觉内容的理解;2)所选样本应涵盖全面的能力评估维度;3) 大多数样品应要求 LVLM 具有先进的多模态分辨率能力。为了加快 LVLM 不同难度级别样本的手动选择,统计了粗略过滤样本上所有 16 个 LVLM 的命中计数,并将它们分为四个难度类别:简单 (12-16)、中等 (8-11)、硬(4-7)和坚韧(0-3)。最后,在考虑了能力维度和难度级别的多样性之后,从粗略过滤的集合中手动挑选了 1,500 个高质量样本。图 4 显示了作者最终选择样本的数据源的详细组成。

核心能力

在现有基准中选择并整合用于评估 LVLM 多模态能力的维度,并确定六个核心能力维度以及十八个详细轴。其中六个核心能力分别为粗略感知(CP),细粒度感知(FP),实例推理(IR),逻辑推理(LR),科学与技术(ST),数学(MA)。

图 5:MMStar 基准上的能力维度分布。在MMStar中,内环展示了6个核心能力,在外环展示了18个详细轴。中间的环显示每个详细维度的样本数量。每个核心功能都包含精心平衡的 250 个样本。进一步确保 18 个详细轴上的分布相对均匀。

多模态增益/泄漏

鉴于文中观察到在多模态训练过程中某些评估样本可能会无意泄漏,普通评估方法很难揭示 LVLM 从多模态训练中获得的实际性能增益,并且无法实现公平的评估。与其他竞争对手的比较。因此,文中提出了两个新颖的指标来分别评估多模态训练过程中的数据泄漏程度实际性能增益

为了计算给定 LVLM 在特定基准上的多模态增益 (MG) 指标,需要计算有和没有视觉输入的相同 LVLM 的分数,分别表示为 。那么 MG 度量可以从以下公式导出:

为了计算多模态泄漏(ML)指标,需要计算给定 LVLM 的 LLM 基础(没有任何多模态训练)的额外分数,记为 。那么 ML 指标的公式如下:

实验结果

表 4:LLM 未能解决 MMStar 中的问题,并且表现接近随机猜测,视觉内容是解决 MMStar 所必需的。文中使用 2-shot 推理策略评估 MMStar 上的各种 LLM。并报告了 2 个闭源LLM和 20 个具有不同规模和架构的开源 LLM的结果。我们报告了CP(粗粒度感知)、FP(细粒度感知)、IR(实例推理)、LR(逻辑推理)、ST(科学技术)和MA(数学)核心能力的详细结果。最佳结果以粗体和下划线突出显示。

表 5:MMStar 上各种 LVLM 的评估。文中报告了 2 个闭源LLM和 14 个具有不同规模和架构的开源 LLM的结果。并报告了CP(粗粒度感知)、FP(细粒度感知)、IR(实例推理)、LR(逻辑推理)、ST(科学技术)和MA(数学)核心能力的详细结果。最佳结果以粗体和下划线突出显示。多模态增益 (MG) 和多模态泄漏 (ML) 指标的最差结果以红色斜体显示。

案例

缺乏视觉依赖性的案例

图 6:现有基准中评估样本缺乏必要的视觉效果的情况。

LLM训练数据泄露案例

图 7:现有基准中评估样本被泄露到LLM训练数据中的情况。

LVLM多模态训练数据泄露案例

图 8:现有基准中评估样本被泄露到 LVLM 的多模态训练数据中的情况。

致谢作者,关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️

   喜欢的话,请别忘记点赞👍➕关注哦 



推荐阅读


TPAMI 2024|颠覆跨模态相似性学习的“游戏规则”!因果不变交互挖掘CIIM强势来袭:打破模态壁垒,精准捕捉跨模态信息!

TIP 2024|Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

CVPR 2024|拥抱单模态不确定性,实现稳健多模态融合!电子科大与同济等联手突破多模态技术瓶颈!

震撼发布!低质量多模态数据融合方法最新进展!天津大学携手顶尖高校推出重磅综述!

ICML 2024重磅!GeminiFusion:高效逐像素多模态融合!引领Vision Transformer新纪元!

多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章