多模态大模型能力评测基准全面综述：理解、推理、生成、应用、趋势

文摘 2024-11-17 12:00 广东

随着人工智能的快速发展，多模态大型语言模型（MLLMs）已经成为理解视觉数据和语言上下文的关键技术。这些模型能够处理和生成结合文本、图像和其他模态的内容，但如何有效评估它们的性能一直是个挑战。本文通过全面回顾现有的多模态基准测试，为研究人员提供了评估MLLMs性能的工具和方法，这对于推动人工智能技术的发展具有重要意义。

我们翻译解读最新论文：多模态基准评测综述，文末有论文信息。

作者：张长旺，图源：旺知识

多模态大型语言模型（MLLMs）的快速发展为人工智能带来了重大进步，显著增强了理解和生成多模态内容的能力。尽管以往的研究主要集中在模型架构和训练方法上，但对用于评估这些模型的基准测试的彻底分析仍然鲜有探索。本综述通过系统回顾211个评估MLLMs的基准测试，填补了这一空白，涵盖了理解、推理、生成和应用四个核心领域。我们提供了任务设计、评估指标和数据集构建的详细分析，跨越了多种模态。我们希望本综述能够通过提供基准测试实践的全面概述并确定未来工作的有前途的方向，为MLLM研究的持续进步做出贡献。相关的GitHub仓库收集了最新的论文。

1 引言

人工智能（AI）的快速发展与健壮基准测试的发展密切相关。这些基准测试提供了评估和比较AI模型性能的客观指标。作为计算机视觉的先驱，ImageNet提供了一个大规模且注释良好的数据集，为开发既高度准确又广泛泛化的模型铺平了道路。AI模型和基准测试的发展是互补的。例如，随着分类基准测试在数据量和类别多样性方面的增长，其上训练的模型显著改进，从而在现实世界中的性能得到了提升。这种特定任务基准测试与模型架构之间的协同作用一直是AI实际应用的基石。

最近在大型语言模型（LLMs）方面的突破，例如ChatGPT，已经在众多研究领域引起了重大变化，并深刻影响了各种社会和工业部门。利用LLM作为大脑，多模态大型语言模型（MLLMs），例如GPT-4v和Gemini，弥合了视觉数据和语言上下文之间的差距，使这些模型能够理解和生成结合文本、图像和其他模态的内容。尽管它们具有巨大的潜力，但基准测试的发展并没有总是跟上相应MLLMs的演变。传统基准测试通常关注增加数据量或类别数量，难以充分评估MLLMs的多方面能力。

这引出了一个自然的问题：我们如何有效地评估这些大型AI模型的各种能力和可靠性？目前，用于AI模型的多模态基准测试领域丰富多样（见图1），包括视觉问答和图像字幕等多种任务。这种多样性无疑推动了MLLMs的发展，为研究人员提供了多个途径来探索和改进他们的模型。然而，众多基准测试是一把双刃剑。众多基准测试的数量使其难以导航，尤其是对于新手来说：

目标不一致：每个基准测试都有不同的目标，导致研究领域碎片化。研究人员必须投入大量时间来确定现有基准测试是否充分测试了MLLMs的能力，这使得开发新的、一致的基准测试变得复杂。
任务饱和：由多样化目标驱动的任务激增，导致了一个压倒性的领域。这种饱和使得很难辨别真正创新或有影响力的基准测试，导致宝贵的资源被忽视或利用不足。
指标演变与差异：尽管一些研究提出了设计良好的指标，但它们的采用受到基准测试快速演变和频繁更新的阻碍。这种不一致性迫使研究人员在传统和新指标之间进行复杂的平衡，使得公平比较变得复杂，并阻碍了对MLLMs的全面评估。为了解决这一差距，我们提出了一个全面的综述，系统回顾了当前多模态基准测试的能力、任务设计、数据集构建和特定设计的指标。

本综述从理解、推理、生成和应用的角度审视这些方面：

理解。它指的是从多模态数据中提取和整合特征以执行跨模态分析的能力。这涉及解释视觉表示、识别关键细节、把握语义含义并准确回应相关问题的任务。评估这些能力是基础性的，因为它们构成了MLLMs在多样化任务和应用中更广泛功能的基础。
推理。它超越了基本理解，包括执行复杂推理和跨模态得出逻辑结论的能力。这包括需要模型处理和操纵信息的任务，使它们能够基于跨模态数据解决问题和做出决策。强大的推理能力对于MLLMs处理需要更深层次认知处理的复杂任务至关重要。
生成。它涉及基于多模态输入创建新内容，例如从图像生成描述性文本或从文本描述生成视觉内容。这种能力对于需要创造力、连贯性和准确性的实际应用至关重要。
应用。它探索了评估MLLMs在现实世界场景中的实际应用的基准测试。它包括具身AI、基于智能体的任务和特定领域的应用，如医疗诊断和自主系统。这一类别的基准测试评估模型如何整合多种模态以在动态和交互式环境中执行复杂任务。

2 理解基准测试

2.1 背景和分类

MLLMs的快速发展突出了全面基准测试的必要性，以评估它们在多种数据类型中的理解能力[64]，[217]。本节回顾了旨在评估MLLMs感知和理解以各种格式呈现的信息的多模态理解基准测试。这些基准测试对于微调MLLMs至关重要，确保它们在现实世界应用中的健壮性和泛化能力[77]，[189]。最近的理解决基准测试关注于评估MLLMs的多个方面，例如，视觉感知、上下文理解和特定模态理解。

2.1.1 视觉感知

视觉感知能力是理解基准测试的一个基础方面。它涉及提取显著特征和准确识别和解释视觉元素（例如，多个对象、文本信息和复杂的情感或隐含线索）的能力[45]。本节将视觉感知基准测试分为三组：低级感知、细粒度感知、高阶感知和综合感知。

低级感知。MLLMs中的低级感知涉及检测和解释基本视觉属性（例如，颜色、照明、构图）和扭曲（例如，模糊、噪声、伪影）的能力，这些不需要推理或外部知识[7]，[8]。这些低级感知能力对于各种应用至关重要，包括推荐系统、相机系统指导和视觉质量增强[7]。
细粒度感知。这个核心维度代表了图像理解的复杂水平，关注于视觉内容的详细和微妙方面。它包括识别和解释微妙特征的能力，例如文本识别（OCRBench [12]）、视觉-语言概念和模式（例如，SPEC [9] 和 MMVP [15]），以及在高分辨率图像中识别小对象（例如，V* Bench [11] MagnifierBench [21]，P2GB [18]）。具体来说，MDVPBench [19]专注于评估模型对细粒度像素级理解的能力，包括详细描述、相互关系分析和跨多样化视觉元素的复杂推理。此外，一些基准测试还强调视觉-语言对齐，这指的是模型准确链接视觉元素与相应文本描述的能力。例如，Eqben [17]专注于“稍微”错位的对的等变对话，这些对的语义漂移最小，与明显不匹配的对相比，它们更难区分。与视觉概念识别和对齐不同，MMUBench [20]评估MLLMs中的机器遗忘能力，即有效遗忘视觉概念识别的能力。而MM-SAP [14]评估MLLMs的自我意识能力，即理解它们能和不能从图像中感知什么。
高阶感知能力 [218] 在MLLMs中包括高级情感理解和从多模态数据中提取深层含义的能力，例如图像、视频和文本。根据高阶含义，这些能力可以分为：1) 情感感知。跨各种模态解释和响应复杂情感线索的能力[26]，[27]。2) 含义感知。从视觉和上下文信息中推导出微妙、隐含含义的技能[24]，[25]。3) 美学感知。评估并与人类美学判断（例如，美学属性和情感方面）保持一致的能力，在多样化的视觉环境中[22]，[23]。这些能力对于复杂的交流和媒体分析至关重要。
综合感知。综合感知基准测试全面评估MLLMs执行广泛视觉识别任务的能力[28]– [30]，[32]，[34]，[36]，[38]–[40]，涉及各种类型的视觉内容。根据输入语言类型，基准测试分为：1) 单语言感知，评估在广泛使用的英语中跨多样化内容类型的总体视觉识别[29]，[35]– [37]，[43]。具体来说，MM-Vet专注于不同核心VL能力的整合能力，即识别、OCR、知识、语言生成、空间意识和数学。与感知评估不同，DenseFusion-1M [45] 和 IT [33] 创建了超详细的图像注释，以赋予MLLMs详细的文本识别和高分辨率图像感知能力，以及一些图像描述质量的评估基准，例如DID-Bench，D2I-Bench和LIN-Bench [33]。2) 多语言感知，评估模型理解和解释多种语言中的视觉内容的能力，强调它们在不同语言和文化背景下的适应性[47]，[49]–[53]。

2.1.2 上下文理解

它指的是MLLMs理解和解释受周围上下文影响的信息的能力。根据不同的输入上下文格式，这些基准测试分为以下几组：

上下文依赖理解。CODIS [54]定义上下文依赖理解为模型准确识别单个图像中的视觉元素的能力，带有补充的上下文文本信息（例如，位置和方向）[54]。这对于使用上下文线索解决歧义至关重要。
长上下文理解。它评估MLLMs从长序列中保持连贯性和提取相关信息的能力[55]–[57]。这对于MLLMs尤其重要，特别是在现实世界应用中，如多轮对话[219]，动作识别[220]和科学论文理解[93]。
多图像理解。这种能力涉及比较多个图像之间的一致性和变化，使模型能够通过识别模式和解释复杂的视觉动态来获得更全面的见解。它通常由MuirBench [58]，Mementos [59]，Mantis-Eval [61]和MMIU [60]评估。
交错图像-文本理解。它表示MLLMs有效管理和解释混合的文本和视觉数据流的能力，这对于现实世界设置中的动态多媒体交互至关重要[64]，[66]。具体来说，VL-ICLBench [67]评估多模态上下文学习能力，其中MLLMs在不更新模型参数的情况下，从几个输入-输出示例中学习新任务。而MMMU [68]专注于具有特定领域知识的多学科多模态理解。鉴于示例和学科的交错图像-文本格式，这些能力被认为是一种交错图像-文本理解。

2.1.3 特定模态理解

在多模态理解中，MLLMs被评估其处理和整合来自不同感官模态的输入的能力，如视频、音频、3D数据和全模态环境。每种模态都提出了独特的挑战，要求模型在内部分析信息并在不同输入类型之间进行综合。以下是每种模态所需的关键能力：

视频。与静态图像不同，视频捕获动态序列，要求模型解释空间和时间信息。1) 空间-时间感知。这涉及区分不同的时间方面，如速度、方向（例如，TempCompass [71]）和对象状态变化（例如，OSCAR [221]），以及理解随时间演变的复杂概念[69]。因为许多人类语言中的关键概念，例如动作，具有超出静态图像范围的时间维度，VITATECS [72]专注于时间概念理解。2) 长视频理解。长视频由于计算复杂性、内存需求以及模型需要维持长期时间连接的需要，提出了额外的挑战[73]。典型的基准测试是MovieChat-1K [73]，EgoSchema [74]，MLVU [77]。TimeChat [75]通常专注于内在时间戳定位能力。由于视频中缺乏丰富的事件，MLLMs可能遭受捷径偏差。因此，Event-Bench [78]专门评估事件理解，专注于原子、复合和整体事件理解。3) 综合感知。Video-MME [80]和Video-Bench [83]包含对时间和空间动态的全面理解，整合多层感知以完全理解视频中的连续性和上下文。AutoEval [81]和WorldNet [79]专注于现实世界场景，分别针对开放式的视频理解和状态转换。此外，ADLMCQ [76]专注于日常生活活动场景，进一步丰富了对视频中日常人类动作的理解。
音频。音频数据挑战模型解释复杂的听觉信息，包括语音、音乐和环境声音，要求理解时间模式和上下文细微差别。Dynamic-SUPERB测试了语音模型在广泛的音频处理挑战中的泛化能力，使用指令调整，强调它们在零样本情况下处理多样化和未见场景的能力。AIR-Bench [86]评估大型音频-语言模型在音频中心交互能力上理解并解释广泛的音频信号，从人类语音到自然声音，通过基于文本的格式促进无缝交互。MuChoMusic [87]专注于评估MLLMs中的音乐理解，检查它们在不同文化和功能背景下把握和推理各种音乐概念的能力。
3D。与2D图像不同，3D数据要求模型理解深度、体积和空间关系，挑战它们解释复杂形状和结构[88]。3DCoMPaT-GRIN [88]评估模型的部件感知理解能力，以识别和分割3D对象的部件，这有助于弥合当前MLLMs能力和复杂的人类类感知之间的差距。LLaNA [89]作为NeRFs的第一个基准测试，专注于模型的NeRFs理解能力，直接处理NeRF权重，捕获有关3D场景的几何和外观的详细信息。M3DBench [90]通过结合多模态输入扩展了3D理解，推动模型整合空间推理和视觉理解，以与复杂的3D环境互动。
全模态理解。它评估MLLMs同时处理和整合来自多种模态的输入的能力，展示它们识别跨多样化感官数据的共同模式和相关性的能力。MCUB [91]评估MLLMs在无缝解释和综合来自各种来源的输入的能力，增强跨模态推理和泛化。MUIE [92]进一步挑战MLLMs在细粒度多模态基础定位，测试它们在跨文本、音频、图像和视频输入提取和链接信息的熟练程度。

2.2 多模态任务和指标

理解基准测试的多模态任务和指标设计围绕两个主要维度构建：面向能力的任务和指标，衡量特定能力，以及面向格式的指标，确保评估与生成的输出类型一致。更多详细信息显示在表1中。

2.2.1 面向能力的任务和指标

本节概述了各种理解基准测试的任务和指标设计。低级感知。正如Q-bench [7]所提出的，低级属性识别涉及与扭曲和其他低级属性相关的问题，例如光线。除了单图像，Q-bench+ [8]进一步引入了图像对之间的比较。这两个基准测试然后扩展到低级描述任务，使MLLMs描述图像的质量和其他低级信息。为了评估精确的质量评估能力，Q-Bench [7]引入了一种基于softmax的质量评估策略，而不是直接解码标记，提取“好”和“差”结果的对数，并通过在这两个对数之间应用softmax池化来预测可量化的分数。

细粒度感知。

这些任务旨在评估模型解释和分析视觉内容的详细和微妙方面的能力。具体来说，给定输入图像，子任务可以分为

1) 多类识别：识别图像中是否存在某些对象[9]，[10]。

2) 对象属性：识别对象的特定属性，如颜色、纹理和状态[11]，[15]。

3) 对象计数：确定图像中特定对象的实例数量[9]。

4) 对象位置：表示对象相对于图像的位置[9]，[13]。由于上下文在对象检测中的重要性，CODE基准测试[13]通过上下文丰富的环境更好地评估模型，增强了任务设计。

5) 空间关系：推理两个或多个对象之间的空间关系[9]。

6) 光学字符识别（OCR）：识别查询区域内的文本[12]。具体来说，CV-Bench [16]将2D细粒度感知扩展到3D，并引入了深度顺序和相对距离任务。与视觉概念识别不同，MM-SAP [14]设计了三个自我意识评估任务：BasicVisQA测试“已知已知”问题，通过提出五个多项选择答案，包括一个拒绝选项。KnowVisQA评估视觉知识（例如，品牌、地标）与类似的多项选择输出。BeyondVisQA关注“已知未知”，要求模型识别无法回答的问题并选择拒绝选项。

高阶感知。

1) 情感识别：从图像中识别情感表达。EmoBench [26]扩展了这些通用情感任务，增加了情感应用任务（例如，幽默、仇恨和讽刺检测）。

2) 含义理解：给定图像和一组多项选择问题，具有固定的可能答案，模型必须选择最能解释图像的视觉隐含含义[24]或价值[25]的正确答案。

3) 美学理解：如UNIAA [22]所定义，它首先通过问题从图像中识别美学属性（例如，内容和主题），然后提供美学描述，最后通过数量分数进行美学评估。AesBench [23]进一步结合了美学解释，使MLLMs解释和分析美学质量的原因。

综合感知。

例如LVLMeHub [28]，TinyLVLM [29]，LAMM [30]和OwlEval [31]的基准测试，结合了人类判断或基于GPT的评估，以提供全面的评估，但可能会引入偏差。为此，像MME [32]和MMBench [34]这样的基准测试使用了像二元判断陈述或多项选择问题这样的结构化格式，以提供更客观的评估。然而，相对较小的规模可能导致不稳定性。因此，SEED-Bench [35]，以及SEED-Bench2 [36]和SEED-Bench-2-Plus [37]，在多样化多模态生成、层次化和文本丰富的场景中分别提供了大规模评估。超越传统的识别任务，像Blink [38]和MMTBench [39]这样的基准测试测试了微妙的感知能力和多模态推理，而MM-Vet [40]设计了能力整合任务。然而，多项选择格式有时未能捕捉到现实世界的复杂性，这更好地由开放式基准测试如TouchStone [41]和OpenVQA [42]解决。ChEF [43]引入了相对ICL准确性和相对鲁棒性，用于多选QA，以衡量上下文学习和鲁棒性，特别强调超越随机猜测的改进。M3GIA [49]引入了通用智能准确性（GIA）指标，利用验证性因子分析来验证MLLMs的认知结构与人类智能的一致性。然而，传统评估方法在多模态训练期间难以处理数据泄露，MMStar [46]通过引入两个指标来解决这个问题：多模态增益（MG）衡量视觉输入的改进，以及多模态泄漏（ML）检测意外的数据暴露，确保公平比较。

上下文依赖理解。

衡量这种能力的典型任务是上下文依赖图像消歧：给定一个查询和一个带有两种不同上下文的图像，MLLMs需要生成正确的响应[54]。为了更好地衡量在不同上下文中识别的能力，CODIS [54]设计了上下文意识指标。

多图像理解。

它通常结合多图像输入任务，如动作识别和图表理解[58]，[60]。具体来说，Mementos [59]专注于复杂任务的监控和解密图像序列中对象的位置变化。它使用GPT-4可靠地提取和标准化AI生成的描述中的对象和行为关键词，将这些列表与人类基准进行比较以评估准确性。

长上下文理解。

最近的基准测试[55]–[57]采用针 haystack任务：这项任务通过在长无关图像和文本语料库（haystack）中准确找到相应的信息（针）来评估MLLM的长上下文理解能力。具体来说，MMNeedle [55]引入了“图像haystack”，其中模型必须定位由给定标题描述的特定子图像。MileBench [56]扩展了这个概念，包括“文本针在haystack中”和“图像针在haystack中”任务。在文本任务中，模型从密集的多模态上下文中提取7位密码，而在图像任务中，它识别并检索嵌入在图像中的文本，需要OCR能力。MM-NIAH [57]进一步测试多模态文档中的长上下文理解，专注于跨不同“多模态针”的检索、计数和推理任务。MMNeedle [55]引入了一组评估指标，即存在准确性、索引准确性和精确准确性，全面评估MLLMs在序列、图像和子图像级别的表现。

交错图像-文本理解。

通常，给定交错的图像-文本内容（例如，上下文示例），模型必须有效地响应查询（例如，QA或字幕格式）[24]，[65]，[66]，[68]。VEGA [63]引入了交错图像-文本理解任务，其中模型不仅基于更长的图像-文本序列回答问题，还识别与响应相关的特定图像索引。VL-ICLBench [67]通过包括八个任务扩展了这一点，评估多模态上下文学习能力。

空间-时间感知。

VideoNIAH [69]涉及检索、排序和计数插入到视频序列中的视觉“针”，挑战模型准确处理和分析长上下文视频中的空间和时间信息。对于时间感知，VTATES [72]通过使用反事实描述来识别六个细粒度方面——方向、强度、序列、定位、组合性和类型——同时保持静态内容一致，修改只有时间信息。

长视频理解。

Event-Bench [78]专注于以事件为导向的长视频理解，并提出了层次化任务分类法，包括原子事件理解（例如，事件描述）、复合事件理解（例如，时间推理）和整体理解（例如，上下文推理）。由于一些长期视频任务实际上是短期任务的伪装，EgoSchema [74]引入了时间证书的概念，以衡量视频剪辑的内在时间复杂性。

综合视频理解。

Video-Bench [83]包括10个精心设计的任务，涵盖三个不同的层次：视频专有理解、基于先验知识的问题回答和理解与决策。MVBench [84]系统地将静态图像任务转换为动态视频任务，使评估在开放世界场景中的一系列时间技能成为可能。与专注于计算任务（例如分类）的现有基准测试不同，PerceptionTest [82]强调技能（记忆、抽象、物理、语义）和推理类型（描述性、解释性、预测性、反事实性）在视频、音频和文本模态上的跨模态，提供了一个全面且高效的评估工具。

音频理解。

Dynamic-SUPERB [85]专门关注六个维度的分类任务——内容、说话者、语义、退化、副语言学和音频处理——使用指令调整来评估模型处理已见和未见场景的能力。AIR-Bench [86]独特地结合了基础和基于聊天的音频任务的层次化评估，涵盖所有音频类型。

3D理解。

为了评估3D MLLMs的部件感知理解能力，3DCoMPaT-GRIN [88]引入了两个新任务：部件感知点定位和部件感知点定位字幕。在部件感知点定位中，模型根据用户指令预测部件级别的分割掩模。在部件感知点定位字幕中，模型生成一个详细的字幕，包括部件级别的描述，每个描述对应一个分割掩模。对于NeRF理解，LLaNA [89]专注于像字幕和QA这样的任务，以评估模型如何通过NeRF权重解释3D场景的几何和逼真表示。

全模态理解。

MCUB [91]评估模型识别来自不同模态的输入实体的共同点的能力，挑战它从四个给定选项中选择最合适的答案。具体来说，MUIE [92]强调视觉定位，并引入了地面多模态通用信息提取的概念，涉及跨文本、图像、音频和视频输入提取和关联信息，确保实体和事件准确链接到它们对应的模态。

2.2.2 面向格式的指标设计

在评估MLLMs时，使用不同的输出格式来评估模型准确和适当地响应各种类型查询的能力。根据格式，指标可以分为以下类别：

二元/多项选择：1) 二元选择。模型以简单的是/否响应，测试其直接决策的能力。2) 多项选择：模型被呈现几个可能的答案，通常被鼓励选择一个字母（例如，A/B/C/D）[21]。这种格式有效地测试了模型在区分密切相关的选项并做出明确选择的能力。典型的指标包括准确性、精确度和召回率。为了增强鲁棒性，MMBench [34]引入了CircularEval指标，其中模型必须在多次通过中正确回答问题，以测试其在多次传递中的一致性。具体来说，如果MLLMs输出自由形式的文本，一个LLM（例如，GPT-4）被用作选择提取器，将自由形式的答案与预定义的选择匹配[34]。相比之下，SEED系列[35]–[37]采用了答案排名策略[222]，[223]来评估模型性能，评估生成的内容与正确选择匹配的可能性。为了从MLLMs的输出中提取选择，MMTBench [39]遵循OpenCompass [224]中的三步协议：检查选项字母，用ChatGPT检查选项内容，并将选择设置为默认选项字母，以避免随机分配[68]。
定义形式：要求模型以定义的格式输出。例如，生成的格式被定义为（索引，行，列）的元组在MMNeedle [55]中。具体来说，对于分类任务：准确性用于评估正确预测标签的百分比。对于检测和定位任务，平均精度均值（mAP）用于评估模型预测对象标签和边界框的准确性。
自由形式：与二元和多项选择格式不同，这些格式是预定义的，自由形式响应允许模型生成开放式答案[21]，[42]。这种格式更好地反映了现实世界的场景，用户通常不提供预定义的选项，模型必须依赖于其理解和创造力来生成上下文适当的响应。像BLEU和ROUGE-L这样的指标通过测量与参考文本的n-gram重叠来评估生成的字幕的质量[23]，[30]，[47]，[56]。受到LLM-asa-Judge [225]的启发，一些基准测试采用了基于LLM的评估，利用LLMs（例如，GPT-4，Gemini）来验证生成的响应的准确性和质量，确保与人类评估的一致性。例如，在MM-VET [40]中，GPT-4作为主要评估者，根据正确性在0到1的范围内对开放式输出进行评分。AutoEval [81]利用GPT-4根据特定实例的提示和规则评估答案的正确性。为了确保鲁棒性，QBench [7]通过GPT辅助的5轮评估过程来评分MLLM-描述的完整性、精确性和相关性，类似于MM-Bench [34]。而TinyLVLM [29]引入了ChatGPT集成评估（CEE）指标，使用多样化的提示和集成投票。

3 推理基准测试

3.1 背景和分类

推理，从给定信息和获得的知识中得出结论的能力，是人类水平机器智能的基石。随着MLLMs的不断进步，评估它们在多样化模态和场景中的推理能力已成为迫切需要和有价值的研究课题。本节提供了专门设计来评估MLLMs推理能力的基准测试的全面回顾，这些能力对于它们在需要复杂决策的环境中部署至关重要。

为了系统分析MLLMs推理评估的格局，我们将现有的基准测试分为五个不同的组，基于它们的主要关注点。请注意，这些组并不是相互排斥的。在以下小节中，我们介绍每个类别并讨论其重要性。

特定领域推理 [93]–[109]，[109]–[117]指的是在特定领域或学科内应用专门知识和逻辑过程。与通用推理不同，它需要对特定领域的独特概念、规则和方法论有深入的理解。这种推理形式在不同学科和各种复杂性水平上都是基础性的。为特定领域推理设计的基准测试不仅调查MLLMs独立解决特定领域任务的潜力，还探索MLLMs是否可以支持并增强特定领域内人类专家的能力。

关系推理 [118]–[129]指的是MLLMs识别、操纵和推理不同实体或概念之间关系的能力。现有工作主要涉及三种类型的关系：i) 空间关系——理解实体在物理上相对于彼此的位置或方向；ii) 时间关系——把握不同状态之间事件的顺序或时间的流逝；iii) 逻辑关系——理解概念或命题之间的抽象联系或依赖性；以及iv) 相对关系——理解对象、场景或情境之间的比较概念。关系推理的基准测试评估MLLMs通过理解元素之间的联系而不是仅仅它们的个体属性来解决问题的能力。这些评估对于开发能够处理复杂、相互连接的数据和任务的AI系统至关重要，这些任务需要对信息关系有细微的理解。

多步推理 [101]，[130]–[132]对于需要导航一系列相互连接的逻辑步骤的复杂认知任务至关重要。相关基准测试关注两个关键方面：i) 使用预定义或上下文依赖规则进行推理；以及ii) 通过思维链（CoT，将复杂任务分解为更简单、可管理的子任务）进行推理。逻辑推理要求应用明确的逻辑规则从给定的前提中得出结论。与此同时，思维链允许MLLM通过将困难问题分解为一系列更简单、更直接的任务来接近它。这一类别的基准测试测试MLLMs在广泛的推理序列中保持逻辑连贯性的能力，确保每一步都逻辑地跟随上一步并与任务的总体目标一致。

反思推理 [133]–[137]包括MLLMs评估和提炼思想、知识等方面的能力。当前的努力主要调查三个方面：i) 反事实思维——考虑替代场景和结果；ii) 分析性提问——制定和评估获取知识的查询；以及iii) 知识推理——评估现有知识并更新非事实、过时或未知的知识。反思推理对于开发能够基于反馈调整策略并提高决策准确性的MLLMs至关重要。关注这种推理类型的基准测试衡量MLLMs在自我评估、识别和调整偏差以及进行必要的更正以提高可靠性和性能方面的有效性。

3.2 多模态任务和指标

推理基准测试的输出格式与理解基准测试相似。本节仅介绍与推理能力相关的任务和评估指标。更多详细信息可以在表2中找到。特定领域推理。当前特定领域推理的任务可以根据它们所需的专门知识分为几个组：i) 数学中心任务[95]–[97]，[101]，[105]。它们通常基于现有的基于文本的数学推理数据集，结合额外的模态，如图形的视觉表示。ii) 多语言和中文多学科中心任务[94]，[100]，[103]，[107]，[110]，[116]。它们通常来源于中文或多种语言环境中的多学科问题，从高中到博士水平的考试、笔记等。iii) 科学论文中心任务[93]，[98]，[115]。这些是专门为评估MLLMs在解释各种领域科学研究文章中的复杂图形和表格方面的熟练程度而设计的。iv) 其他专门领域任务。由于空间限制，我们列出这一类别的额外任务，关注于地理和地理空间推理[102]、思维导图结构分析[104]、图表图像分析[108]，[109]，[109]，[113]，[114]，表格图像分析[111]，[117]，网页分析[112]，文档分析[99]，以及计算密集型场景[106]。所有列出任务的评估指标主要关注中间结果和最终答案的准确性。

关系推理。MLLMs的关系推理任务可以广泛分为三种主要类型。第一种类型侧重于预测关系，无论是实体之间还是模式之间。以实体为中心的任务[121]涉及检测对象及其成对关系，而以模式为中心的任务[127]，[129]旨在从给定的视觉模式中推断关系，以预测后续模式。召回率和准确性分别用于评估以实体为中心和以模式为中心的任务。第二类涉及空间中心关系，如地面空间推理[122]，[128]，3D空间定位[125]和细粒度空间推理[120]。像基于IoU（交并比）的准确性这样的指标用于评估性能。第三类涉及时间中心关系，如基于不同视频片段回答问题[123]，或执行时间和语言定位[124]。这些任务的常见评估指标包括准确性、BLEU、BERT分数和召回率。最后，以比较为中心的任务[118]侧重于在对象、场景或情境之间进行相对比较。准确性用于评估。

多步推理。现有的多步推理任务可以广泛分为两种主要类型：基于规则的任务和思维链（CoT）任务。在基于规则的任务[101]，[131]中，模型被期望应用预定义的规则或推断底层模式来解决问题。例如，在寻找数学谜题中缺失值的任务[101]中，模型必须从给定的信息中推断出控制规则。另一方面，CoT任务[130]，[132]强调模型将问题分解为一系列逻辑的、顺序的步骤的能力。一个突出的例子是VisualCoT [130]，它要求模型识别关键图像区域并通过问题逐步推理。VisualCoT提供了中间边界框和推理注释以促进评估。VideoCoT [132]共享CoT推理的相同精神，但侧重于视频而不是图像。这些基准测试的指标通常评估最终解决方案的准确性以及模型的中间推理步骤与人类注释的地面真实情况的一致性。

反思推理。反思推理任务可以广泛分为三种类型：反事实思维、分析性提问和知识编辑。在反事实VQA [133]中，MLLMs被要求通过基于给定事实的假设场景生成答案，从而评估它们执行反事实推理的能力。例如，一个典型的问题可能会问“如果地面是干的，人们戴着太阳帽而不是举着伞，天气可能会是什么？”。LOVA3 [138]认为，现有工作主要集中在问答上，而留下了分析性提问——包括提问和评估技能——在很大程度上未被探索。前两种任务类型的评估通常使用标准指标，如准确性、精确度和F1分数。第三种类型的任务，知识编辑[134]–[137]，评估MLLMs更新知识的能力，特别是当面对过时或不准确的信息时。例如，VLKEB [135]引入了一跳和多跳推理任务，用于知识编辑。知识编辑的指标更为微妙，包括可靠性、普遍性、局部性、可移植性和一致性等措施。

4 生成基准测试

4.1 背景和分类

MLLMs的进步不仅提高了理解能力，还提高了在各种格式和上下文中的生成能力。与简单的文本到图像生成基准测试不同，本节探讨了旨在评估MLLMs不仅生成连贯、一致的格式，而且生成健壮、真实和安全内容的能力的基准测试。

4.1.1 以格式为中心的生成

交错图像-文本生成。它代表了MLLMs无缝生成视觉和文本内容的能力，这些内容不仅同步，而且上下文相关且视觉准确[64]。它挑战模型在生成的输出中保持叙述和视觉连贯性。最近的基准测试，如MMC4 [64]，OBELICS [65]和CoMM [66]在构建通用交错图像-文本对方面发挥了关键作用，这些对对于预训练或微调这些能力在MLLMs中很有用。超越这一点，OpenLEAF [141]引入了开放领域的交错图像-文本生成，支持多样化格式并扩大了MLLMs的应用潜力。在更专门的领域，StorySalon [139]和StoryStream [140]专注于视觉叙事，强调特定风格的交错内容创作。此外，StoryStream [140]通过生成长序列，提出了更具挑战性的设置。
代码生成。它反映了MLLMs自主生成语法正确且功能精确的编程代码的能力[227]。这个基准测试测试了MLLMs解释软件需求和算法约束的能力，生成的代码不仅能够编译，而且能够根据指定的功能执行。早期的基准测试，如CodeXGLUE [227]，DeepCode [228]和Codex [229]在通过结构化的问题陈述开发和细化这些能力方面发挥了关键作用。更近期的基准测试，如Web2Code [142]和PlotCode [143]，将这些挑战扩展到多模态代码生成，解决了代码必须与多样化数据形式交互或从其生成的复杂场景，如网页和图形图表。
指令遵循。它表示生成与特定指令一致的内容的能力，这对于自动化内容创作、编程和交互式系统基准测试中的应用至关重要。IFEval [230]评估MLLMs遵循清晰、可验证指令的能力，而InfoBench [231]使用分解要求遵循比率（DRFR）将复杂指令分解为更小、更易于管理的组件。然而，两者主要关注基于文本的场景。相比之下，LLaVA-Bench [148]专注于视觉指令遵循，而DEMON [144]主要以交错的视觉-语言指令为特色，这与传统的单图像数据集不同。随后，VisIT-Bench [145]评估指令遵循以响应真实世界的图像上下文、开放式请求。它还强调评估指令条件字幕和推理。此外，CoIN [146]通过检查持续的指令调整来扩展评估，调查模型在学习新知识时如何保留现有技能。与此同时，MIA-Bench [147]探索了MLLMs遵循分层指令并生成上下文适当响应的能力，提供了对指令遵循和适应性更细致的视角。

4.1.2 以内容为中心的生成

幻觉缓解。术语“幻觉”通常指的是生成的响应包含在视觉内容中不存在的信息的情况[232]–[235]。减少幻觉对于需要高事实保真度的应用至关重要，如新闻写作和学术内容生成。在MLLMs领域，幻觉通常被分为三种不同的类型：对象、属性和关系[235]–[237]。

对象幻觉。当模型生成在视觉输入中不存在或不相关的对象时，就会发生对象幻觉[160]。这些错误通常源于对视觉元素的误解或过度泛化，导致在生成的描述中包含与目标图像不一致的对象。这为视觉-语言（VL）模型提出了重大挑战，因为它通常导致无意义或不忠实的响应[172]，损害了输出的事实完整性。解决对象幻觉对于需要精确对象识别和准确场景理解的任务至关重要，如自动图像字幕和视觉推理应用。
属性幻觉。属性幻觉指的是错误生成对象特征[32]，如状态（例如，颜色或形状），数量（例如，图像中对象出现多次）或动作（例如，人类或动物的移动）[158]，这些都偏离了视觉内容中呈现的。当模型误解图像中现有对象的属性时，就会出现这些错误，导致不准确性，如生成错误的动作或数量。这种误解可能会误导下游任务，包括细粒度识别和产品检索，因此在感知模型中缓解这些问题至关重要，以确保准确性和可靠性。
关系幻觉。当模型不准确地推断对象之间的关系时，就会产生关系幻觉，例如空间排列、互动或因果联系，这些在视觉输入中并未描绘。这种类型的幻觉需要更复杂的推理能力，因为它涉及图像中的至少两个对象，并且可以通过感知（例如，空间术语如“在...上”或“在...后面”）或认知角度（例如，抽象动作如“吹”或“观看”）[162]发生。这些错误可能会严重损害模型的推理能力，特别是在需要多模态分析或视频理解的任务中。减少关系幻觉对于提高生成输出的连贯性和可靠性至关重要。具体来说，对于视频模态，VideoHallucer [171]检测视频-语言模型中的幻觉，并将其分为内在和外在类型，包括对象-关系、时间和语义细节幻觉的子类别。

安全性。安全性能力确保MLLMs生成的输出在道德上是健全的，避免有害、误导或不适当的响应。这对于在敏感环境中的实际部署和维护公众信任至关重要。例如，MM-SafetyBench [177]测试MLLMs对基于查询的相关图像攻击的弹性，评估它们如何处理对抗性查询。与此相辅相成的是，RTVLM [180]通过引入红队评估来扩展安全性的范围，在这些评估中，模型在对抗性、道德上具有挑战性或有害的场景中进行测试，重点关注关键领域，如真实性、隐私、安全性和公平性。此外，MLLMGUARD [179]扩展到双语安全评估，涵盖五个维度的方面，确保全面性、严谨性和健壮性。与这些基准测试不同，MOSSBench [178]评估MLLMs的过度敏感性，关注它们如何不当地拒绝良性查询。

可信度。可信度测试MLLMs生成的内容的可信度，评估信息是否可靠、来源准确，并以维护道德标准的方式呈现。这对于新闻生成、教育内容和其他信息完整性至关重要的应用领域尤为重要。具体来说，Shield [183]旨在评估MLLMs在多个模态中检测面部伪造和伪造攻击的有效性。相比之下，MTruthfulQA [182]旨在评估多语言场景中LLMs的真实性。更全面地，MultiTrust [181]首次统一评估MLLMs在五个关键维度上的可信度：真实性、安全性、健壮性、公平性和隐私性，重点关注多模态风险和跨模态影响。

健壮性。MLLMs的健壮性指的是它们在面对分布偏移或输入扰动时保持一致性能的能力[181]。为了探索这一点，BenchLMM [187]检查跨风格的视觉能力，即MLLMs如何处理三种不同的风格：艺术、传感器和基于应用的变化，揭示了模型在面对非标准视觉上下文时的弱点。同样，MMCBench [186]扩展评估，测试在文本、图像和语音中的常见腐败下的自一致性，提供了对MLLMs跨模态健壮性的更全面视图。在不同的背景下，MMR [185]针对误导性提示的健壮性，揭示了MLLMs经常在正确理解视觉内容的情况下与引导性问题作斗争。此外，JailBreakV-28K [184]专注于可转移性，研究针对LLMs的越狱技术如何转移到MLLMs，强调了文本和基于图像的对抗性攻击中的漏洞，并强调了在多模态设置中需要更强的防御。CorrelationQA [188]和MM-SPUBENCH [189]都关注于评估MLLMs对偶然偏见的易感性。虽然CorrelationQA揭示了误导性的图像-文本对如何诱导幻觉，但MM-SPUBENCH通过测试MLLMs对九个类别中偶然相关性的脆弱性，提供了更全面的评估。

4.2 多模态任务和指标

本章介绍了与每种生成能力相关的设计任务和评估指标。更多详细信息显示在表3中。

4.2.1 面向能力的任务和指标

交错图像-文本生成。给定包含文本和图像的提示，此任务旨在评估模型在模态间生成连贯、交错内容的能力。CoMM [66]引入了一个更具挑战性的变化，基于给定问题的交错图像-文本生成，模型仅基于给定的问题生成交错内容，而不提供初始图像信息，推动模型推理和预测结果。StorySalon [139]和StoryStream [140]都专注于故事领域，涉及任务如多模态故事延续和多模态故事生成。前者专注于用文本和图像扩展给定的叙述，而后者挑战模型从头开始创建整个叙述序列，无缝整合文本和视觉内容。此任务的主要评估方向是生成的交错图像和文本的连贯性和一致性[66]，[140]。例如，OpenLEAF [141]利用BingChat [238]评估交错图像-文本内容中的实体和风格一致性。通过采用思维链方法，BingChat逐步检测和分析常见主题和视觉风格因素，如色彩调色板和氛围，以生成最终的定量分数。

代码生成。它涉及从各种格式的输入创建编程代码，如文本和图像[143]，甚至更复杂的网页[142]。此任务旨在整合MLLMs的优势，它们可以理解和处理多样化数据类型，促进将复杂的、多方面的规范转换为可执行代码。对于HTML代码生成评估，Web2Code [142]从网页图像生成HTML代码，通过将代码转换回图像并与地面真实情况进行比较，专注于视觉保真度，而不是传统的代码级指标。Plot2Code [143]强调功能性和视觉准确性，通过整合传统的代码执行检查与使用GPT-4v和详细文本匹配指标的高级视觉评估，提供超出标准代码通过率的全面评估。

指令遵循。此任务要求MLLMs生成严格遵循给定指令或指令的输出。正如DEMON [144]所示，查询输入通常结合了定义目标和格式的任务指令，以及提供多模态上下文的特定任务实例。对于每个指令，VisIT-Bench [145]收集了指令条件字幕，这些字幕不仅提供图像的一般描述，还强调与给定指令相关的特定信息。

幻觉。视觉幻觉（VH）[154]指的是在视觉问答期间模型生成关于图像的错误细节的实例。这包括错误的前提、上下文不足和解释视觉数据的挑战，如基准测试HaloQuest [164]所捕获的。此外，“我知道（IK）”幻觉[156]发生在模型提供错误答案时，适当的响应应该是“我不知道”，突出了MLLMs中不确定性识别的需要。CHAIR [232]通过测量模型响应中幻觉对象的频率来评估幻觉。在此基础上，AMBER [158]通过结合幻觉问题的精确度和召回率以及整体准确性，增强了评估，从而在生成和判别任务中提供了更平衡的评估。此外，MMECeption [153]提供了一种无需注释的方法，通过多次迭代评估跨模态语义一致性，生成GC@T分数来量化模型的幻觉倾向。与此同时，IDK指标[156]关注模型识别和传达不确定性的能力，如果包含预定义的IDK关键词，则将响应标记为正确。Halr [162]旨在测量判别和生成任务中的幻觉频率，确保在不同任务类型中保持一致的评估框架。此外，MediHall Score [174]引入了一个特定于医疗的评估指标，采用分层评分系统，考虑幻觉的严重性和类型，实现对其潜在临床影响的细致评估。为了提高可信度并解决MLLMs中的幻觉，BEfore-AFter幻觉数据集（BEAF）[165]引入了四个关键指标：真理解（TU）、无知（IG）、固执己见（SB）和犹豫不决（ID）。TU评估模型是否正确回答了关于移除对象的问题，而IG在给出错误答案时测量无知。SB评估模型坚持初始答案的倾向，SBp和SBn表示一致的“是”或“否”响应。最后，ID跟踪与移除对象无关的问题的答案的不必要变化。

安全性。安全性任务确保MLLMs的响应不会导致有害或非法的结果。对于毒性评估，它提供了输入，如NSFW图像（例如，暴力或露骨内容）与字幕查询配对，以评估模型倾向于生成有害响应的趋势[181]。对于越狱，它涉及测试模型对旨在绕过安全协议的提示的抵抗力（例如，带有嵌入文本截图的图像询问非法查询），并衡量模型是否以不违反安全指南的方式适当响应[181]。具体来说，在RTVLM中，给定单个图像和红队问题，MLLM被要求从安全回答、谨慎回答或拒绝回答中选择。

可信度。真实性任务通过提供图像与事实性或误导性文本查询配对的输入来评估MLLMs，并评估它们响应的准确性[181]。具体来说，Shield [183]专注于面部反欺骗和面部伪造检测任务，要求MLLMs根据不同模态（例如，RGB、深度图、红外图像）的挑战性输入，准确识别真实与假面部。此外，它引入了多属性思维链范式，通过分析多个属性（例如，形状、颜色、纹理）来增强推理，以实现更可靠和全面的决策。

健壮性。在MMR [185]中，MLLMs被给予图像，并被要求回答正面问题以评估视觉理解，并回答误导性问题以测试对欺骗性提示的健壮性，从多个选择中选择正确答案。至于偶然偏见，MM-SPUBENCH [189]中的任务通过呈现图像和文本提示来评估MLLMs，其中两个输入都包含核心和偶然特征。根据模型的响应如何专注于本质的核心特征，同时忽略不相关、误导性的偶然特征，评估其对跨模态偶然偏见的抵抗力。

4.2.2 面向模态的指标设计与理解和推理任务不同，生成任务的输出格式通常包括自由形式，并可能涵盖各种模态（见表3）。

仅文本。与第2.2节中提到的自由形式格式类似，它们通常应用传统的图像字幕指标，例如ROUGE和METEOR，以及基于LLM的评估[66]。
仅视觉。对于评估图像生成质量，像Fréchet Inception Distance（FID）[239]，Inception Score（IS）[240]和CLIP分数这样的指标衡量与地面真实参考的视觉保真度和多样性。为了评估风格一致性和重建准确性，采用了像结构相似性指数度量（SSIM）和峰值信噪比（PSNR）[66]这样的指标。
跨模态。确保不同模态间内容一致性和叙事连贯性至关重要，这在交错图像-文本生成中被强调。评估如OpenLEAF [141]，CoMM [66]和StoryStream [140]利用MLLMs评估图像和文本之间的连贯性或一致性，通过检查风格、实体、内容趋势等。

5 应用

5.1 背景和分类

为了全面评估MLLMs的能力，基准测试必须超越一般任务，涵盖各种应用。本节根据它们的应用导向重点对基准测试进行分类，提供MLLMs在不同领域和环境中的表现见解。

5.1.1 视觉智能体它整合了视觉感知和决策制定，以与各种环境互动，要求精通多模态输入解释和任务执行。

交互式决策制定智能体。这些智能体处理视觉和文本输入，以在不同平台上执行实时任务。对于网络平台，像MIND2WEB [190]，WebArena [192]和VisualWebArena [193]这样的基准测试评估智能体在基于网络的任务上的表现，重点关注导航和复杂内容互动。对于专注于移动平台，像Ferret-UI [195]和Mobile-Eval [196]，SPR [197]评估智能体与移动UI互动并仅基于视觉感知执行任务的能力。AITW [191]强调智能体在各种Android设备上理解和执行指令的能力。为了测试跨不同平台的适应性，CRAB [194]强调跨环境的多功能性，确保在多样化界面中的一致性能。
具身决策制定智能体。这一类别的智能体专注于感官输入整合与现实世界行动，模仿类似人类的决策制定。MineDoJo [198]和PCA-EVAL [201]挑战智能体在模拟环境中感知、推理和协调行动的能力。OpenEQA [200]和EgoPlan-Bench [199]专注于现实世界场景，而后者特别针对从第一人称视角的人类水平规划能力，要求长期任务跟踪和高级视觉推理。全面地，VisualAgentBench [202]评估MLLMs作为视觉基础智能体，专注于它们在复杂、现实世界环境和图形界面中的多任务能力。

5.1.2 特定领域应用

医疗应用。医疗MLLMs旨在增强多个模态和专业中的诊断准确性和临床决策制定。Asclepius [203]评估Med-MLLMs的诊断熟练能力，以匹配或超过人类水平的诊断推理，确保健壮和临床有效的评估。M3D-Bench [204]推进了对MLLMs在3D医学成像中的评估，突出了它们解释和分析复杂空间数据的能力，这对于现代诊断至关重要。PubMedVision [205]和GMAIMMBench [206]增强了视觉和文本医学知识的整合，推进了MLLMs通过准确解释和跨模态推理支持临床决策制定的能力。
机器人应用。机器人应用要求MLLMs有效整合多模态感知、推理和规划，以适应动态环境。RoboVQA [208]通过处理视频输入增强机器人的视觉理解和决策制定能力，以执行复杂的现实世界任务，而MMRo [207]评估关键技能，如空间推理、任务规划和安全意识，确保在安全关键场景中的有效任务执行。
设计应用。设计应用要求MLLMs综合细粒度视觉元素与更广泛的布局理解。DesignProbe [209]和PosterLLaVA [211]都评估MLLMs推理设计特征如颜色、字体和布局的能力，强调在生成内容感知、结构化设计中的适应性。此外，DesignQA [210]作为第一个零样本基准测试，评估MLLMs在工程背景下综合复杂多模态数据的熟练程度，专注于它们解释视觉和文本信息的能力。
社交应用。它挑战MLLMs解释多模态输入，整合社交、环境和行为线索。1) 社交媒体。在社交媒体背景下，MLLMs必须导航动态和多样化的内容，要求对情感、错误信息和复杂的社交互动有先进的理解，如MM-SOC [212]所示。2) 交通。TransportationGames [213]评估MLLMs应用交通知识的能力，强调多模态理解、逻辑推理和决策制定。3) 自动驾驶。自动驾驶系统依赖于MLLMs进行空间推理和实时规划，从多模态感官输入，以NuScenes-QA [214]和DriveLM-DATA [215]为重点，专注于安全导航和类似人类的响应。4) 遥感。LHRSBench [216]评估MLLMs在解释地理空间数据方面的能力，要求强大的空间推理和图像识别，以理解复杂的环境背景。

5.2 多模态任务设计

应用基准测试通常包括与理解、推理和生成相关的任务，这些任务侧重于不同的领域。因此，本节还涉及与多样化应用能力相关的任务和指标。

交互式决策制定智能体。正式地，环境和智能体被建模为部分可观察的马尔可夫决策过程（POMDP）：E = (S, A, Ω, T)。其中智能体接收状态st ∈ S的部分观察ot ∈ Ω，采取行动at ∈ A，并根据函数T : S × A → S转换到新状态，旨在完成像网页导航或信息检索这样的任务。在WebArena [192]的基础上，VisualWebArena [193]强调视觉定位，要求智能体解释视觉数据，而不仅仅是依赖于文本或HTML线索。对于跨环境，CRAB [194]将任务定义为元组（M, I, R），其中M是一组环境，I是任务目标，R是奖励函数。智能体的政策π((m, a) | (I, H, o1, ..., on))根据指令和观察确定跨环境的行动，测试智能体的适应性和在多个平台上的性能。由于传统的目标基础和轨迹基础评估的限制，它们未能捕捉到增量进展，CRAB [194]引入了图形评估器，通过跟踪关键中间状态，允许进行更细粒度的评估。它引入了完成率（CR），执行效率（EE）和成本效率（CE）等指标，分别评估任务进展、行动效率和资源使用。

具身决策制定智能体。在提供了概述任务目标的语言指令时，人类水平的规划涉及根据视觉输入确定下一个合适的行动[199]。这种视觉输入由显示过去帧的视频序列组成，这些帧跟踪任务进展，最后一帧代表当前的自我中心视图。

机器人应用。对于MMRo基准测试[207]中的开放式问题，响应使用GPT-4 API进行评估。这种方法改编自LLM-as-Judge框架[225]，进行了小幅调整。GPT-4V被要求提供判断，将模型的响应分类为“A”（正确），“B”（错误）或“C”（不确定）。

自动驾驶。DriveLM-DATA [215]引入了图形视觉问答（GVQA），其中推理任务被构建为问题-答案对内的有向图，与传统的自动驾驶视觉问答不同，GVQA利用问题-答案之间的逻辑依赖关系来增强回答过程。

6 数据集构建

由于不同类型的构建过程具有很强的共性，本节是一般介绍常见的数据集构建过程，包括数据集收集和质量控制。

6.1 数据集收集

数据集收集是训练和评估MLLMs的关键步骤。该过程通常涉及多种方法，以确保数据集多样化和代表性。

手工制作：这种方法涉及人工注释或精心选择的数据。有时，LLM生成的样本可能引入偏差，人工努力可以确保高质量和客观性[35]–[37]。此外，为了减少从公共数据集的数据泄露风险，通过新设计的问题或答案引入了人工注释，这些可以反映真实世界的场景[32]。
自动化规则：应用自动化规则或算法以结构化的方式生成图像或问答对。例如，VideoHIAN [69]设计了一个合成框架，通过针插入自动生成特定的查询-响应对。
基于LLM的生成：利用LLMs生成问题或图像数据，能够有效创建大型数据集。例如，在问题生成中，LVLM-eHub [28]利用像GPT-4这样的MLLMs，使用上下文学习策略创建正面和负面的视觉指令。同样，对于图像生成，SPEC [9]利用StableDiffusion-XL [241]生成具有单个对象的图像，创建了一个专注的视觉数据集合。MileBench [56]利用DALLE-3 [242]生成随机卡通风格的图像针。

6.2 质量控制

质量控制对于确保用于训练和评估MLLMs的数据集的可靠性和完整性至关重要。各种方法，从人工筛选到自动化过滤，帮助消除错误、冗余和不相关数据。

人工筛选：人工审查员手动评估数据的准确性、相关性和质量[34]–[37]。它通常用作LLM基于数据生成后的双重检查[30]，[68]或作为反馈给LLMs的数据生成提示[30]。
基于规则的筛选：应用自动化基于规则的过滤应用结构化算法来清理和优化数据集。对于去重复：II-Bench [24]采用图像相似性算法和OCR过滤重复和以文本为主的图像。DenseFusion-1M [45]遵循SemDeDup [243]，使用来自EVA-CLIP的图像特征进行k均值聚类，根据设定的阈值移除每个聚类内语义重复的图像。对于过滤NSFW图像，一些基准测试[64]，[66]使用基于4层多层感知器（MLP）的二元NSFW图像分类器[244]，该分类器在LAION-2B的NSFW数据集[245]上训练，准确率达到97.4%。预测NSFW概率超过定义阈值的图像被自动移除。
基于LLM的筛选：LLMs可以作为检查员，确保视觉依赖性，并最小化数据泄露，并要求先进的多模态能力进行解决[46]。例如，一些基准测试直接将纯文本问题输入到多个MLLMs中。通过限制正确率，它们可以过滤与图像无关的问题[35]–[37]。

7 未来研究方向

随着我们进入多模态学习的未知领域，雄心勃勃但充满希望的AI研究前沿将推动范式转变。我们设想未来的多模态基准测试将包括多功能、以人为本、高效和无偏见的应用。鉴于此，我们提出以下研究方向，这些方向需要创建更动态、交互式和复杂的MLLMs：

任何模态到任何模态。目前，当前多模态基准测试中不同任务的输入和输出模态是严格预定的。例如，大多数情况下，任务可能要求处理文本和图像作为输入，并以文本标签作为输出。这种刚性安排与人类智能形成鲜明对比，在日常交流中，人类可以轻松适应不同种类的输入和输出模态。一个复杂的MLLM应该理想地容纳任何模态的输入和输出；例如，它应该处理文本、图像和语音输入，并生成文本、图像、语音甚至动画。这种灵活性将反映MLLMs在多样化真实世界环境中更通用和实用的能力。为此，未来的基准测试需要设计来支持和评估这种“任何到任何”模态转换，作为下一代MLLMs的普遍挑战和理想标准。

通用表示学习。当前基准测试通常针对特定任务量身定制，从而鼓励模型为每种模态学习专门的表示。因此，跨所有模态的通用表示学习，这可以说是深度学习的最终目标之一，被搁置一边。我们假设通过开发能够学习和转换跨所有模态的通用表示的MLLMs，将在基准测试和模型效率方面带来重大好处。这将本质上要求模型无歧义且有效地理解和翻译跨模态关系。追求这种粒度学习要求在多模态基准测试设计中进行范式转变：促进模型探索多种模态之间的潜在统一性，从而促进它们学习一组普遍适用的特征的能力。

实时响应。大多数现有基准测试没有考虑MLLMs响应的时间方面，通常忽略了对实时或至少快速响应的需求。然而，这种时间约束在各种真实世界应用中至关重要，从语音助手到自动驾驶汽车，高延迟简单地使系统不可接受。为了强调及时性因素，基准测试应整合严格的时间约束，并相应地激发方法来加速推理过程。这反过来又会激励研究，不仅在功能上健壮，而且在时间上高效的MLLMs，从而赋予这些模型以真实世界部署的可靠性。

人在环路（HITL）。当前的基准测试机制通常在隔离中评估AI模型，忽略了人类互动和合作这一不可或缺的部分。然而，为了实现最大效用，AI系统必须能够与人类进行动态互动，在循环过程中学习，同时随着时间的推移进行适应和改进。这需要实施HITL基准测试，在这些基准测试中，可以准确捕捉和评估人类行为的细微差别、实时协作决策和双向通信挑战。超越关键应用领域如对话代理，人机协作可能会揭示一个新的基准测试领域，而不是将AI视为一个孤立的实体，而是完全认识到它作为真实世界应用中的社会技术系统的一部分。

8 结论

本综述系统回顾了211个多模态基准测试，将它们分类为理解、推理、生成和应用。尽管现有的基准测试显著推进了MLLM发展，但任务饱和、目标不一致和指标不一致等挑战仍然存在。解决这些问题被认为是创建更准确反映MLLMs能力和局限性的基准测试所必需的。我们的综述旨在通过提供基准测试领域的清晰概述并建议未来方向，以实现更有效和全面的评估，为研究人员提供指导。

作者：张长旺，图源：旺知识

参考资料

标题：A Survey on Multimodal Benchmarks: In the Era of Large AI Models

作者：Lin Li, Guikun Chen, Hanrong Shi, Jun Xiao, and Long Chen

单位：Hong Kong University of Science and Technology, Zhejiang University

标签：Multimodal Learning, Large Language Models, Benchmarking, Artificial Intelligence

概述：本文系统回顾了在大型AI模型时代用于评估多模态大型语言模型（MLLMs）的211个基准测试。

链接：https://arxiv.org/abs/2409.18142

旺知识

AI技术最新进展、发展趋势、研发经验、从业经验