斯坦福利用视觉表示法则优化多模态语言模型，计算成本降低 99.7% ！

教育 2024-09-05 09:00 福建

关注“FightingCV”公众号

回复“AI”即可获得超100G人工智能的教程

作者在多模态大型语言模型（MLLMs）中提出了“视觉表示法则”（Law of Vision Representation）。
该法则揭示了跨模态对齐、视觉表示的一致性和MLLM性能之间存在强烈相关性。
作者使用跨模态 Alignment和 Correspondence分数（AC 分数）来量化这两者。
通过涉及13种不同的视觉表示设置和跨越八个基准的评估，作者发现AC分数与模型性能呈线性相关。
通过利用这一关系，作者能够仅确定并训练最优视觉表示，而无需每次微调语言模型，从而实现了计算成本的99.7%降低。
代码已在https://github.com/bronyayang/Law_of_Vision_Representation_in_MLLMs上公开。

1 Introduction

当前的多模态大型语言模型（MLLM）通过将预训练的视觉编码器与强大的语言模型（Touvron等人，2023；Zheng等人，2023）整合，已经取得了显著的进展。作为通用的MLLM的一个核心组成部分，视觉表示至关重要。许多研究行人使用了CLIP 作为主要的图像特征编码器，但其局限性逐渐显现出来。因此，正在积极探讨替代的视觉表示和视觉编码器的组合。

然而，尽管关注度越来越高，选择视觉表示的过程主要还是基于经验的。研究行人通常在特定的MLLM上测试一系列视觉表示，并选择在该模型上的基准任务上表现最高的表示。然而，这种方法受到已测试表示数量的限制，并且并不解决某些特征表示优于其他特征表示的潜在因素。因此，对于特定MLLM，最佳的视觉表示通常是由实证表现而不是对该成功特征的深入理解决定的。特征表示中实现最高性能的内在机制仍然没有得到解答的问题是什么。

为了解决对MLLM中视觉表示理解存在的一大空白，作者提出了 MLLM视觉表示定律。作者的研究结果表明，_视觉表示的跨模态 对齐和对应（AC） 与模型性能密切相关。具体而言，所选视觉表示的AC的增加会导致模型性能的提高。为了量化这一关系，作者定义了一个 AC得分，用于衡量视觉表示的跨模态对齐和对应。AC得分和模型性能之间呈现出线性的关系，相关系数的决定系数为95.72%。

进一步地，视觉表示定律指导了为MLLM选择最佳视觉表示的过程。最初，这个过程非常昂贵，因为即使在视觉编码器类型、图像分辨率或特征组合的微小变化等方面进行非常细微的更改，也需要对语言模型进行微调（Lin等人，2024）。例如，使用一种数据效率极高的MLLM流水线，需要 3840 个NVIDIA A100 GPU小时来测试本研究中使用的10个编码器，耗资约20,000美元。测试额外的编码器将导致成本的线性增加。此外，最近特征组合的趋势，通常会导致更好的性能，需要进行视觉编码器的组合测试。测试所有10个编码器可能产生的1023种组合，将指数级增加成本和能耗。这种过程消耗了约100,000千瓦时，足以驱动绕地球13圈的电动汽车。因此，作者首次提出了一个 AC策略，在该策略中，作者在期望的搜索空间内使用AC得分来选择最佳的视觉表示。与依赖基准性能的传统方法相比，AC策略可以扩展搜索空间，允许在考虑更多视觉表示的同时，不增加额外的成本。作者的研究表明，这种方法在准确性方面和效率方面都优于随机搜索最佳表示。在该策略的帮助下，在96.6%的案例中，模型成功确定了前三大选择的最佳配置，只需要对3种语言模型进行微调，覆盖了13个设置的搜索空间。

2 Related Works

Vision for MLLMs

近年来，研究行人在MLLMs 方面探索了各种视觉表示。有趣的是，某些发现表明，仅依赖于CLIP家族以外的编码器，如DINOv2 和 Stable Diffusion，通常会导致性能评分较低。然而，将来自这些编码器的特征与CLIP特征结合 - 例如在标记或通道维度将图像嵌入连接在一起 - 在仅使用CLIP的情况下显著提高了性能。研究行人直觉上认为，这些额外的编码器具有优越的细节定向能力，但尚未有研究充分分析性能变化的基础原因。这表明，最优视觉表示的属性仍然不完全理解。

Cross-modal Alignment

跨模态对齐指的是图像与文本特征空间的结合。这个概念在文本图像对比学习的引入（Radford等人，2021年；贾等人，2021年）中产生。尽管当前MLLM使用了对比预训练的图像编码器，但实现有效对齐仍具有挑战性。尽管尝试批判CLIP家族表示的局限性并探索替代视觉表示，许多方法仍然依赖于对比预训练的编码器或加入对比损失，而没有完全消除它们。在作者的工作中，作者指出，视觉表示的对齐对于提高模型性能至关重要，同时对于提高数据效率至关重要。如果没有预先对齐的视觉表示，则需要在语言模型内进行广泛的预训练才能实现跨模态对齐。

Visual Correspondence

视觉对应是计算机视觉的一个基本组成部分，准确的对应关系可以显著提高任务的表现，如图像检测（Xu等人，2024年；Nguyen与Meunier，2019年）、视觉创建和MLLMs（Liu等人，2024年）等。对应关系通常分为语义对应和几何对应。语义对应（Zhang等人，2024年；Min等人，2019年）涉及匹配表示相同语义概念但不一定是相同实例的点。另一方面，几何对应需要图像间的精确相同点进行匹配，这在低级视觉任务中，如姿态估计和SLAM任务（等）中尤为重要。

许多研究已经指出CLIP家族的视觉表示“缺乏视觉细节”。作者通过对应关系的概念来解释这一观察结果。当前的多模态大型语言模型（MLLMs）将图像转换为嵌入，每个嵌入代表图像的一个 patch。具有高对应关系的图像特征在类似语义的内图像patch中增加相似度，从而能够检索到更多的详细信息。

3 Law of Vision Representation in MLLMs

作者在多模态大语言模型（MLLMs）中提出了视觉表示定律。定律表明，MLLM的表现，用Z表示，可以通过视觉表示的两因素：跨模态对齐（A）和对应（C）进行估计，假设视觉表示是独立变量，而其他组成部分（例如，语言模型和对齐模块）保持不变。这种关系可以表示如下：

Z ∝ f(A, C) （1）

其中f是A和C的第二级多项式变换上的线性函数。

Theoretical Justification

在本节中，作者从理论上分析了增加和如何提高模型性能。当视觉表示展示出高跨模态对齐和准确对应时，MLLM 应具有以下理想的属性：

当训练 MLLM 时，如果视觉表示与语言分布高度预对齐，那么在微调过程中，预训练语言模型需要较少计算资源来弥合不同模态之间的差距。在 A.1 节中，作者提供了理论依据，证明微调与高度对齐的多模态数据基本上等同于仅微调文本数据，从而省去了额外的语言微调之外的努力。这种效率可能会导致改进，尤其是在微调所需训练数据有限的情况下。
如果视觉表示确保了精确的对应关系，那么图像嵌入内的注意力将会非常精确。因此，MLLM develops 对视觉内容精炼的专注度，捕捉甚至那些无法仅通过文本到图像注意力获得的细节，从而对图像有更详细的解释。作者在 A.2 中提供了理论依据。

Empirical Justification

在本节中，作者实证地表明了AC与模型表现有密切关联。为了量化AC与模型表现之间的关联，作者首先提出了衡量视觉表示中跨模态对齐和对应的方法：

为了量化跨模态对齐，作者的目标是比较相同概念的图片和文本嵌入。但是，由于需要对齐，找到相同的概念较为困难。为此，作者以CLIP视觉嵌入作为参考。作者计算来自CLIP嵌入和目标视觉表示嵌入的向量对的最大余弦相似性S：

其中是图像样本的总数，是第个嵌入向量，来自第张图像的视觉特征。

为了计算对应分数，作者从配对的图像中提取特征，得到特定来源和目标配对图像的一组特征和。给定 GT 关键点集合，作者使用这些特征计算预测关键点集合。对应分数为百分正确关键点（PCK）的计算，使用以下方程：$\text{C Score}=\frac{1}{m}\sum_{i=0}^{m}\ mathbbm{1}_{\left\|p_{j}^{t}-p_{j}^{t} \right\|_{2}<t}$ (3)，其中$t$是一个与图像目标实例框的尺寸成比例的阈值。<="" section="">

最后，AC分数是A和C分数的二次多项式变换：

结果。作者使用13个视觉表示，涵盖了4个基于视觉的MLLM基准测试。如图1所示，当使用视觉表示的AC分数时，平均决定系数（R^{2})为95.72%。与之相比，作者还使用了13个随机分数、仅使用A分数和仅使用C分数的所有二次多项式变换模型进行拟合。随机分数和单因素模型与性能之间存在显著较低的关联。这一结果强调了AC分数与MLLM性能之间强烈的正关联，验证了视觉表示的定律。有关详细信息请参见第5.4节。

4 AC Policy

问题描述。通用MLLM架构包括一个冻结的视觉编码器，然后是一个可训练的连接器（对齐模块）和语言模型，类似于LLaVA（刘等，2024年）中的设置。为了确定搜索空间中的最优的种视觉表示，作者最初需要对语言模型进行次微调，使得的扩展变得困难。因此，给定个视觉编码器，作者提出了一种AC策略，如图2所示，用于有效地从由所有种特征组合中的种视觉表示组成的搜索空间中估计最优视觉表示。作者只微调个语言模型来获得下游性能，允许在不显著增加成本的情况下扩展，其中远小于。

策略拟合。令表示包含搜索空间中视觉表示的AC分数的矩阵。作者从中子采样个数据点，记为，作为线性回归模型输入：

在这里，是模型参数的向量，是误差项的向量，表示在所需基准上的下游性能。

采样策略。的选择会影响函数拟合，从而影响预测的准确性。为了避免采样在A和C得分上过于接近的点，作者采用基于坐标的采样策略。

在具有N个视觉表示的视觉表示的对称A和C评分对可以绘制成2D图，如图2所示，坐标为。为了确保样式的多样性，作者将图形划分为区域。对于每个采样步骤，其中总采样点尚未达到，作者将图形划分为个相等的区域。然后删除空区域和包含之前采样点的区域。下一个数据点将随机从剩余区域中选择。

结果。在表1中，作者展示了给定有限搜索空间的情况下，AC策略始终在最小化资源下预测最优视觉表示的实现方式（在这次实验中，有13种设定）。作者的目标是只微调搜索空间中的一个小子集，同时识别出前3个预测中的最佳视觉表示。然而，如果作者随机选择子集进行训练，作者需要12个微调才能实现超过90%的Recall@3。相比之下，AC策略平均只需要3.88次完整的训练步骤才能达到89.69%的Recall@3。请参阅第5节5.5节的详细信息。

Experiment Settings

对于作者特定的 MLLM 流水线，作者遵循 LLaVA Liu 等人在2024年发表的训练过程、通用架构和数据集的规定。训练过程包括两个阶段：在第一阶段，作者使用 LLaVA 1.5 数据集（包含558K个样本）训练一个2层 GeLU-MLP 连接器。在第二阶段，作者在扩展的 LLaVA 1.5 数据集（包含665K个样本）上同时训练连接器和语言模型。需要注意的是，对于每轮训练，除了视觉表示外，其他所有因素都保持恒定。本文中使用的13种视觉表示详细列在表2中。本文使用的 MLLM 基准包括4个基于视觉的基准，MMBench Liu 等人在2023年发表的文章（刘等人，2023年），MME Fu 等人在2023年发表的文章（付等人，2023年），OKVQA Marino等人（马里诺等人，2019年）发表的 SEED-Bench，Li等人（李等人，2024年）发表的 ScienceQA，以及包括 MMMU Yue等人（于等人，2024年），TextVQA Singh等人（辛格等人，2019年），VizWiz Gurari等人（古拉里等人，2018年）和 ScienceQA Lu等人（陆等人，2022年）的4个 QCR 基准。

AC Score

在计算跨模态对齐分数时，作者首先进行了阶段1的训练，使用所有视觉表示来获得MLP。这个过程需要的计算量比阶段2少得多，仅占总可训练参数的0.298%。每个基准的对齐分数是针对随机采样100张图像的平均值。对于对齐分数，作者遵循常见的做法，使用SPAir-71k Min等人（2019年）的数据集。因此，每个基准都有自己的对齐分数，而对齐分数在所有表示中保持一致。

Feature Extraction

无论是MLLM训练还是评分计算，都涉及图像特征提取。在这里，作者介绍如何获取两种视觉表示。

从输入模型获取视觉表示。给定图像,作者分别以原始形式对其进行处理，适用于U-Net模型；或以patch的形式对其进行处理，适用于transformer模型。对于transformer模型，作者提取最后隐藏状态，其中是序列长度，是隐藏维度。在U-Net模型中，作者取第一个上采样块后的中间激活。需要注意的是，这两种模型之间的特征可以通过reshaping和flattening在序列和网格格式之间进行交换。为保持一致，以下各节假设所有特征都已预先转换为同一格式。

从扩散模型获取视觉表示。扩散模型主要用于通过多步去噪生成图像，但近年来有一种趋势，即使用扩散模型作为视觉表示模型。Xu等人（2024）；Xu等人（2023）；Zhang等人（2024）；Tong等人（2024）。具体而言，对于扩散模型，给定图像,作者首先对VAE编码的图像中添加噪声：

其中，由噪声计划确定。作者采用小噪声策略，通过设置来实现。在这种情况下，扩散模型只去噪一次噪声隐变分，作者将一次去噪隐变分视为视觉表示特征。

Additional Results on the Law of Vision Representation

在第三部分，作者通过分析线性回归模型拟合得到的确定系数（R²）来展示AC得分与模型性能之间存在强烈相关性。在本节中，作者通过添加 Baseline 、分别拟合模型得分与随机得分、A分数和C分数之间的实验，进一步拆分实验。此外，作者还通过使用两种不同的数据变换方法（无变换和二次多项式变换）来探索A分数和C分数之间的关系。为了避免出现过拟合，作者采用了较低次数的多项式变换，以免掩盖A和C分数之间的真实关系。

如表3所示，结果表明，在所有设置中，使用AC得分的一致性在R²值上均优于其他设置。尽管这一观察与变换无关，但将A和C分数应用二次多项式变换拟合到模型性能上，获得了最高的相关性。这表明A和C分数之间存在固有权衡：具有高跨模态对齐的视觉表示通常具有较低的对应关系，反之亦然。

有趣的是，作者观察到基于OCR的基准表现与C分数之间的关联性较低，这导致了AC得分与基于OCR的基准表现之间的关联性降低。在第六节中，作者讨论了在所有基准中使用SPair-71k对应关系数据集无法充分捕获包含文本的图像中的对应关系的原因。

Additional Results on the AC Policy

在第4节中，作者证明了在有限搜索空间内（在本例中为13种设置）使适应度得分（AC得分）稳定一致地预测最优视觉表示是可能的，且所需的资源最小。在本节中，作者为表1提供详细的视觉可视化。

在进行视觉编码器的消融实验时，通常会选择一个子集进行训练。然而，如图3所示，作者在1000次模拟消融实验中发现，要包括最优视觉表示81.2%，则至少需要对13个设置中的11个进行训练。这表明仅运行一个小部分的视觉表示是不可靠的，特别是在搜索空间扩大时，通过仅训练一个小部分的视觉表示来识别真实最优表示的可能性越来越小。

相比之下，AC策略平均只需要3.88次完整的训练来达到89.69%的Recall@3。对于最成功的预测基准ScienceQA，策略在96.6%的情况下成功确定了最优的配置，仅需要进行三次语言模型微调，涵盖了13个设置的搜索空间。这一结果表明，AC策略显著减少了探索MLLMs中的视觉表示的努力和成本。

6 Discussion and Limitations

本文的目的是探讨机器学习在医疗诊断中的应用及其潜力，以及现有研究中存在的局限性。

首先，本文介绍了机器学习的基本概念，然后讨论了机器学习在医疗诊断中的应用，例如对糖尿病的诊断和预测，对早期肺癌的检测和识别，以及对精神疾病的诊断和治疗。

然而，本文在讨论过程中也指出了存在的一些局限性。

首先，机器学习算法的依赖性，例如需要大量的数据和算力，这在处理某些医疗诊断的样本时可能会遇到困难。

其次，机器学习算法的可解释性不高，可能导致错误的诊断结果和治疗方案。此外，本文还讨论了其他局限性，如隐私问题和道德问题等。

因此，本文提出了一些可能的解决方案，以便在医疗诊断领域更好地应用机器学习技术。首先，可以考虑使用解释性强的算法，如决策树和逻辑回归，以增加诊断的可靠性和可解释性。其次，可以考虑引入道德和社会因素，以解决隐私问题和公平性问题。此外，可以考虑结合其他技术，如深度学习和自然语言处理，以实现更准确的诊断和治疗。

总之，虽然机器学习在医疗诊断中的应用存在着一些局限性，但是在未来，通过结合其他技术和研究方法，有可能实现更可靠的诊断和治疗方案。