通向高分辨率VLM (9): SliME

文摘科技 2024-06-30 21:24 上海

Github: https://github.com/yfzhang114/SliME

Paper: https://arxiv.org/abs/2406.08487

摘要

高分辨率的视觉是大型多模态模型（LMMs）的基础，这对于视觉感知和推理至关重要。现有的研究通常采用直接放大分辨率的方法，其中图像输入由全局图像，和被切割成若干patch的局部图像块组成（之前推送的LLaVA-UHD和InternVL等较新的MLLM均采用这样的方法）。这意味着更高的分辨率需要更多的局部图像块，导致计算成本过高，同时，局部图像token的主导地位可能会削弱全局上下文能力。

SliME框架通过使用适配器（adapters）混合来提取全局视图的上下文信息。适配器基于观察到不同适配器在不同任务上的优势，使用MLP将图像特征投影到LLM的特征空间中，并使用一组qformer来提取关键的全局信息。仅用200万训练数据就实现了在各种基准测试中的领先性能。

方法

通过自适应切片扩展输入分辨率： 为了提供全局上下文，论文将图像填充并调整大小为统一的336 x 336尺寸，并与局部特征拼接。对于形状为W和H的图像，论文遍历所有可用的分区策略。论文通过在利用的分辨率相同时最大化利用的分辨率并最小化浪费的分辨率来选择最佳分区。

软专家混合（Soft Mixture of Experts）：尽管查询形成器（query former）在大多数基准测试中不如MLP，但其可学习的查询嵌入和注意力机制允许不同的特征选择策略，并在某些基准测试（如ScienceQA）中表现更好。基于此，提出了一种新方法，利用MLP和查询形成器适配器的优势来细化全局上下文特征。具体来说，采用了一个带噪声的MOE框架，结合了这两种框架的好处。在这个框架中，学习到的门控网络G基于输入特征动态调整两种适配器的重要性。

交替训练对于SliME的成功至关重要：双线性形式在深度学习模型中普遍存在，特别是在多模态学习中，两种不同模态的表示经常通过点积进行对齐。在LMMs中，视觉编码器和适配器可以被视为视觉模态，而其他则被归类为文本模态，目标可以被视为最佳LMM。在论文的框架内，论文将适配器和局部压缩层视为不同的功能，旨在近似最佳模态适应参数。在多模态学习中，通常的做法是先冻结一种模态，优化另一种模态的适配器，然后再进行多模态的联合优化。这种策略有助于解决端到端训练中可能出现的优化难题，减少训练需要依赖的数据量，降低训练难度。

具体方法可如下一图看懂：

微调训练数据数据构造如下，数据构造相对简单数据量2M，并不大：

https://huggingface.co/datasets/yifanzhang114/SMR

总结来说，这个方法属于既要又要。我们在之前的推送里讨论了Q-former和MLP各自的优缺点（LLaVA，BLIP2路线之争：为什么多模态大模型中Q-Former更少见了？），这个工作里通过使用Gated MoE（Router）结合Q-former和MLP，来根据任务自适应，实为一种不错的取巧方法。

评测

MLLM的幻觉很多时候来自于“看不清”，所以模型只能采用训练数据的错误的“经验”，而解决了高分辨率问题，这类幻觉将会大大减少。

[高分辨率VLM系列解读]

通向高分辨率VLM (1): Monkey

通向高分辨率VLM (2): LLaVA-UHD

通向高分辨率VLM (3): mPLUG-DocOwl 1.5

通向高分辨率VLM (4): Idefics2

通向高分辨率VLM (5): InternLM-XComposer-4KHD

通向高分辨率VLM (6): InternVL 1.5

通向高分辨率VLM (7): Ferret-V2

通向高分辨率VLM (8): DeepStack

点击👇关注 “思源数据科学”

👇点个“赞”和“在看”吧