点击上方蓝字关注我们
VITRON: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing
作者列表:
Hao Fei, Shengqiong Wu, Hanwang Zhang, Tat-Seng Chua, Shuicheng Yan
作者单位:
新加坡国立大学等
网页:https://vitron-llm.github.io/
论文:https://is.gd/aGu0VV
1 简介
近年来,视觉大型语言模型(MLLM)取得了显著的进展,但在迈向多模态通用性方面仍然面临一些挑战,如仅具备粗粒度的实例级理解、缺乏对图像和视频的统一支持,以及在不同视觉任务中的覆盖不足。
为了解决这些问题,来自新加坡国立大学、南洋理工大学和 Skywork AI 的团队提出了 Vitron——一个旨在全面理解、生成、分割和编辑静态图像和动态视频的通用像素级视觉大型语言模型。
Vitron构建在 LLM 框架之上,前端模块集成了图像、视频和像素级区域视觉的编码器,后端则结合了最先进的视觉专家系统。通过这种设计,VITRON 支持从视觉理解到视觉生成的一系列任务,涵盖了从低级到高级的各种功能。
为了确保从 LLM 到后端模块的信息传递既高效又精确,研究团队提出了一种新颖的混合方法,将离散的文本指令与连续的信号嵌入相结合。此外,他们为 Vitron设计了多种像素级的时空视觉-语言对齐学习机制,以实现最佳的细粒度视觉能力。最后,团队建议采用跨任务协同模块,最大化任务不变的细粒度视觉特征的利用,增强不同视觉任务之间的协同效应。
通过在 12 种视觉任务上的演示和对 22 个数据集的评估,Vitron展示了其在四大主要视觉任务类别中的广泛能力。总体而言,这项工作展示了开发更统一的多模态通用模型的巨大潜力。
2 背景介绍
近年来,MLLMs迅速发展,研究者通过为大型语言模型添加视觉感知模块,扩展为多模态模型。例如,BLIP、LLaVA、MiniGPT-4 和 GPT-4V 在图像理解方面表现出色;VideoChat 和 Video-LLaMA 在视频理解上取得了重要进展。随后,进一步的研究主要有两个方向:一是深化视觉理解,从实例级到像素级,如 GLaMM、PixelLM、MiniGPT-v2 等;二是拓展功能,使模型不仅能理解,还能生成视觉内容,如 GILL、Emu 生成图像,GPT4Video、NExT-GPT 实现视频生成。我们认为,视觉大型语言模型的未来趋势必然是朝着高度统一化的方向发展,即成为多模态的通用专家。然而,我们观察到,尽管社区开发了多样化的视觉大型语言模型,但仍然明显缺乏统一性。
首先,多数模型仅支持图像或视频,我们倡导构建统一的模型,同时支持图像和视频。
其次,当前模型功能有限,大多只能理解或生成图像或视频。我们认为,模型应支持更广泛的视觉任务,实现“一站式”能力,这对实际应用尤为重要。
最后,对于集成多模态功能的通用模型,确保所有任务高效执行至关重要,包括精确传达指令和任务间的协同。
为解决这些问题,我们提出了 Vitron,一种通用像素级视觉大语言模型。Vitron以大语言模型为核心,集成图像、视频和区域编码器,后端结合先进的图像和视频模块,支持从理解、生成、分割到编辑的各种视觉任务。我们提出了混合指令传递方法,使模型既输出离散文本指令,又传递连续信号嵌入。为最大化各模块功能,我们设计了协同模块,充分利用任务不变的细粒度视觉特征,使 Vitron的性能超越了现有专家模型。
我们通过三个阶段训练 Vitron:1)视觉-语言对齐学习;2)指令微调;3)基于嵌入的对齐微调。进一步增强措施包括引入细粒度的时空视觉定位指令微调,使模型具备像素级视觉感知能力;利用对抗性训练解耦任务特定特征与任务不变的细粒度特征,增强任务间协同。在 12 项任务和 22 个数据集上,Vitron展示了出色的性能,甚至超越了单一最先进的专家模型。
这篇论文的主要贡献如下:
首次提出了统一的像素级视觉大语言模型 Vitron,支持图像和视频的理解、生成、分割和编辑。
引入了比单纯使用离散文本和连续信号嵌入更有效的指令传递机制。
提出了多种像素级视觉-语言时空对齐的学习方法,提升了细粒度视觉能力。
设计了协同模块,通过共享任务不变的细粒度视觉特征,超越了现有的最先进专家模型。
3 方法
3.1 VITRON系统架构
Vitron采用了典型的“编码器-大型语言模型-解码器”架构,与现有的流行多模态大型语言模型类似。整个框架如图 2 所示,包含三个关键部分:前端视觉与语言编码器、核心大型语言模型和后端解码模块。在前端,我们分别使用 CLIP作为图像和视频的编码器。视频编码器独立处理每一帧,然后在时间维度上进行平均池化,获得整体的时序特征表示。我们还采用了一种区域像素感知的视觉提取器作为用户交互的草图编码器,支持点击、绘制矩形或多边形、涂鸦等操作。这些编码器既能捕获像素级的视觉特征,又包含各区域的空间位置信息。区域特征与对象区域的二值空间几何遮罩一起进行池化,生成的多模态特征表示通过线性投影传递给大型语言模型。
核心的大型语言模型(我们采用了 Vicuna 7B v1.5)处理来自语言和视觉模态的输入,进行语义理解和推理,然后做出决策。对于视觉理解任务,模型直接向用户输出文本响应;对于更复杂的任务,如视觉分割、生成和编辑,模型需要向后端模块传递信号和指令。为此,我们提出了结合离散的文本指令和连续的信号嵌入的方法。前者有助于准确调用不同的后端模块,后者则提供了无法通过文本直接描述的、更丰富的视觉特征。模型输出包括:给用户的文本响应、用于模块调用的文本指令和特殊标记的特征嵌入。这些特征嵌入被划分为任务特定特征和任务不变的细粒度视觉-语言特征,都会传递给后端模块。
在后端,为了解决基于文本的大型语言模型在处理各种视觉任务时的不足,我们集成了多种现成的外部视觉专家模块,使 Vitron具备多种视觉任务的能力。当模型通过理解输入并识别用户意图生成调用细节后,相应的模块会被激活,产生非文本的输出。具体而言:
图像生成和编辑:集成了基于扩散模型的 GLIGEN 图像和视频分割:选择了 SEEM 视频生成:分别使用 ZeroScope 和 I2VGen-XL 处理文本到视频和图像到视频的转换 视频编辑:引入了 StableVideo
我们设计了一个结构化的调用模板,包括模块名称、调用命令和区域(可选),用于指定某些任务所需的细粒度视觉特征。特征嵌入包含任务特定特征和任务不变的细粒度特征,旨在实现特征的解耦,我们希望任务不变的细粒度特征能够在所有任务之间广泛共享,以增强不同任务之间的协同作用。
3.2 像素感知的协同视觉-语言理解微调
VITRON 的训练过程分为三个阶段,旨在赋予模型强大的多模态能力,包括理解、生成、像素级视觉感知,以及各任务之间的协同。
首先,我们进行基础的多模态理解和生成技能训练。目标是使模型具备基本的多模态理解和生成能力,实现编码器与大型语言模型(LLM)的前端对齐,以及 LLM 与解码器的后端对齐。为此,我们采用了以下方法:
视觉-语言对齐学习:确保输入的视觉和语言信息被映射到统一的特征空间。我们利用了包含“图像-标题”对(CC3M)、“视频-标题”对(Webvid)和“区域-标题”对(RefCOCO)的数据集。当提供图像、视频或特定视觉区域时,我们让冻结的 LLM 生成与参考标题对齐的文本描述。
文本调用指令微调:为了使 LLM 能够生成适当且准确的调用文本指令,我们收集了超过 55,000 个指令微调样本,增强模型精确执行命令的能力。
基于嵌入的解码器对齐微调:除了显式的文本指令外,我们还将 LLM 的信号特征嵌入输入到下游模块。通过解码端的投影层,将这些嵌入与所有视觉模块的输入编码器对齐,最小化它们之间的差异。
接下来,我们进行细粒度的时空视觉定位指令微调,以增强模型的像素级感知能力。核心思想是使 LLM 能够定位图像的精细空间信息和视频的详细时间信息:
图像空间定位:由于 LLM 只能输出文本,我们设计其输出对应的边界框区域。关注有定位的图像描述和指代图像分割任务。
视频时空定位:LLM 必须识别视频中的空间区域并在时间轴上定位,实现视频跟踪。我们探索了有定位的视频描述和指代视频跟踪等任务。
基于定位的视觉问答:为了赋予 LLM 高层次的视觉推理能力,我们引入了基于定位的视觉问答任务,包括图像问答和视频问答,使模型能够基于定位结果进行语义层面的问答。
最后,我们执行跨任务的协同学习,最大化所有任务之间共享的细粒度特征。我们将信号特征嵌入分解为任务特定特征和任务不变的细粒度特征。共享的任务不变特征在不同任务之间广泛共享,增强了各任务的协同效应。具体做法包括:
让不同的主干视觉专家基于这两个特征(拼接后)进行任务预测。
引入一个第三方判别器,仅基于共享特征来判断当前任务类别。理想情况下,当判别器无法准确识别任务时,说明共享特征具备更好的通用性。
通过以上三个阶段的训练,Vitron实现了对图像和视频的全面理解、生成、分割和编辑,展示了强大的多模态处理能力。
4 实验
4.1 主比较结果
我们在四个主要的视觉任务组上对 Vitron的性能进行了量化评估,涵盖了 22 个数据集中的 12 项任务。详细分析见论文。
4.2 定性可视化展示
我们进一步提供了一些case study可视化例子,展示了 VITRON 如何与用户以交互方式处理各种图像和视频任务。
4.3 分析
我们进一步通过深入的分析探索系统是如何以及为何取得成效的。
离散文本指令还是连续信号嵌入,哪个更好? 我们通过比较离散文本指令、连续信号嵌入和两者结合的混合方法,探究了哪种信息传递机制更适合构建多模态通用模型,结果发现混合方法性能最佳,其中文本指令有助于后端模块的成功执行,信号嵌入则提升了特定任务的性能。
每种细粒度视觉定位学习贡献多少? 我们通过消融实验验证了提出的细粒度视觉定位学习策略对不同下游任务的重要贡献,证实了这些策略的有效性。
Vitron是否真正实现了跨任务协同? 我们证明了协同学习模块成功促进了跨任务协同,对整体性能产生了积极影响,尤其显著提升了依赖细粒度视觉特征的任务表现。
致谢作者,本文系论文作者原创,已获得独家授权,转载请注明出处
关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
ECCV 2024|多模态学习不鲁棒?表示解耦打造稳健多模态学习新纪元
TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习
CVPR 2024|拥抱单模态不确定性,实现稳健多模态融合!电子科大与同济等联手突破多模态技术瓶颈!