今日论文推荐
论文名:VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation
论文链接:https://arxiv.org/pdf/2409.04429.pdf
开源代码:https://github.com/mit-han-lab/vila-u
导读
近年来,大型语言模型(LLMs)在各种语言任务中展现出了卓越的能力。它们吸引人的特性,如指令遵循、零样本泛化和少样本上下文学习,激发了研究人员将它们与视觉模型结合起来,构建视觉语言模型(VLMs),用于多模态任务。许多努力已经投入到这一领域,取得了在视觉语言理解基准测试上的显著性能。在这些工作中,通过像CLIP这样的视觉基础模型将视觉输入投影到LLMs的语义空间上,以包括文本-图像对齐训练目标来桥接两种模态。
除了视觉理解之外,结合视觉和语言模态的另一个重要研究方向是视觉生成。有两种流行的文本引导图像生成方法。一种方法采用扩散模型,这是各种生成任务的强大工具。另一条工作线通过向量量化(VQ)将视觉内容转换为离散标记,然后利用自回归变换器进行高质量和多样化的生成。
简介
VILA-U是一个统一的基础模型,它整合了视频、图像、语言理解和生成。传统的视觉语言模型(VLMs)使用独立的模块来理解和生成视觉内容,这可能导致对齐不当和复杂性增加。相比之下,VILA-U采用单一的自回归下一个词预测框架来处理这两个任务,消除了像扩散模型这样的额外组件需求。这种方法不仅简化了模型,而且在视觉语言理解和生成方面实现了接近最先进的性能。VILA-U的成功归功于两个主要因素:在预训练期间将离散的视觉标记与文本输入对齐的统一视觉塔,增强了视觉感知;自回归图像生成可以在高质量数据集上实现与扩散模型相似的质量。这使得VILA-U能够使用完全基于标记的自回归框架与更复杂的模型相媲美。
方法与模型
本工作提出了一种旨在有效高效统一视觉和语言模态的多模态框架。实现这种统一的关键组件是一个统一的基座视觉塔,它将视觉输入转换为与文本对齐的离散标记,以及一个统一的多模态生成训练程序。我们框架内的主要多模态训练和推理过程的概述如图1所示。
统一视觉基座
为了支持多样化的视觉理解和生成任务,我们首先构建了一个统一的基座视觉塔来提供适当的视觉特征。我们提议在我们的视觉塔训练中包括文本-图像对比损失和基于VQ的图像重建损失,以增强我们的视觉塔的文本对齐和离散标记化能力。如图2所示,从图像中提取的特征主要是通过残差量化离散化的。在一条路径上,离散视觉特征被输入到解码器中以重建图像并计算重建损失;在另一条路径上,我们计算离散视觉特征与文本编码器提供的文本特征之间的图像-文本对比损失。通过这种训练过程,视觉塔学会了提取适合理解和生成我们的VLM的离散特征。
我们使用加权和来结合文本-图像对比损失和基于VQ的图像重建损失:
残差向量量化
我们的视觉特征是离散量化的,因此它们的表示能力严重依赖于我们量化器中使用的代码大小。由于我们希望它们包含高级和低级特征,我们需要在它们的向量特征空间中有更多的容量,这使得下游任务中的良好性能需要更大的代码大小。然而,每张图像的太多代码会导致LLM在视觉生成过程中产生过多的标记,从而带来很大的延迟。因此,在尝试增加向量特征容量并同时保持LLM合理的标记数量时,我们采用了RQ-VAE[33]后的残差向量量化方法,将向量z离散化为D个离散代码:
直观上,在每个深度中,我们选择一个代码来减少量化误差。因此,与标准的向量量化方法相比,我们有D个代码来量化一个向量,允许更精细的近似和更大的特征空间。在多模态训练和推理期间,LLM只需要预测代码嵌入,不同深度的代码通过深度变换器依次产生,深度变换器以代码嵌入作为初始输入。因此,通过这种残差量化,我们可以在不增加太多延迟的情况下增强我们的视觉塔的表示能力。
统一的多模态生成预训练
我们的视觉塔编码器顺序处理视觉输入,生成一个1D令牌序列。然后将这个序列与文本令牌连接起来形成多模态序列。为了区分模态并启用视觉内容生成,我们在图像令牌的开始和结束处插入特殊令牌:<image_start>和<image_end>,在视频令牌的开始和结束处插入<video_start>和<video_end>。视频令牌是多帧图像令牌的直接连接。
训练目标。由于视觉标记和文本标记都是离散的,我们可以用通用语言建模的下一词预测目标来训练我们的LLM。然而,由于对视觉标记使用了残差量化,文本和视觉标记的训练目标略有不同。对于文本标记,负对数似然损失计算如下:
实验与结果
在我们的实验中,我们采用LLaMA-2-7B作为我们的基础语言模型。对于视觉塔,我们选择SigLIP-Large-patch16-256/SigLIP-SO400M-patch14-384作为我们的视觉编码器架构,并采用了RQ-VAE中的残差量化器、深度变换器和解码器架构。量化器码本大小为16384。所有图像和视频都被调整到256 x 256/ 384 x 384的分辨率,每个图像或视频帧被转换成16 x16 x4/27 x27 x16的代码,残差深度D=4/D=16。我们在COYO-700M上训练我们的视觉塔,并在ImageNet上评估其零样本分类和重建性能。对于视觉理解,我们利用ShareGPT4V[10]的1M[image, text]数据,MMC4的6M交错文本和图像数据。在视觉生成方面,我们整合了来自内部数据集的1500万高质量[文本、图像]数据和来自OpenVid数据集的100万[文本、视频]数据。对于视觉生成,我们采用了无分类器指导,CFG值为3。
定量分析结果
视觉理解任务。表2和表3分别总结了我们的方法与其他领先VLM在图像语言和视频语言基准测试上的比较。与像CLIP这样的基础模型产生的连续视觉标记的主流选择相比,基于VQGAN的离散视觉标记与文本的对齐性较差,从而损害了VLM在视觉理解任务上的表现。有了我们统一的基座视觉塔,我们的模型即使使用离散视觉标记,也能接近领先VLM的性能。
我们的方法在与SD v2.1和SD-XL在高级提示上的性能相当,即使是在使用较少级别的数据训练的先进提示上。这进一步表明,VILA-U能够有效地且高效地学习视觉和文本模态之间的相关性,与我们统一的训练框架相结合。
可视化结果
总结
我们提出了VILA-U,这是一个新颖且统一的视觉语言模型,它将视频、图像和语言理解与生成任务整合到一个自回归的下一词预测框架中。我们的方法不仅比大多数利用扩散模型等额外组件来统一视觉生成和理解的VLM更为简洁,而且还证明了自回归方法可以实现与最先进的VLM相当的性能。我们的成功归功于一个统一的基座视觉塔,它在预训练期间将离散的视觉特征与文本对齐,以及一个适合视觉理解和生成训练的高质量数据集。我们相信VILA-U可以作为通用框架,用于多样化的视觉语言任务。
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!