点击上方蓝字关注我们
Auto-Encoding Morph-Tokens for Multimodal LLM
作者: Kaihang Pan, Siliang Tang, Juncheng Li, Zhaoyu Fan, Wei Chow, et al.
作者单位: 浙江大学、新加坡国立大学、Skywork AI 、南洋理工大学
论文链接:
https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/11614.pdf
代码链接:
https://github.com/DCDmllm/MorphTokens
简介
对于多模态 LLM,视觉理解(文本输出)和生成(视觉输出)的协同作用是一个持续的挑战。因为其目标是相冲突的:一方面,为了理解,MLLM 需要抽象视觉效果;另一方面,为了生成,它需要尽可能地保留视觉效果。因此,对于视觉tokens来说,目标是一个两难的境地。为了解决冲突,文中将图像编码为变形标记(morph-tokens)以实现双重目的:为了理解,它们充当视觉提示,指示 MLLM 生成文本;为了生成,它们承担不同的、不冲突的角色,作为用于图像重建的完整视觉标记,其中缺失的视觉提示由 MLLM 恢复。大量实验表明,变形标记可以同时实现多模态理解和生成的新 SOTA。
研究动机
图 1. 现有 MLLM 与本文方法比较。主要区别在于 MLLM 之前和之后的视觉标记在训练时间上是相等的。
现有的解决方案很简单。如图 1 所示,它们分为三个步骤:
1)通过标记器将图像编码为视觉tokens;
这些预 MLLM 视觉 tokens被输入 MLLM 以完成视觉语言理解任务,其中 MLLM 通常是从预先训练的 LLM 初始化的,
后 MLLM 视觉tokens用于重建输入训练中的图像或生成新图像,例如测试中的图像编辑。
然而,理解与生成的协同作用并未实现。主要挑战在于 MLLM 的理解任务和生成任务的训练目标相互冲突。由于需要视觉抽象,理解可能会丢弃视觉特征,即 MLLM 训练鼓励图像标记器输出与任务无关的视觉变化不变的预 MLLM 视觉tokens——从图像到标记的多对一映射;相反,生成需要尽可能多地保留视觉细节,即,MLLM 后的视觉标记应该与所有视觉变化等价——从标记到图像的一对一映射。MLLM 前后视觉标记之间的平等要求在多模态标记序列的自回归训练中造成了困境。
论文贡献
文中提出 Morph-Tokens 来解决上述冲突。
如图 1 所示,术语“morph”意味着一种变换,其中前 MLLM 视觉标记不一定等于后 MLLM 视觉标记。具体来说,MLLM 之前的标记是抽象语义,充当理解任务的视觉提示。相比之下,后 MLLM token是用于图像生成的视觉上完整的tokens,这要归功于 MLLM 强大的理解能力,可以恢复由于抽象而丢失的视觉特征。 文中提出了一个 3 阶段的训练策略。通过使用变形标记来分离文本和图像重建损失。
图 3.所提出的3 阶段训练策略。AR:自回归。
第 1 阶段: 如图 3(a) 所示,使用图像-文本对来训练 morph-token 编码器和 MLLM(由 LLM 初始化)以自动回归连接的 morph-token 和文本-token 序列。此阶段扩大了token词汇量,从 LLM 过渡到 MLLM。请注意,尽管此阶段要求 MLLM 之前和之后的变形标记之间相等,但由于缺乏视觉生成目标,因此不会发生冲突。
第 2 阶段: 如图 3(b) 所示,使用相同的图像文本对通过理解和生成任务来训练变形token编码器、MLLM 和解码器。为了理解,即图像字幕,预 MLLM 变形标记充当视觉提示,指示 MLLM 生成图像的文本字幕;对于生成,即文本到图像的生成,后 MLLM 变形token作为视觉上完整的令牌来重建输入图像,发挥着不同的、不冲突的作用。这个阶段可以看作是一个自动编码过程,其独特之处在于它没有固定的变形token瓶颈。
第 3 阶段: 与第 2 阶段类似,我们使用各种视觉语言任务,包括理解(例如 VQA)和生成(例如图像编辑)来对所有内容进行指令调整。
方法
图 4. (a) 编码器。(b) 对于理解任务,预 MLLM 形态标记指示 MLLM 生成文本。(c) 对于生成任务,MLLM 后的变形token首先被解码为较低级别的视觉标记(蓝色)。然后,它们被输入 VQ-GAN 解码器以生成高保真图像
Encoder
如图 4(a) 所示,给定从图像中提取的视觉标记 V,即通过 CLIP-ViT,通过将这些视觉效果转换为变形标记 M 来抽象它们,作为理解任务的视觉提示。如图 4(a) 所示,文中使用 Q-former 将 V 抽象为token嵌入,然后将其量化为离散的变形 token M:
给定一组可学习的查询向量 G,将 D 初始化为预训练 ViT-VQGAN 的学习字典,并采用单层 Q-former 来获得 Q:
Morph-token-based MLLM
将 V 转换为 M 后,即基于变形标记的 MLLM,其中前 MLLM 变形标记 M 不一定等于后 MLLM 的 。具体来说,如图 4 (b&c) 所示,对于理解任务, M 作为视觉提示,指示 MLLM 生成文本标记 Y;对于生成任务,MLLM 生成另一组后 MLLM 变形标记,它恢复 M 丢失的视觉特征,因此可以生成图像。这样,M和有效地解决了视觉理解和生成的相互冲突的目标。然而,M 本身还不能生成高保真度的图像,因为强制 MLLM 恢复所有高频视觉细节是不合理的。因此,我们需要进一步将 解码为较低级别的视觉标记 X,最终可以通过 VQGAN 解码回像素。
Decoder
其主要思想是让较低级别的视觉标记自动回归生成自己的视觉分布,有助于解决 MLLM 训练期间的冲突。如图4(c)所示,
训练策略
训练采用上文中提到基于 morph-token 的 MLLM 的 3 阶段策略,如图 3 所示。具体实施细节可阅读原文。
实验结果
表 2. 多模态理解的比较。“Image Gen”表示模型是否可以生成除文本之外的图像(Emu-I和Emu2-Chat仅在指令调优之前的版本中具备图像生成功能)。
表 3. DEMON Benchmark 各任务类别的零样本评估平均结果。
图 5. 多轮图像编辑和多模态上下文理解的定性结果
致谢作者,关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
TIP 2024|Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示
NeurIPS 2023|浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示
TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习