GPT-4o掀起全模态热潮!一文梳理全模态大模型最新研究进展

科技   2024-12-19 20:38   北京  

随着 Gemini 和 GPT-4o 等系列的发布,本文尝试总结一些最近全模态相关的工作。采用联合文本、图像、语音和视频进行训练,用一个端到端的模型可以支持文本、语音和图像三个模态,在支持图生文的同时也支持文生图。



Emu

论文标题:

Emu: Generative Pretraining in Multimodality

论文地址:

https://arxiv.org/abs/2307.05222

代码地址:

https://github.com/baaivision/Emu

a. Visual Encoder:先用 EVA-CLIP 进行图像编码,然后通过 Causal Transformer 进行 2D 信息建模,query 是自定义的向量,key 和 value 来自于视觉编码。


b. LLM 阶段训练:用 LLM 进行 next-token 学习,文本 Token 算交叉熵,图像 Token 算 L2 loss。


c. Visual Decoder:采用 Stable Diffusion 进行初始化,将 LLM 输出的 visual embeddings 作为 conditions 输出到 Stable Diffusion,将 Stable Diffusion 的 cross-attention 的 linear projections 维度换成适配 visual embeddings 的。


d. Visual Decoder 阶段训练:只训练 U-Net,其他参数不变。



NExT-GPT

论文标题:

NExT-GPT: Any-to-Any Multimodal LLM

论文地址:

https://arxiv.org/abs/2309.05519

主页地址:

https://next-gpt.github.io/

a. 多模态编码阶段:利用用 ImageBind 的编码器,loss 是各个模态的 caption。


b. 多模解码阶段:主要目的是使扩散模型与 LLM 的输出指令保持一致,最小化 LLM 的模态信号 token 表示与扩散模型(图像合成的 Stable Diffusion、视频合成的 Zeroscope 和音频合成的 AudioLDM)的条件文本表示之间的距离,确保了高度轻量级的训练。遵循和理解用户指令并生成所需多模态输出,只训练不同模态的 Linear 和 Lora,同时增加扩散的 Loss。



Emu2

论文标题:

Generative Multimodal Models are In-Context Learners

论文地址:

https://arxiv.org/abs/2312.13286

主页地址:

https://baaivision.github.io/emu2

a. Visual Encoder 使用 EVA-02-CLIP-E-plus,LLM 使用 LLaMA-33B,Visual Decoder 使用 SDXL。


b. 一阶段:在图像和视频 pair 对上进行 caption 学习。


c. 二阶段:Freeze Visual Encoder,使用 text classification loss and image regression loss。


d. 三阶段:训练 Visual Decoder,和 Emu1 区别是训练的时候不用 LLM 输出的 visual token,直接用 Visual Encoder 的输出,还是只训练 U-Net,其他参数不变。



LWM

论文标题:

World Model on Million-Length Video And Language With Blockwise RingAttention

论文地址:

https://arxiv.org/abs/2402.08268

主页地址:

https://largeworldmodel.github.io/lwm/


a. Visual Encoder:VQGAN 做离散化,256*256 分辨率 -> 256 tokens。


b. 训练:next-token 预测,主要为了解决长序列使用了 RingAttention, Blockwise Transformers, masked sequence packing。



Chameleon
论文标题:

Chameleon: Mixed-Modal Early-Fusion Foundation Models

论文地址:

https://arxiv.org/abs/2405.09818

主页地址:

https://github.com/facebookresearch/chameleon

a. Visual Encoder:VQ-VAE 进行图像 token 离散化,512*512->1024 tokens,词表 8192。


b. 训练:next-token 预测



SEED

论文标题:

Planting a SEED of Vision in Large Language Model

论文地址:

https://arxiv.org/abs/2307.08041

主页地址:

https://github.com/AILab-CVC/SEED

a. 训练 tokenizer:先训练 Causal Q-Former,使用 SD 的 Text Encoder 进行对比 Loss。然后进行 Visual Quantization and De-tokenization 学习,将 Genearation Embedding 和 SD 的 Text Encoder 的输入靠近,其中 ViT Encoder 和 SD Decoder 参数不参与学习。


b. LLM 阶段训练:进行 next token 预测



Transfusion

论文标题:

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

论文地址:

https://arxiv.org/abs/2408.11039

主页地址:

https://github.com/lucidrains/transfusion-pytorch

a. 利用 VAE encode 和 decode 图像,Linear 换成 U-net


b. 文本做自回归,图像做自编码,利用 transfomer 实现扩散,进行多步生。



Show-o

论文标题:

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

论文地址:

https://arxiv.org/abs/2408.12528

主页地址:

https://github.com/showlab/Show-o

a. 整体思路和 Transfusion 类似,区别是尝试了 discrete diffusion(比如 MaskGIT 和 Muse,其中 Muse 多了一个超分辨率模型学习高层次的语义,不能说明 continuous 比 discrete 的要好,discrete image tokenizer 没有像 clip 那样用超大规模图文对训练),图像用 MAGVIT-v2 进行离散化,256*256 分辨率->256 tokens。


b. 图像生成部分利用 MaskGIT(自回归解码的方法里面,生成后面的 token 时候需要前面所有的 tokens 的信息,这个过程不能够并行,图像改成双向注意力可以并行。


最近的 DeepMind 的 FLUID 消融实验 Random Order 预测 + Token 连续方式效果好一些)方式,使用 mask 方式多步生成图像,具体在是每次迭代中,模型同时预测所有 tokens,但只保留置信度最高的 tokens,剩余的 tokens 在下一次迭代中重新预测,掩码的比例逐渐减少,直到所有 tokens 在多次迭代内生成。



Emu3

论文标题:

Emu3: Next-Token Prediction is All You Need

论文地址:

https://arxiv.org/abs/2409.18869

主页地址:

https://emu.baai.ac.cn/

a. 图像基于SBER-MoVQGAN训练一个离散化tokenzier,512*512->4096 tokens,词表大小 32768。


b. Next-Token 预测,可能是因为生成和理解相互影响,最后分成了两个模型(理解、生成)。



总结

近期多模态大模型发展迅速,目前主流还是图生文和文生图分开,图生文采用 VIT+LLM 的方式,文生图采用 Duffsion 的方式。随着全模态大模型的发展,也大概能分成 token 离散化、AR+diffusion 融合和将 LLM 输出的 Visual Embeddings 作为 Stable Diffusion 的 Text Conditions 的方式。


目前每种方式都各有利弊,都是还处在前期阶段,但是相信全模态大模型在未来应该是一个值得探索的方向,实现端到端的多模态训练、集成全模态输入输出和强大的多模态理解与生成能力。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
 最新文章