GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

科技 2024-12-22 00:01 吉林

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | PaperWeekly

随着 Gemini 和 GPT-4o 等系列的发布，本文尝试总结一些最近全模态相关的工作。采用联合文本、图像、语音和视频进行训练，用一个端到端的模型可以支持文本、语音和图像三个模态，在支持图生文的同时也支持文生图。

Emu

论文标题：

Emu: Generative Pretraining in Multimodality

论文地址：

https://arxiv.org/abs/2307.05222

代码地址：

https://github.com/baaivision/Emu

a. Visual Encoder：先用 EVA-CLIP 进行图像编码，然后通过 Causal Transformer 进行 2D 信息建模，query 是自定义的向量，key 和 value 来自于视觉编码。

b. LLM 阶段训练：用 LLM 进行 next-token 学习，文本 Token 算交叉熵，图像 Token 算 L2 loss。

c. Visual Decoder：采用 Stable Diffusion 进行初始化，将 LLM 输出的 visual embeddings 作为 conditions 输出到 Stable Diffusion，将 Stable Diffusion 的 cross-attention 的 linear projections 维度换成适配 visual embeddings 的。

d. Visual Decoder 阶段训练：只训练 U-Net，其他参数不变。

NExT-GPT

论文标题：

NExT-GPT: Any-to-Any Multimodal LLM

论文地址：

https://arxiv.org/abs/2309.05519

主页地址：

https://next-gpt.github.io/

a. 多模态编码阶段：利用用 ImageBind 的编码器，loss 是各个模态的 caption。

b. 多模解码阶段：主要目的是使扩散模型与 LLM 的输出指令保持一致，最小化 LLM 的模态信号 token 表示与扩散模型（图像合成的 Stable Diffusion、视频合成的 Zeroscope 和音频合成的 AudioLDM）的条件文本表示之间的距离，确保了高度轻量级的训练。遵循和理解用户指令并生成所需多模态输出，只训练不同模态的 Linear 和 Lora，同时增加扩散的 Loss。

Emu2

论文标题：

Generative Multimodal Models are In-Context Learners

论文地址：

https://arxiv.org/abs/2312.13286

主页地址：

https://baaivision.github.io/emu2

a. Visual Encoder 使用 EVA-02-CLIP-E-plus，LLM 使用 LLaMA-33B，Visual Decoder 使用 SDXL。

b. 一阶段：在图像和视频 pair 对上进行 caption 学习。

c. 二阶段：Freeze Visual Encoder，使用 text classification loss and image regression loss。

d. 三阶段：训练 Visual Decoder，和 Emu1 区别是训练的时候不用 LLM 输出的 visual token，直接用 Visual Encoder 的输出，还是只训练 U-Net，其他参数不变。

LWM

论文标题：

World Model on Million-Length Video And Language With Blockwise RingAttention

论文地址：

https://arxiv.org/abs/2402.08268

主页地址：

https://largeworldmodel.github.io/lwm/

a. Visual Encoder：VQGAN 做离散化，256*256 分辨率 -> 256 tokens。

b. 训练：next-token 预测，主要为了解决长序列使用了 RingAttention, Blockwise Transformers, masked sequence packing。

Chameleon

论文标题：

Chameleon: Mixed-Modal Early-Fusion Foundation Models

论文地址：

https://arxiv.org/abs/2405.09818

主页地址：

https://github.com/facebookresearch/chameleon

a. Visual Encoder：VQ-VAE 进行图像 token 离散化，512*512->1024 tokens，词表 8192。

b. 训练：next-token 预测

SEED

论文标题：

Planting a SEED of Vision in Large Language Model

论文地址：

https://arxiv.org/abs/2307.08041

主页地址：

https://github.com/AILab-CVC/SEED

a. 训练 tokenizer：先训练 Causal Q-Former，使用 SD 的 Text Encoder 进行对比 Loss。然后进行 Visual Quantization and De-tokenization 学习，将 Genearation Embedding 和 SD 的 Text Encoder 的输入靠近，其中 ViT Encoder 和 SD Decoder 参数不参与学习。

b. LLM 阶段训练：进行 next token 预测

Transfusion

论文标题：

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

论文地址：

https://arxiv.org/abs/2408.11039

主页地址：

https://github.com/lucidrains/transfusion-pytorch

a. 利用 VAE encode 和 decode 图像，Linear 换成 U-net

b. 文本做自回归，图像做自编码，利用 transfomer 实现扩散，进行多步生。

Show-o

论文标题：

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

论文地址：

https://arxiv.org/abs/2408.12528

主页地址：

https://github.com/showlab/Show-o

a. 整体思路和 Transfusion 类似，区别是尝试了 discrete diffusion（比如 MaskGIT 和 Muse，其中 Muse 多了一个超分辨率模型学习高层次的语义，不能说明 continuous 比 discrete 的要好，discrete image tokenizer 没有像 clip 那样用超大规模图文对训练），图像用 MAGVIT-v2 进行离散化，256*256 分辨率->256 tokens。

b. 图像生成部分利用 MaskGIT（自回归解码的方法里面，生成后面的 token 时候需要前面所有的 tokens 的信息，这个过程不能够并行，图像改成双向注意力可以并行。

最近的 DeepMind 的 FLUID 消融实验 Random Order 预测 + Token 连续方式效果好一些）方式，使用 mask 方式多步生成图像，具体在是每次迭代中，模型同时预测所有 tokens，但只保留置信度最高的 tokens，剩余的 tokens 在下一次迭代中重新预测，掩码的比例逐渐减少，直到所有 tokens 在多次迭代内生成。

Emu3

论文标题：

Emu3: Next-Token Prediction is All You Need

论文地址：

https://arxiv.org/abs/2409.18869

主页地址：

https://emu.baai.ac.cn/

a. 图像基于SBER-MoVQGAN训练一个离散化tokenzier，512*512->4096 tokens，词表大小 32768。

b. Next-Token 预测，可能是因为生成和理解相互影响，最后分成了两个模型（理解、生成）。

总结

近期多模态大模型发展迅速，目前主流还是图生文和文生图分开，图生文采用 VIT+LLM 的方式，文生图采用 Duffsion 的方式。随着全模态大模型的发展，也大概能分成 token 离散化、AR+diffusion 融合和将 LLM 输出的 Visual Embeddings 作为 Stable Diffusion 的 Text Conditions 的方式。

目前每种方式都各有利弊，都是还处在前期阶段，但是相信全模态大模型在未来应该是一个值得探索的方向，实现端到端的多模态训练、集成全模态输入输出和强大的多模态理解与生成能力。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

机器学习算法与自然语言处理

关注AI前沿技术，助力AI学者进步

最新文章

OpenAI研究员、思维树作者姚顺雨专访：人生是一场无限流游戏丨独家

游凯超：我与vLLM的2024，很Passion！

多模态可解释人工智能综述：过去、现在与未来

英伟达年终核弹！全新B300为o1推理大模型打造，RTX5090也曝光了

OpenAI-o3 与 Monte-Carlo 思想

DeepMind最新研究：逆向思维训练LLM可大幅提升AI推理能力

五道送命题，彻底暴露了国内外AI们的情商...

Karpathy力荐博客：写代码的时候，请心疼一下读代码的同事

长文本+o1？评估LLM在真实世界长文本多任务中的深度理解与推理能力

Nature发布，AI 全球100强！

Qwen2.5技术报告解读

多模态大模型在表格解析任务上效果如何？亲身经历全是泪！

香港大学、新加坡国立大学、启元实验室、清华大学等知名学者重磅来袭！

Agent操纵手机/电脑屏幕的全面综述

LLM 又过了一年！！！

我国退步最快的985大学？曾位列全国前十，如今排名连年下降...

o1复现的一点点心得

Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

中国工程院院士孙凝晖给正国级、副国级讲课的万字长稿《人工智能与智能计算的发展》

ICLR 2025 多语言大模型相关论文速览

大模型时代的具身智能

颜宁：明年我只参加已经接受了邀请的学术会议，不接受国内任何个人或者单位的邀请做学术报告

对OpenAI o3模型的看法、思考与反思

是时候停止炒作「o3是AGI」了！背后15人安全对齐团队大盘点

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

雷军大学时候的论文，不需要参考文献

OpenAI o1如何炼成？原理逆向工程图解

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

人大教授张鸣：退休之际，讲点废话（这也太敢言了）

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

近期必看的多模态大模型进展：从Qwen2-VL到Pixtral

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

《一书解决几乎所有机器学习问题》.PDF下载

16种新型RAG最新进展

李飞飞：World Labs这样实现「空间智能」

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

OpenAI发布49页长文，讲述o1的安全机制

谷歌Willow量子芯片逆天出世！5分钟颠覆10亿亿亿计算极限，马斯克奥特曼惊叹

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora开服被挤爆！支持中文/编剧模式/作品分享，145块就能玩

今日最佳 AI 论文：简单蒸馏训练，就能超越 o1-preview？

5分钟完成最强超算10^25年工作，谷歌量子芯片重大突破，马斯克、奥特曼齐祝贺

困扰数学家近60年的搬沙发难题疑似被解决！119页论文证明最优解，百万网友围观

英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜

LLM不会CoT隐性推理，只会显性推理！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉