GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

科技 2024-12-19 20:38 北京

随着 Gemini 和 GPT-4o 等系列的发布，本文尝试总结一些最近全模态相关的工作。采用联合文本、图像、语音和视频进行训练，用一个端到端的模型可以支持文本、语音和图像三个模态，在支持图生文的同时也支持文生图。

Emu

论文标题：

Emu: Generative Pretraining in Multimodality

论文地址：

https://arxiv.org/abs/2307.05222

代码地址：

https://github.com/baaivision/Emu

a. Visual Encoder：先用 EVA-CLIP 进行图像编码，然后通过 Causal Transformer 进行 2D 信息建模，query 是自定义的向量，key 和 value 来自于视觉编码。

b. LLM 阶段训练：用 LLM 进行 next-token 学习，文本 Token 算交叉熵，图像 Token 算 L2 loss。

c. Visual Decoder：采用 Stable Diffusion 进行初始化，将 LLM 输出的 visual embeddings 作为 conditions 输出到 Stable Diffusion，将 Stable Diffusion 的 cross-attention 的 linear projections 维度换成适配 visual embeddings 的。

d. Visual Decoder 阶段训练：只训练 U-Net，其他参数不变。

NExT-GPT

论文标题：

NExT-GPT: Any-to-Any Multimodal LLM

论文地址：

https://arxiv.org/abs/2309.05519

主页地址：

https://next-gpt.github.io/

a. 多模态编码阶段：利用用 ImageBind 的编码器，loss 是各个模态的 caption。

b. 多模解码阶段：主要目的是使扩散模型与 LLM 的输出指令保持一致，最小化 LLM 的模态信号 token 表示与扩散模型（图像合成的 Stable Diffusion、视频合成的 Zeroscope 和音频合成的 AudioLDM）的条件文本表示之间的距离，确保了高度轻量级的训练。遵循和理解用户指令并生成所需多模态输出，只训练不同模态的 Linear 和 Lora，同时增加扩散的 Loss。

Emu2

论文标题：

Generative Multimodal Models are In-Context Learners

论文地址：

https://arxiv.org/abs/2312.13286

主页地址：

https://baaivision.github.io/emu2

a. Visual Encoder 使用 EVA-02-CLIP-E-plus，LLM 使用 LLaMA-33B，Visual Decoder 使用 SDXL。

b. 一阶段：在图像和视频 pair 对上进行 caption 学习。

c. 二阶段：Freeze Visual Encoder，使用 text classification loss and image regression loss。

d. 三阶段：训练 Visual Decoder，和 Emu1 区别是训练的时候不用 LLM 输出的 visual token，直接用 Visual Encoder 的输出，还是只训练 U-Net，其他参数不变。

LWM

论文标题：

World Model on Million-Length Video And Language With Blockwise RingAttention

论文地址：

https://arxiv.org/abs/2402.08268

主页地址：

https://largeworldmodel.github.io/lwm/

a. Visual Encoder：VQGAN 做离散化，256*256 分辨率 -> 256 tokens。

b. 训练：next-token 预测，主要为了解决长序列使用了 RingAttention, Blockwise Transformers, masked sequence packing。

Chameleon

论文标题：

Chameleon: Mixed-Modal Early-Fusion Foundation Models

论文地址：

https://arxiv.org/abs/2405.09818

主页地址：

https://github.com/facebookresearch/chameleon

a. Visual Encoder：VQ-VAE 进行图像 token 离散化，512*512->1024 tokens，词表 8192。

b. 训练：next-token 预测

SEED

论文标题：

Planting a SEED of Vision in Large Language Model

论文地址：

https://arxiv.org/abs/2307.08041

主页地址：

https://github.com/AILab-CVC/SEED

a. 训练 tokenizer：先训练 Causal Q-Former，使用 SD 的 Text Encoder 进行对比 Loss。然后进行 Visual Quantization and De-tokenization 学习，将 Genearation Embedding 和 SD 的 Text Encoder 的输入靠近，其中 ViT Encoder 和 SD Decoder 参数不参与学习。

b. LLM 阶段训练：进行 next token 预测

Transfusion

论文标题：

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

论文地址：

https://arxiv.org/abs/2408.11039

主页地址：

https://github.com/lucidrains/transfusion-pytorch

a. 利用 VAE encode 和 decode 图像，Linear 换成 U-net

b. 文本做自回归，图像做自编码，利用 transfomer 实现扩散，进行多步生。

Show-o

论文标题：

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

论文地址：

https://arxiv.org/abs/2408.12528

主页地址：

https://github.com/showlab/Show-o

a. 整体思路和 Transfusion 类似，区别是尝试了 discrete diffusion（比如 MaskGIT 和 Muse，其中 Muse 多了一个超分辨率模型学习高层次的语义，不能说明 continuous 比 discrete 的要好，discrete image tokenizer 没有像 clip 那样用超大规模图文对训练），图像用 MAGVIT-v2 进行离散化，256*256 分辨率->256 tokens。

b. 图像生成部分利用 MaskGIT（自回归解码的方法里面，生成后面的 token 时候需要前面所有的 tokens 的信息，这个过程不能够并行，图像改成双向注意力可以并行。

最近的 DeepMind 的 FLUID 消融实验 Random Order 预测 + Token 连续方式效果好一些）方式，使用 mask 方式多步生成图像，具体在是每次迭代中，模型同时预测所有 tokens，但只保留置信度最高的 tokens，剩余的 tokens 在下一次迭代中重新预测，掩码的比例逐渐减少，直到所有 tokens 在多次迭代内生成。

Emu3

论文标题：

Emu3: Next-Token Prediction is All You Need

论文地址：

https://arxiv.org/abs/2409.18869

主页地址：

https://emu.baai.ac.cn/

a. 图像基于SBER-MoVQGAN训练一个离散化tokenzier，512*512->4096 tokens，词表大小 32768。

b. Next-Token 预测，可能是因为生成和理解相互影响，最后分成了两个模型（理解、生成）。

总结

近期多模态大模型发展迅速，目前主流还是图生文和文生图分开，图生文采用 VIT+LLM 的方式，文生图采用 Duffsion 的方式。随着全模态大模型的发展，也大概能分成 token 离散化、AR+diffusion 融合和将 LLM 输出的 Visual Embeddings 作为 Stable Diffusion 的 Text Conditions 的方式。

目前每种方式都各有利弊，都是还处在前期阶段，但是相信全模态大模型在未来应该是一个值得探索的方向，实现端到端的多模态训练、集成全模态输入输出和强大的多模态理解与生成能力。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

最新文章

大语言模型的知识蒸馏（KD）应该用Reverse KL？

AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

北京内推 | 高通中国招聘端到端AI模型量化研发实习生

低秩近似之路（四）：插值分解（Interpolative Decomposition）

NeurIPS 2024 | 基于信息论，决策模型有了全新预训练范式统一框架

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

北京内推 | 微软亚洲研究院通用人工智能组招聘大模型算法实习生

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025 | 浙大、蚂蚁等提出全新跨域微调框架，构筑更好的大模型隐私保护

博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

直播预约 | 字节跳动豆包大模型团队NeurIPS 2024中选论文今晚精讲！

北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

北京内推 | 阿里妈妈搜索广告算法团队招聘广告算法实习生

为什么说在中国做科研最忌讳踏实？

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

模仿、探索与自我提升：慢思考推理系统的复现之路

博士申请 | 密歇根大学计算机视觉实验室高俊老师招收3D生成方向博士生

AAAI 2025接收结果出炉！Mamba魔改再次爆发

KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

谷歌“狙击”OpenAI，发布新一代大模型Gemini 2.0！主打Agent+多模态

北京内推 | 启元实验室大模型团队招聘多模态大模型算法实习生

NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

博士申请 | 伊利诺伊大学香槟分校张欢老师招收人工智能全奖博士/硕士/博后/实习生

Muon优化器赏析：向量与矩阵有何本质区别？

NeurIPS 2024 | 中科院自动化所提出MetaLA！线性模型架构的大一统

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

上海内推 | 中国电信人工智能研究院招聘智能编码方向算法实习生

NeurIPS 2024 | 让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

北理工重磅开启「流星雨计划」，深度探究大模型的自我进化能力

博士申请 | 香港城市大学苗宁老师招收LLM Reasoning方向全奖博士/RA

简单有效！Vector Quantization的又一技巧：给编码表加一个线性变换

CIKM 2024 | 通过学习相对偏好，利用预训练语言模型缓解流行度偏差

UCL、上交大等提出自然语言强化学习范式：可处理语言反馈的强化学习框架

北京师范大学智能技术与教育应用教育部招聘工程研究中心科研助理

ACL 2024 | 多快好省！上科大提出层间KV共享的大模型高效推理新方法

上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

博士申请 | 南京大学-NTU-CMU招收人工智能方向联培博士/实习生

【内含双12福利】今年读过最绝的一本LLM书！下载量10W+！看完少走一半弯路

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉