Transfusion: 单一Transformer架构中同时处理离散数据(文本) 和连续数据（图像）

文摘 2024-12-11 12:55 新加坡

介绍《Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model》

大家好，今天为大家分享一篇关于多模态生成模型的研究论文——《Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model》。该论文提出了一种新方法，能够在。这一方法通过联合语言建模和扩散模型的目标，展示了多模态生成任务在性能和计算效率上的突破，为构建统一多模态生成框架提供了重要启发。

1. 基本信息

标题: Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
作者: Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, Omer Levy
研究机构: Meta, Waymo, University of Southern California
发表时间与平台: 2024年8月，arXiv
DOI或链接: https://arxiv.org/abs/2408.11039

1. 主要内容

这篇论文主要探讨如何在单一Transformer架构中融合处理离散和连续数据的能力，通过联合语言建模的“Next-token Prediction”目标和扩散模型的“去噪”目标，实现对文本和图像的高效建模。其核心贡献包括：

提出了一种无需离散化图像的训练框架，使得模型能够同时生成文本和图像。
证明了该方法在多模态生成任务上比传统方法更高效，尤其在计算量有限的场景中。
展示了Transfusion在扩展规模时的性能优势，建立了多模态生成的新的基准。

推荐这篇论文的理由在于其为解决多模态建模挑战提供了一种新路径，显著改善了多模态任务的生成效果，同时提升了计算效率。

2. 研究背景

在生成式AI的快速发展中，文本生成和图像生成分别由语言模型（LLM）和扩散模型主导。然而，这两类模型擅长处理不同模态的数据，各自的优势难以直接迁移到另一模态：

离散模态（如文本）：语言模型通过“下一词预测”任务训练，能够高效捕捉语言语义和上下文关系，在文本生成、问答等任务中表现优异。
连续模态（如图像）：扩散模型通过逆向噪声去除学习生成高质量图像，是目前图像生成的主流方法。

现有方法局限

模态分离：大多数方法依赖于将离散模态（文本）与连续模态（图像）分别建模，难以在一个框架中同时处理两种模态。
图像离散化的劣势：传统方法将图像量化为离散令牌后再与文本共同建模，简化了模型架构，但带来了信息损失，尤其是图像细节。
计算效率瓶颈：现有多模态方法通常需要高昂的计算资源，难以在有限算力下扩展。

作者提出了一种新的训练方法，通过将语言模型和扩散模型的核心目标结合，创建一个统一的多模态模型。目标是实现高质量的文本和图像生成，同时提高训练和推理的效率。

3. 方法

Transfusion方法在单一Transformer框架内结合两种模态的训练目标，主要包括以下几个关键模块：

数据表示

Transfusion支持两种模态的数据：

文本通过标准的分词器转化为离散的令牌序列。
图像则通过变分自动编码器（VAE）编码为连续的Patch嵌入，每个Patch对应图像的一个小块，保留了图像的空间信息。

在混合模态的情况下，图像和文本会被整合成一个统一的序列，并通过特定标记符（如和）区分模态。

模型架构

Transfusion的核心是一个标准的Transformer架构，但针对两种模态设计了特定的编码和解码层：

文本：使用标准的嵌入层，将离散令牌转化为向量。
图像：使用VAE生成连续嵌入表示，结合线性层或U-Net模块进一步压缩图像数据。

Transformer本体负责对整合后的模态序列进行建模。对于文本，使用因果注意力；对于图像，则允许双向注意力以增强图像内部信息的流动性。

训练目标

Transfusion结合了语言模型和扩散模型的损失函数：

：语言建模目标，预测序列中每个文本令牌的条件概率。
：扩散模型目标，通过去噪重建原始图像。

这种联合优化方法允许模型同时处理文本生成和图像生成任务。

推理策略

Transfusion的推理阶段结合了文本和图像生成的流程：

当模型预测出标记时，切换至扩散生成模式生成图像。
当预测出标记时，返回文本生成模式。

通过这种动态切换，Transfusion能够生成多模态的复杂内容。

4. 实验与发现

为了验证Transfusion的有效性，作者进行了大量实验，涵盖文本生成、图像生成以及跨模态任务。

实验设置

数据集：

文本：Wikipedia和C4语料。
图像：MS-COCO数据集。

评估指标：

文本生成：困惑度（Perplexity）。
图像生成：FID（衡量图像质量）和CLIP得分（衡量图像与文本的语义一致性）。

主要发现

文本生成任务：

Transfusion在困惑度上与传统语言模型表现接近，但计算效率显著提升。

图像生成任务：

Transfusion的FID显著好于传统方法，尤其在计算资源有限的情况下，表现尤为突出。

跨模态生成任务：

Transfusion在图文对生成任务中表现出优越的语义一致性，表明模型能够有效结合两种模态的信息。

关键组件的影响

通过消融实验，作者发现：

双向注意力：对图像生成质量至关重要，可显著降低FID。
U-Net模块：在图像压缩和重建任务中表现优于线性层。
损失函数权重（）：调整损失权重能够有效平衡文本和图像生成的性能。

研究局限

尽管Transfusion方法表现优异，但仍存在一些局限性：推理阶段的时间开销较高，尚需进一步优化。尚未验证对其他模态（如音频、视频）的扩展能力。

深度图学习与大模型LLM

关注图机器学习，图表示学习，大模型LLM. 最近顶会顶刊动态以及机器学习基本方法，包括无监督学习、半监督学习、弱监督学习、元学习等

Tokenization 不存在了？Meta 最新研究，无需 Tokenizer 的架构来了

从线性注意力视角揭秘视觉Mamba，全新MILA模型

NeurIPS 2024 | 基于自适应多尺度超图Transfromer的时间序列预测方法

Transfusion: 单一Transformer架构中同时处理离散数据(文本) 和连续数据（图像）

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

Graph与LLM对齐专题 || 基于MolCA的分子图与语言建模：跨模态投影器与单模态适配器

最新RAG综述:15种经典RAG框架综述

ICML 2023 || 基于自然语言理解能力提升药物发现中的活性预测模型

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

自我进化！自对齐方法不需要人工注释或者蒸馏，而且效果更好 | NIPS 2024

2024快结束了，还有哪些会议可以投稿的？

怒推一万次的顶尖名校公开课-LLM Agents

香港城市大学 AI 机器学习数据挖掘大语言模型全奖PhD/联培PhD

大模型，可以这样学？

RAG黑盒被打开了，可视化RAGViz闪亮全场

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

港科大广州2025年春季与秋季博士生/研究助理招聘-大模型、AI4SCI、几何机器学习等方向

Token化一切，甚至网络！TokenFormer，Transformer从来没有这么灵活过！

NeurIPS 2024 | 经典GNNs是强有力的节点分类基线模型

LOGS第2024/11/08期||丹麦奥尔堡大学缪浩：面向流式与分布式场景的时间序列分析

Graph与LLM对齐专题 || ProtST：蛋白质序列和生物医学文本的多模态学习， ICML 2023

恋天恋地恋师妹, 防火防盗防师兄, 你会接受同门师兄的追求吗？

Graph与LLM对齐专题 || 多模态分子结构-文本模型MoleculeSTM（2022.12）

把下班后的时间都用来刷手机，对人生对生活究竟有没有影响？

Graph与LLM对齐专题 || MoMu学习分子图和文本的联合表示用于分子描述、跨模态检索、分子属性（2022）

基金委发文：目前约17%资助率过低，危害大，应提升至30~35%！增大青年、面上项目经费

Equitorch: 基于pyg的模块化等变图神经网络包

北邮GAMMA Lab专题解读 | Graph Transformer 最新研究进展

LOGS第2024/10/26期||清华大学李瑞堃：通过识别双曲主干来预测复杂网络的长时动力学

归一化Transformer（nGPT）：（LLM）的训练速度提高多达20倍，同时保持原有的精度水平！

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

图结构赋能语言模型：华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

实验室一块GPU都没有怎么做深度学习？

LLMs为零样本图学习器：GNN表示与LLM词元嵌入的对齐

为什么我们的研究生提不出问题？“如果制度把时间限定太死，学生只能选择‘短平快’，丧失了提出难题的勇气和机会。”

NeurIPS 2024 || GLBench: 面向大模型的图学习基准测试集

大模型不会推理，只是高级模式匹配器？无论是OpenAI GPT-4o和o1，还是Llama，都未被发现任何形式推理的证据？

NeurIPS 2024 || 结构信息原理指导的高效智能体探索

西北工业大学 || 诚邀海内外青年英才加盟，其中海外优青岗位：75万+奖励绩效+科研等其他收入+学院一次性奖励5万等，上不封顶

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

AI博士如何做出有影响力的研究？

ACM Survey || 麦考瑞大学最新《图级别学习》综述，274篇文献，图学习从图核到图transformer的交互和演变

NeurIPS 2024 ｜ SparseLLM：突破性全局剪枝技术，大语言模型稀疏化革命

o1医学领域大胜GPT-4，性能暴涨！顶尖华人团队激动发文：离AI医生越来越近了

PyCharm vs VSCode，是时候改变你的 IDE 了！

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上运行的版本

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

Transfusion: 单一Transformer架构中同时处理离散数据(文本) 和 连续数据（图像）

1. 基本信息

1. 主要内容

2. 研究背景

3. 方法

4. 实验与发现

研究局限

Transfusion: 单一Transformer架构中同时处理离散数据(文本) 和连续数据（图像）