多模态学习关键技术深度综述：多模态标记、骨干模型架构、统一任务表示、数据与评估、挑战与趋势

文摘 2025-01-02 07:00 美国

在人工智能领域，人们希望模型能像人类一样处理多种模态的信息。多模态学习应运而生，但之前的研究缺乏对多模态下一个标记预测的系统梳理。本文的重要意义在于全面综述了这一领域的关键方面，包括标记化、模型架构、训练和评估等，为研究人员提供了清晰的研究框架和方向，有助于推动多模态智能的发展，使模型在处理图像、音频、视频等多模态信息时更加智能和高效，从而拓展人工智能的应用范围。

我们翻译解读最新论文，文末有论文信息。

本文主要围绕多模态下一个标记预测（NTP）展开，阐述了其在多模态学习中的重要地位。首先介绍了多模态标记化的两种方式（离散和连续）及其应用，接着描述了 MMNTP 模型的两种架构（组合模型和统一模型）及其特点，然后说明了基于统一多模态任务表示的训练方法，包括训练目标、预训练和微调过程以及推理中的提示工程。还介绍了相关的数据集和评估基准，最后指出了该领域面临的如模型扩展、模态干扰等挑战，为多模态智能研究提供了全面的参考。

欢迎加入自动驾驶实战群

摘要&摘要

基于自然语言处理中语言建模的基础，下一个标记预测（NTP）已发展成为机器学习任务的通用训练目标，在各种模态中取得了相当大的成功。随着大型语言模型（LLM）在统一文本模态内的理解和生成任务方面取得进展，最近的研究表明，不同模态的任务也可以有效地封装在NTP框架内，将多模态信息转换为标记，并根据上下文预测下一个标记。本综述引入了一种全面的分类法，通过NTP的视角统一了多模态学习中的理解和生成。所提出的分类法涵盖五个关键方面：多模态标记化、MMNTP模型架构、统一任务表示、数据集与评估以及开放挑战。这种新的分类法旨在帮助研究人员探索多模态智能。

研究背景: 在人工智能发展过程中，大型语言模型在自然语言处理领域取得进展，促使研究人员探索将其能力扩展到多模态领域。下一个标记预测（NTP）在自然语言处理中的成功应用为多模态学习提供了思路，随着多模态数据的不断丰富，研究人员开始尝试利用 NTP 范式来统一多模态的理解和生成任务，从而引发了对多模态下一个标记预测技术的深入研究。
研究贡献:

提出了一种全面的多模态下一个标记预测分类法，涵盖标记化、模型架构、任务表示、数据集与评估和挑战等多个关键方面，为该领域研究提供了系统的框架。
详细分析了离散和连续标记化技术在多模态中的应用，以及不同类型的 MMNTP 模型架构（组合模型和统一模型）的特点和优势，为模型设计提供了新的思路。
探索了基于统一多模态任务表示的训练方法，包括多种训练目标和提示工程技术在多模态中的应用，有助于提高模型在多模态任务中的性能。

实现设计:

在标记化方面，设计了离散标记化（如利用 VQ 系列方法）和连续标记化技术，通过不同的编码器和转换方法将多模态数据转化为标记。
对于模型架构，构建了组合模型和统一模型。组合模型依靠外部编码器和解码器处理多模态信息，统一模型则采用轻量级的编码器和解码器在骨干模型内完成任务。
在训练过程中，基于下一个标记预测目标，设置了离散和连续标记预测的训练方式，通过预训练的模态对齐和微调的指令与偏好调整，以及推理阶段的提示工程来优化模型。

关键词：多模态学习、下一个标记预测、大型多模态模型、标记化、统一任务表示

1. 引言

人类与宇宙的互动是一幅由各种模态交织而成的织锦。人类可以观看并绘制画作、阅读并书写史诗、聆听并创作音乐、触摸并雕刻英雄、思考并做出动作。这些模态——诸如视觉、声音和语言等特定的信息类型——是人类解读和回应世界的渠道。这种多方面的交互凸显了人类经验中感知与反应相互交织的本质。作为人工智能（AI）研究中的一个专门领域，多模态学习专注于创建能够理解和生成各种多模态信息的系统[16]。

人工智能领域在多模态方面出现了范式转变，从为单一任务训练的专用单模态模型过渡到处理各种任务的通用多模态模型[150]。这一转变在很大程度上归因于自然语言处理（NLP）领域中大型语言模型（LLM）的进步，如GPT-3[34]、ChatGPT[300]和LLaMA[378]，它们通过单个下一个标记预测（NTP）目标统一了多个自然语言理解和生成任务。NTP的原始任务是根据前面标记提供的上下文预测给定文本序列中的下一个标记（可以是单词、子词或字符）。从缩放定律研究的角度来看，在有充足数据和计算资源的情况下，NTP范式已被证明是可扩展的[192, 472]。

与此同时，研究人员探索了将非文本输入和输出模态纳入大型语言模型的方法，激发了社区开发具有跨不同模态执行任务能力的强大大型多模态模型（LMM）的兴趣[72, 448]。为了更好地理解基于NTP的LMM的历史发展，我们展示了一个按模型的理解或生成能力以及不同模态分类的时间线，如图1所示。

在图2中，我们以图像模态为例说明了基于下一个标记预测（MMNTP）的多模态学习的工作流程。该过程可分为三个关键组件：标记化、建模和训练目标，在本综述的其余部分将对其进行详细解释和讨论。在视觉模态方面，大型视觉语言模型如GPT4-V[301]、QwenVL[12]、LLaVA[254]、phi 3.5-Vision[1]和Gemini[370]已经展示了图像和视频理解能力，而Emu[363]和Chameleon[369]表明可以通过NTP方式实现视觉生成。同样，基于NTP的模型如GPT4-o和Moshi[105, 302]已经实现了端到端的音频理解和生成。

为了使LLM具备视觉理解能力，开创性的研究如Flamingo[3]、BLIP2[227]、GPT4V[301]、MiniGPT4[509]和LLaVA[254]表明，通过使用简单的标记化模块（如CLIP[321]等视觉编码器或简单的线性投影[18]）将多模态信息转换为标记，LLM可以很容易地适应处理图像和视频等多模态输入。随后，这些模型使用相同的NTP目标基于图像 - 查询 - 答案三元组进行多模态指令调整。

随着大型语言模型在自然语言处理中连接理解和生成任务，人们对将其能力扩展到生成多模态输出产生了浓厚兴趣。这个方向的最新进展包括GPT-4o[302]，它可以使用统一的多模态LLM理解和生成文本、音频和图像。我们也见证了开源社区的巨大进步。在视觉模态方面，Chameleon[369]和Emu3[400]是两个独特的多模态模型，它们在语言和图像模态中统一了理解和生成。在音频方面，Moshi[105]可以基于预训练的LLM以NTP方式执行自动语音识别（ASR）和语音生成等任务。作为一种通用和基本的方法，NTP在诸如生物中设计蛋白质[20]和化学中合成分子结构[118]等不同领域也具有广阔的应用前景。

使用NTP方法生成多模态内容时，必须认识到与由离散符号构成的语言不同，图像和声音等多模态数据本质上存在于连续空间中。解决这个问题的一种常见技术是量化。矢量量化（VQ）是一种经典方法，它允许通过离散矢量分布对连续多模态数据的概率密度函数进行建模[138, 306]，这种技术与NTP建模非常契合。随着深度学习的兴起，神经VQ方法如VQVAE[385]和VQGAN[112]已经被开发出来，为将视觉和音频生成与NTP联系起来奠定了基础。利用这些VQ方法和语言建模任务的重要工作已经出现。例如创新系统如DALL-E[327]、CogView[91]、CM3Leon[458]、Parti[452]、Muse[43]、VideoPoet[199]、LVM[13]、Chameleon[369]和Infinity[149]。这些方法通常依赖于外部模型（如VQGAN解码器）进行图像生成，使其成为一种间接的多模态生成方式。同时也有利用NTP目标直接在连续空间（如VAE的潜在空间[381]）中生成图像或通过模拟扩散过程[233, 507]的并行探索。与间接方法不同，只有少数像ImageGPT[55]这样的项目通过从头开始预测像素来执行直接多模态生成。此外，NTP模型可以通过添加各种外部模型来促进多模态生成。著名的例子包括Emu[362]、MiniGPT5[506]和CoDi2[368]。这些方法利用NTP框架整合外部扩散模型进行图像生成，展示了另一种间接多模态生成形式。

我们已经介绍了在NTP范式内能够理解或生成不同模态信息的强大模型。然而，开发一个能够像人类一样理解和生成多种模态信息的单一模型仍然是追求通用人工智能（AGI）的一个有趣目标。最近，一个新的研究趋势出现了，专注于开发在NTP范式内统一多模态理解和生成的LMM。著名的例子包括Unified-IO[269, 270]、Chameleon[369]、Transfusion[507]、Show-o[422]、Moshi[106]和Emu3[401]。统一理解和生成带来了独特的挑战，包括模态的多样性以及解决它们之间的冲突。我们将在第6节进一步讨论这些问题。

1.1 综述的整体结构

综述的结构如图3所示。第2节重点介绍多模态标记化，强调标记化作为原始多模态数据与其表示之间桥梁的重要性，区分使用矢量量化的离散标记和连续标记。第3节深入探讨用于NTP的多模态骨干模型，指出通常采用类似于大型语言模型的自回归模型来捕获多模态标记，并针对不同模态使用不同的注意力掩码来考虑其特定特征。第4节涵盖使用统一多模态任务表示的训练，解释从离散到连续标记预测的训练目标，通过VQ解码器实现多模态输出或直接为扩散或VAE等模型生成条件。本节还介绍了从LLM研究中采用的MMNTP模型的提示工程技术，如上下文学习和思维链推理。第5节介绍数据集和评估指标，指出NTP模型在理解和生成任务中相对于非NTP模型的优越性能。最后，第6节概述了MMNTP研究中尚未解决的挑战，如扩展MMNTP、涌现能力、模态特定偏差、模态干扰以及MMNTP作为通用接口，并讨论了缓解这些挑战的方法。表1列出了我们综述中的关键表格和图表。

1.2 相关工作

最近有几篇综述对多模态学习中的大型多模态模型（LMM）进行了回顾。例如，Yin等人[448]深入研究了早期视觉 - 语言模型的理解能力。类似地，Awais等人[8]、Bordes等人[27]、Ghosh等人[130]、Caffagni等人[36]和Zhang等人[477]更进一步，探索了多模态学习的最新进展，重点关注模型架构、训练策略、数据集、评估指标等方面。此外，一些综述回顾了视觉 - 语言任务中的多模态学习，包括预训练[36]、迁移学习[479]、推理[402]和基于人类反馈的强化学习（RLHF）[479]。除了对LMM的一般革命的讨论之外，专门的综述还研究了LMM在多模态智能体[224, 421]和自动驾驶[72]等领域的应用。最近的综述还解决了多模态学习中的关键问题，如LMM中的幻觉[256, 334]和LMM的效率[185, 429]。

与之前主要关注多模态LLM理解能力的工作不同，我们的综述通过下一个标记预测范式从系统的角度整合了多模态学习中的理解和生成。据我们所知，这是第一篇从下一个标记预测的角度回顾LMM的综述，旨在帮助研究人员探索多模态智能。

总之，在本综述中，我们旨在对当前依赖下一个标记预测的多模态模型进行全面回顾。

2. 多模态标记化

标记化是下一个标记预测框架下多模态序列建模的首要和基本步骤。它将来自各种来源（如图像、视频和音频剪辑）的信息分解为一系列最小的、可管理的单元，即标记，以便NTP模型进行学习。表2提供了近期研究中各种模态使用的标记器的概述。

尽管这些标记化方法源自不同的模态，但它们都可以分为两种原型：离散标记化和连续标记化。在本节中，我们将首先介绍训练多模态标记器的一般定义和基本技术（§2.1），然后介绍离散标记（§2.2、2.3）和连续标记（§2.4、2.5）在NTP框架中的基本原理和应用。

2.1 不同模态的标记化

我们首先将标记化过程定义为一个函数，它将来自原始多模态空间的样本映射到标记器输出表示空间中的表示，即

其中且。

2.1.1 标记器类型

如图4所示，多模态信息的标记器可分为两类：离散和连续。这种分类基于标记如何从原始数据中导出。两种标记化方法都将原始信息编码到潜在表示空间中，但它们的方法不同。

离散标记化对潜在空间进行量化，利用类似于语言模型词汇表的固定大小的离散空间。相比之下，连续标记化不涉及量化，导致表示空间大得多。

离散。在公式（1）中，离散标记意味着表示空间由有限数量的离散符号组成。输出空间称为码本，其中，并且每个表示由该码本中的代码组成，即，其中。语言标记本质上是离散的，因为它们来自有限的词汇表。每个单词或子词单元都被映射到这个预定义集合中的唯一标记。相比之下，音频和图像等模态存在于连续的高维空间中。为了在与离散语言标记相同的框架（即NTP）内处理这些模态，需要将它们转换为离散表示。

量化是将连续空间中的值映射到离散空间的过程，通常会得到一个小得多的表示空间。当需要对多模态信息进行离散表示时，它是默认操作。量化通常与自动编码器技术相结合，以减小潜在空间的大小。典型的例子包括VQ系列标记器如VQVAE[138]和VQGAN[112]，它们本质上具有离散表示。量化过程的详细信息在§2.2中介绍。

连续。与离散标记化相反，连续标记化使用连续空间表示数据，其中标记直接从数据的固有属性导出，而无需强制量化到预定义的码本中。在这种方法中，代表空间不限于有限的预定代码集；相反，它保留了数据的连续性质。每个标记从连续分布中采样，允许更细致和灵活的表示，能够捕捉输入数据的细微差别。连续标记化对于自然存在于连续形式且需要丰富表示能力来捕捉其复杂模式的模态特别有利。例如，在音频和视觉数据中，连续表示可以有效地保留在离散标记化过程中可能丢失的细粒度时间和空间信息。

2.1.2 标记器的特征

在深入研究不同的标记化技术之前，我们总结了理想的多模态标记器应具备的两个基本特征（表示和重建），以便在NTP框架中实现更好的理解和生成能力。

表示能力：有效的表示将语义相关信息编码到潜在空间中，同时去除冗余信息。这对于通过用替换它来在标签空间上学习条件概率的各种下游任务至关重要，其中是多模态输入空间。以更好的表示能力而闻名的突出标记器包括语言引导的对比学习方法如CLIP[321]和完全自监督方法如DINO[40]。

重建能力：对于生成多模态信息，期望标记化函数是可逆的或近乎可逆的，这意味着存在一个去标记化函数，可以从表示空间中恢复原始输入，满足或。在重建方面表现出色的著名工作包括自动编码器（AE）系列模型如变分自动编码器[195]（VAE）和VQVAE[138]。

需要注意的是，这些能力并非相互排斥；它们的平衡取决于所使用的训练技术。

2.1.3 标记器的训练方法

标记器的训练方法可根据其各自的训练目标分为四类：自动编码、去噪自动编码、监督训练和对比学习，如图5所示。在此，我们总结了与各种标记器相关的核心概念。

自动编码。自动编码器（AE）是一种人工神经网络，旨在学习高效的数据表示。它由两个主要组件组成：一个编码器，将输入数据映射到维度降低的潜在空间，以及一个解码器，从这个潜在表示中重建输入数据。自动编码器的训练目标是最小化重建误差，确保解码输出与原始输入紧密相似。变分自动编码器[195]（VAEs）等变体使用概率方法来生成更稳健和信息丰富的嵌入。在多模态生成模型中，使用自动编码器方法训练的标记器用于从潜在表示中恢复多模态输入。扩散模型[90]是一种特殊情况，它也可以被视为一种自动编码器，能够以非自回归方式进行生成[233]。离散标记通常通过量化[335]自动编码器潜在空间内的连续数据表示来生成。

去噪自动编码。去噪自动编码器（DAE）在基本自动编码器概念的基础上，通过向输入数据中引入噪声并训练模型重建原始的无噪声版本。这种方法鼓励模型学习能够处理数据损坏的稳健特征，从而提高其泛化能力。在基于变压器的模型中，一种常见的技术是掩码语言建模[84]，它涉及掩码部分输入标记并训练模型预测它们，这可以被视为一种特殊类型的去噪自动编码器。这种方法在各种模态中已成为主流，在语言中由BERT[84]推广，在视觉中由BEiT[17]和MAE[153]推广，在音频中由HuBERT[160]推广。

监督预训练。一些标记器使用监督学习在特定任务上进行预训练，旨在通过标记数据集获取特定任务的表示。这些模型首先在大规模数据集上进行训练，以捕捉输入数据的特定特征。在视觉模态中，监督任务包括语义分割、目标检测和深度估计。为这些任务训练的模型，如 SAM[196, 392]、ViTDet[240] 和 MiDaS[329]，后来被用作 LMM 中的标记器，如在 DeepSeek-VL[268] 和 Cambrain-1[376] 中，用于从输入数据中提取各种视觉特征。在音频模态中，Whisper[322] 在 680,000 小时的标记音频数据上以弱监督方式进行训练。由于其强大而有效的语音特征提取能力，Whisper 被广泛用于语音大语言模型（LLM）[65, 162, 366] 中，用于提取语音嵌入。

对比学习。对比学习是一种自监督学习方法，专注于通过区分正负对来学习表示。其核心思想是在表示空间中将相似（正）示例拉近，同时将不相似（负）示例推远。每对中的项目可以属于相同或不同的模态。例如，DINO[40] 使用图像 - 图像对来增强视觉表示，而 CLIP[321] 采用文本 - 图像对来改善视觉表示中的语言对齐。

目前，仅具有多模态理解能力的 LMM，如 InstructBLIP[74] 和 LLaVA[254]，选择具有卓越表示能力的标记器如 CLIP[321]，因为它们不需要重建多模态信息。相反，支持多模态生成能力的 LMM 倾向于选择 VQVAE 作为标记器，如 Unified-IO[271]、Chameleon[369]、Emu3[401] 等模型 [128, 396, 405]。

2.2 离散标记化基础

与由离散符号（如标记或单词）组成的语言模态不同，大多数其他模态自然存在于连续空间中。为了弥合这一差距，核心技术是矢量量化（VQ），其目的是将原始连续信息映射到压缩的、有限的表示空间，即离散标记。对于图像和视频，离散标记可以具有二维或三维结构。这些标记首先基于特定顺序（如从左到右和从上到下）线性化，将它们转换为一维序列。这种线性化允许使用下一个标记预测目标进行有效建模。

在本节中，我们将首先详细介绍广泛用作多模态标记器的现代矢量量化技术，如 VQVAE（§2.2.1）及其变体。随后，我们将介绍离散标记化在不同模态中的具体优化（§2.3）。

2.2.1 矢量量化方法

VQ 方法的起源可以追溯到 20 世纪 50 年代的贝尔实验室，当时研究人员致力于通过开发合适的离散化程序来优化信号传输 [306]。本质上，量化是将无限组连续值映射到较小的离散组有限值的过程。矢量量化的主要目标是以有限组向量（也称为码本）尽可能准确地重建原始数据中的所有信息。

原始的 VQVAE。由 van den Oord 等人 [385] 提出的原始 VQVAE 是许多后续矢量量化方法的里程碑。如图 6 所示，VQVAE 由三个主要组件组成：编码器、量化器和解码器。编码器将输入数据映射到紧凑的潜在空间，量化器从有限码本中选择最近的码向量来近似连续潜在表示，解码器使用离散码重建输入数据。在训练 VQVAE 时，三个主要的损失组件至关重要：重建损失、码本损失和承诺损失 [385]。重建损失通常通过均方误差或二元交叉熵实现，通过最小化输入和输出之间的差异确保准确的数据重建。码本损失，或矢量量化损失，通过将编码器输出与最近的码本条目对齐来实现有效编码，确保离散潜在变量。同时，承诺损失作为正则化项，鼓励编码器输出保持接近码本条目以维持稳定学习，防止不稳定的映射。由于梯度不能通过量化操作（找到最近的码），采用直通估计器 [21] 使梯度正常流动。

矢量量化方法的最新进展侧重于实现更好的图像重建和增强生成能力。为了提高重建质量，已经提出了架构创新和码本设计。基于变压器的框架，如 ViT-VQGAN[450]、Swin-MAE[433]、Swin-Unet[38] 和 Efficient-VQGAN[39]，用更强大的模块如 ViT[96] 和 Swin-Transformer[264, 265] 取代了传统的 CNN 编码器和解码器，从而实现了更好的特征表示和重建保真度。此外，还提出了几种方法如 LFQ[456] 和 FSQ[291] 来解决码本学习过程中码本崩溃的重大挑战，其中在扩大码本大小时，大部分码嵌入未被使用，导致码本冗余并限制了生成模型的表达能力 [19]。为了提高生成性能和效率，引入了几种方法。Tian 等人 [374] 提出了视觉自回归建模，通过“下一个尺度预测”促进图像生成，摆脱了标准 VQVAE 模型中使用的传统光栅扫描“下一个标记预测”。RQ-Transformer[216] 采用残差量化（RQ）来精确近似特征图并降低空间分辨率。RQ 有助于 RQ-Transformer 显著降低计算成本并有效学习输入中的长程相互作用。RAR[459] 引入了带有置换目标的随机退火策略，增强了模型学习双向上下文的能力，同时保留了自回归框架。TiTok[461] 将图像标记化为 1D 潜在序列，提供了比传统技术更紧凑、更高效的潜在表示。与以前的方法 [39, 450] 相比，它大大减少了编码图像所需的标记数量。

带有辅助损失的 VQ。原始 VQVAE 的主要目标是通过最小化均方误差损失来准确重建输入数据。然而，这种自动编码目标并不总是与人类对重建数据质量的感知一致。例如，在视觉模态中，原始的 MSE 损失通常会导致图像细节模糊，特别是在人脸 [210]。为了解决这个问题，一些方法引入了旨在提高输出数据整体质量的高级训练目标。在视觉领域，感知损失 [188] 被广泛用于通过利用预训练的 CNN 来增强重建图像的质量。VQGAN[39] 纳入了一个判别器网络，通过添加对抗训练目标来提高图像保真度。判别器的作用是区分重建图像和原始图像，而 VQ-VAE 则被优化以欺骗判别器，从而提高重建图像的质量。在音频模态中，必须将音频分解为其声学和语义组件，以实现强大的音频重建质量和 LLM 建模。SpeechTokenizer[486] 和 Mimi[78] 在残差 VQ 的第一层引入了语义蒸馏损失，使用自监督模型如 HuBERT[160] 和 WavLM[56]。

残差矢量量化。残差矢量量化（RVQ）已用于图像 [217] 和音频 [468] 生成，其中量化码通过存储额外的量化残差进行细化。Lee 等人 [216] 提出的 RQVAE 也引入了残差量化，以粗到细的方式递归地量化特征图，采用固定大小的码本以保持精度和码多样性。

乘积量化。El-Nouby 等人 [108] 提出了乘积量化（PQ），将码本分解为较小码本的乘积，允许在不需要难以处理的大码本的情况下实现高质量的量化器。

多尺度量化。Tian 等人 [374] 引入了视觉自回归建模（VAR），开发了一种多尺度量化自动编码器，使用共享码本将图像编码为 K 个多尺度离散标记图。它帮助模型通过“下一个尺度预测”生成图像，而不是标准 VQVAE 模型中通常使用的光栅扫描“下一个标记预测”。多尺度量化使模型能够学习视觉分布并展示出强大的泛化能力。

有限标量量化。为了使用更大的标记词汇表生成简洁且富有表现力的标记并避免码本崩溃，Mentzer 等人 [291] 提出了有限标量量化（FSQ）。FSQ 将 VAE 表示投影到几个可以量化为固定值的维度上，创建一个隐式码本。

无查找量化。LFQ[457] 将码本的嵌入维度减少到零，有效地用整数集替换码本。它使 VQVAE 能够通过大幅增加词汇量来提高图像重建和生成的质量。例如，在 ImageNet 数据集上，当 LFQ 词汇量从增加到时，rFID 从 2.5 降低到 1.4。

无嵌入量化。Maskbit[406] 探索了一种无嵌入的标记化方法，利用二进制量化。它将潜在嵌入投影到 K 维，然后根据其符号值对它们进行量化以产生位标记表示。生成的位标记具有高度结构化的语义表示，这对于生成任务至关重要。

组矢量量化。与 RVQ 对信息进行残差建模不同，组矢量量化对不同维度的信息进行建模。在音频领域，HiFiCodec[439] 提出了一种组 - 残差矢量量化技术来减少码本数量，而 FACodec[189] 使用三个因子化矢量量化器将语音分解为韵律信息、内容信息和声学细节。

2.2.2 VQ 标记器的评估

在评估 VQVAEs 时，通常考虑两个关键指标：重建能力和生成能力。

重建能力是指 VQVAE 在编码和解码后能够重现原始输入数据的程度。该指标通过评估模型从其潜在表示中准确重建输入数据的保真度来衡量。L2 距离、峰值信噪比（PSNR）和重建 Fréchet 起始距离（rFID）通常用于评估重建能力。

生成能力评估模型从码本空间中学习到的分布生成新的、合理样本的能力。该指标通过评估 VQVAE 在生成与训练数据分布一致的新数据时的创造性和多样性来衡量。为了定量评估生成能力，通常使用起始分数（IS）和生成 Fréchet 起始距离（gFID）[157] 等指标。rFIDs 通常在 ImageNet 验证图像与其重建图像之间计算。gFIDs 通常使用 ADM 的评估套件 [86] 针对训练集进行计算。

2.3 不同模态的离散标记化

通用的量化方法提供了将连续数据转换为离散标记的基本方法。然而，没有一种单一的量化器适用于所有模态，因为每个模态都有其独特的特征。因此，为每个模态创建特定的标记器非常重要。本节将解释不同模态的独特特征，并展示一些图像、音频和视频等模态的标记器示例。

2.3.1 图像

图像可以使用前面介绍的 VQVAE 结构标记化为离散符号。与文本标记相比，图像在三个基本方面存在差异，这些差异显著影响了它们的标记化方式：

丰富的信息粒度：与主要封装高级语义含义的文本不同，图像包含大量的感知细节。这些包括低层次的视觉元素，如颜色、形状和纹理，以及更抽象的概念，如物体和动作。
密集信息：图像存在于一个密集的表示领域中，其中每个像素，跨越多个维度，包括高度、宽度和颜色通道（RGB 是常见的例子），都携带信息。这与文本本质上的离散性形成鲜明对比，文本由顺序排列的单词组成。
二维空间结构：图像本质上是二维结构，分布在由高度和宽度定义的网格上。这种 2D 布局与文本数据的简单一维序列有根本的不同，在处理和分析图像时引入了独特的复杂性。

鉴于这些差异，在基于离散图像标记训练 LLM 时，弥合文本和图像模态之间的差距需要一个强大的图像标记器，它必须在与 LLM 的语言能力充分对齐（称为“表示”）、保留丰富的原始图像信息（称为“重建”）以及在考虑到变压器解码器不断增加的推理成本的情况下有效使用标记（称为“标记效率”）之间取得平衡。这些因素之间存在权衡 [127, 128, 357, 456]，因此构建图像标记器时在这些因素之间保持平衡至关重要。

在更好的表示方面，通常使用像 ViT[96] 这样的模型，通常通过对比损失 [312, 321] 与文本编码器对齐，或者通过生成损失 [451] 与文本模态对齐。此外，像 Q-Former[227] 这样的模块也可用于图像特征转换 [128, 227]。因此，得到的图像特征集成了更高层次的语义，并逐渐将高维图像压缩为与文本对齐的低维表示。虽然图像补丁的初始排列遵循光栅顺序，保留了内在的顺序关系，但这种配置缺乏因果语义，给语言建模带来了挑战。

在重建能力方面，通常在图像编码器之上分层一个图像解码器，以从其表示中重建原始图像，并将重建损失纳入训练过程 [112, 128, 187, 309]。训练标签通常使用原始图像，但随着扩散模型的发展，更多的研究正在将扩散模型的潜在表示纳入重建标签 [128, 187]。

在标记效率方面，使用图像标记的选择器或合并器模块来截断它们的长度（即每个图像的标记数量）。例如，SEED-LLaMA[128] 使用因果 Q-Former 将 ViT 编码的较长图像特征压缩为 32 个连续标记，然后通过量化将它们离散化。LaViT[187] 首先使用共享 MLP 预测是否应选择每个补丁标记，然后通过将选定的补丁用作查询，未选定的补丁用作键和值在交叉注意力块中，压缩图像长度 [128]。

除了这些方面，一些研究还关注特定图像类型或任务的独特属性。例如，VQ-IMG 旨在增强图像标记器对面部的建模能力 [124]，而 LVM 在基于 VQGAN 训练模型时集成了分割和目标检测等任务，以丰富图像标记的表示 [13]。StrokeNVWA 引入了 VQ-Stroke 方法，将矢量图形图像离散化为笔画标记 [367]。

2.3.2 音频

原始音频通常以每秒超过数万个值的采样率存储为 16 位整数值，这导致序列极长，使得下一个标记预测训练更加困难。已经研究了多种量化方法用于音频标记化。这些方法最初旨在音频压缩，最近在 NTP 语言建模的背景下被开发用于创建紧凑的语义和声学表示。

作为一种传统的压扩算法，-law/A-law 算法通常用于语音生成模型，如 WaveNet[383]。虽然该算法将每个音频帧投影到 8 位值，但它不会降低采样率，从而保留了过长的序列。自监督学习模型在各种语音相关任务中表现出色，激发了人们对聚类其语音表示以进行语音量化的兴趣。vq-wav2vec[10] 使用 Gumbel-Softmax 或在线 k-均值聚类来量化 SSL 学习的密集表示。HuBERT[160] 通过掩码预测任务进行训练，其目标是通过早期迭代学习的特征的 k-均值聚类获得的。利用自监督学习（SSL）学习的量化标记，GSLM[207] 和 VQTTS[99] 在语音生成任务中比 WaveNet 表现出更快的速度。由于 SSL 标记是通过高度抽象的语义提取的，同时丢弃了低层次的声学信息，因此重建质量相对较低，并且会丢失说话人身份 [28]。神经编解码器模型通常在原始音频上应用 VQ-VAE 并进行残差矢量量化，例如 SoundStream[467] 和 EnCodec[104]。它们最初是为音频压缩而设计的，能够将波形编码为离散代码并忠实地将其重建为高质量波形。最近，它们在音频生成模型中得到广泛应用，如 AudioLM[28]、VALLE[391] 及其变体 [148, 354, 397]，并在各种任务中达到了新的最先进性能。与传统的-law/A-law 算法相比，编解码器模型可以有效地减少标记序列的长度。与高度抽象的 SSL 学习的离散标记（如 HuBERT[160] 标记）相比，它还可以保持指示说话人身份的多尺度声学信息。此外，编解码器模型通常是现成的且轻量级的。

最新的工作试图对编解码器模型提取的离散代码施加额外的监督。目的是增强它们提取和编码更高级语义信息的能力，从而改善语言建模。SpeechTokenizer[486] 是一种基于 RVQ 的编解码器模型，其第一层码本通过语义蒸馏过程纳入语义信息，使用 HuBERT[160] 表示作为语义教师。Mimi（由 Moshi[105] 使用）通过用 WavLM[56] 替换 HuBERT 作为语义教师进一步改进了这一点。此外，它将第一层码本与 RVQ 过程分离，以实现更好的语义和声学分离。为了提高压缩率，WavTokenizer[178] 能够使用单个量化器将一秒的音频量化为 75 或 40 个标记。

2.3.3 视频

与图像相比，视频在标记化过程中必须考虑额外的时间维度。一种直接的策略是使用基于图像的 VQVAE 模型逐帧对视频进行标记化。一些多模态基础模型，如 LVM[13]、LWM[257] 和 Unified-IO 系列 [270, 271] 采用了这种方法。然而，逐帧标记化的一个显著缺点是它无法随时间压缩视频数据，导致帧间标记存在高度冗余，特别是在长视频中，这会带来巨大的计算需求 [353]。此外，使用基于图像的标记器无法对帧间的时间关系进行建模，从而导致时间不一致的问题。

为了解决标记冗余和增强时间建模，一些研究提出训练 3D 标记器，在空间和时间维度上对视频进行压缩。例如，VideoGPT[437] 在视频标记器的编码器和解码器中应用了 3D-CNN 架构。CViViT[388] 使用变压器架构将视频分割成 3D 立方体，然后将其离散化为标记 ID。

对于视频标记器，还有两个理想的特性：(1) 联合图像 - 视频标记化。MAGVIT 系列 [456] 能够使用共享词汇表对图像和视频进行标记化。为此，输入视频中的帧数必须满足，这意味着视频由一个初始帧和随后的个剪辑组成，每个剪辑包含帧。当时，视频仅包含初始帧，从而简化为图像。相应地，初始帧和每个后续剪辑都被离散化为一个标记图，其中和是标记图的高度和宽度。(2) 时间因果性。与普通的 3D 架构相比，使用因果 3D 架构可以确保每个剪辑的标记化和去标记化仅依赖于前面的剪辑，便于在时间维度上进行自回归建模。

2.3.4 更多模态

将各种信息建模为离散标记已经远远超出了传统的文本、图像、视频和音频模态。在计算机视觉领域，我们可以将诸如目标检测、语义分割和深度映射等任务的输出空间统一为图像。然后这些图像可以被标记化为离散的图像标记，使我们能够训练一个单一的 NTP 模型来处理所有这些任务 [13, 396, 399]。在机器人和具身 AI 领域，机器人对环境的响应动作可以被编码为各种离散标记，并以 NTP 方式学习策略，如近期研究 VIMA[183]、RT2[32] 和 Locomotion NTP[324] 所示。在 AI4Science 中，通过将各种蛋白质分解为 DNA 标记序列，蛋白质语言模型能够从跨越进化树的大量序列中学习。这些模型已被证明是序列设计和蛋白质工程的有力工具，相关研究 [281, 340] 对此进行了强调。

2.4 连续标记化基础

如图 7 所示，连续标记在连续特征空间中表示非文本模态，与离散标记相比，它能减少信息损失 [51] 并改善数据表示 [423]。然而，其密集的特征封装使得直接映射到固定词汇表具有挑战性，不像离散标记那样简单。这给旨在以 NTP 方式理解和生成此类信息的 LLM 带来了困难。

为了使 LLM 能够处理连续的多模态标记输入以实现理解，需要进行转换或适配以平衡数据表示和文本对齐。对于多模态生成，修改输出头以使其与非文本模态特定解码器的输入特征空间对齐也至关重要。以下小节从多模态理解（§2.4.1）和生成（§2.4.2）的角度介绍了 LLM 适应连续多模态标记的基本设计和变化。

2.4.1 为理解对连续输入进行标记化

为了有效地将原始非文本模态数据集成到大型语言模型（LLM）中，通常需要采取两个关键步骤：(1) 将数据编码到更合适的表示空间，以及 (2) 将其与 LLM 的特征空间对齐。

编码。对非文本模态数据进行编码旨在捕捉对理解数据至关重要的有意义特征和重要细微差别。这可以通过不同类型的编码器来实现，如基于变压器的编码器 [227, 253, 254, 321, 509] 或基于 CNN 的编码器 [3, 88, 183, 492]。也可以选择无编码器的方法 [18, 194]，直接将原始数据输入模型。

基于变压器的编码器因其强大的表示能力和通用性而被广泛使用 [96, 386]。对于非文本模态样本，首先将输入划分为补丁并转换为 1D 序列，每个补丁表示为一个软标记。然后，该序列通过变压器的编码器层进行处理，利用自注意力机制捕捉补丁之间的关系。因此，模型产生了输入的丰富表示。通常有两种类型的编码器：(1) 单模态编码器，设计用于处理来自单一模态的信息 [6, 17, 96, 196, 242, 260, 265, 487]；(2) 多模态编码器，能够集成来自多个模态的信息 [110, 132, 294, 295, 321, 360, 451]。例如，PaLM-E[97]、Unified-IO-2[269] 和 PaLI[58] 使用仅在视觉数据上训练的 ViT[96] 编码器。相反，LLaVA[254]、Emu[357, 362] 和 Qwen-VL[12] 利用 CLIP[321] 或 EVA-CLIP[360] 编码器，并通过对比损失对齐文本和非文本表示。NExT-GPT[417]、CoDi-2[368] 和 BuboGPT[502] 采用 ImageBind[132] 作为其非文本编码器，将音频、文本和热图等各种模态与图像表示对齐。

相比之下，基于 CNN 的编码器使用频率较低，但由于其在图像分辨率泛化方面的灵活性 [454, 456] 和捕捉局部特征的能力 [183] 仍然至关重要。例如，DaVinci[88] 使用 ResNet[154] 作为视觉编码器。Flamingo[3] 利用 NFNet[30]（一种无归一化的 ResNet）进行图像编码。

除了编码器，Fuyu-8B[18] 在单个线性投影后直接处理原始图像补丁，以适应不同分辨率和纵横比的图像，类似于 ViLT[194]。然而，Fuyu-8B 通过使用仅解码器模型增加了任意分辨率设置的灵活性，虽然受益于架构简单性，但与基于编码器的模型相比，下游性能有所降低。此外，ImageGPT[55] 在原始图像像素序列上训练一个仅解码器的生成模型，尽管在图像生成和理解方面有效，但需要大量计算资源且仅限于低分辨率图像。

输入对齐。在对非文本模态数据进行编码后，我们获得了有意义的表示。然而，这种表示通常与大型语言模型的文本嵌入空间缺乏对齐，导致无法正确理解这些输入。尽管像 CLIP[321] 这样的多模态编码器在缩小差距方面取得了进展，但它们仍然面临两个重大挑战：(1) 存在冗余的连续标记 [3, 176, 227]；(2) 缺乏上下文语义，如因果语义，因为它们通常仅使用图像 - 标题配对数据进行训练，而不是图像 - 文本交错数据或图像 - 提示指令数据 [127, 214, 370, 512]。因此，在非文本模态数据的表示空间和 LLM 文本嵌入空间之间建立连接至关重要。通常有两种方法来构建这样的桥梁：(1) 基于槽的重采样器 [3, 227]；(2) 投影 [12, 18, 253, 254]。

基于槽的重采样器将编码阶段的冗余非文本模态标记压缩为更少的学习查询向量，称为槽。这通常通过使用具有交叉注意力机制的多个变压器块来实现。例如，BLIP-2[227] 采用 QFormer 和线性投影将图像编码器与 LLM 骨干网络连接起来。Q-Former 块由对学习查询的自注意力层、编码图像表示和学习查询之间的交叉注意力层以及前馈层组成。最初，它针对图像 - 文本匹配、图像 - 文本对比学习和基于图像的文本生成进行训练，然后在冻结 LLM 骨干网络的情况下针对下一个标记预测进行训练。另一个使用这种方法的模型是 Flamingo[3]，它利用 Perceiver Resampler[176] 以与模态无关的方式将字节数组压缩为潜在向量。具体来说，Perceiver[176] 采用多个级联注意力机制：潜在向量作为查询，首先交叉关注从字节数组（例如图像）计算出的键和值，然后通过自注意力块进行处理，迭代多次。PerceiverIO[175] 通过在输出查询数组和槽（即潜在向量）之间添加额外的交叉注意力块来增强这一点。Hierarchical Perceiver[41] 将输入数组分解为多个组，压缩每个组，并合并结果潜在向量以获得输出数组。

与基于槽的重采样器相比，投影的架构更简单，仅涉及单个线性投影 [18, 254] 或多层感知器（MLP）[253]。例如，LLaVA[254] 采用线性投影将编码的图像表示转换为语言嵌入空间。类似地，Fuyu-8B[18] 将原始图像补丁投影到嵌入空间。LLaVA-1.5[253] 通过用 MLP 替换线性投影增强了 LLaVA。

还有其他方法将非文本模态编码器与 LLM 骨干网络连接。例如，Emu[362] 利用因果变压器（即 C-Former）自回归地转换图像标记；Emu2[357] 用平均池化后接线性投影替换 C-Former。

2.4.2 为生成对连续输出进行去标记化

大型语言模型的骨干网络本质上是为语言生成而设计的。通常，它们的输出层作为分类头，预测语言词汇上的分布。对于离散的非文本模态，离散标记词汇可以集成到 LLM 的原始文本词汇中，因为标记生成仍然由分类头管理。然而，这种方法不适用于连续的非文本模态。为了使 LLM 骨干网络能够生成连续标记输出，必须修改其输出层（即语言建模头）以产生适合非文本模态数据的表示。然后将这些表示转换为与特定非文本模态数据解码器（如扩散模型 [336]）的输入特征空间对齐。最近的工作包括 MAR[234] 和 Transfusion[507]。我们将在§2.4.2 中进一步详细阐述连续输出的解码以及在§2.4.2 中对输出特征的转换。

解码。与纯文本生成不同，多模态生成要求模型在解码时决定何时切换模态，这是由于它们的内在差异。我们将此目标称为定位。通常有两种方法来实现这一点：(1) 使用占位符 [198, 417, 506]；(2) 使用非文本模态的开始 - 句子（BOS）标记 [95, 357, 362]。

首先，可以引入特殊标记作为非文本模态数据的占位符。例如，Mini-GPT5[506] 和 GILL[198] 使用从 [IMG1] 到 [IMGr] 的一系列图像占位符标记，这些标记可以与文本标记交错，并添加到模型的词汇表中。同样，NExT-GPT[417] 使用 5 个图像占位符标记，以及 9 个音频和 25 个视频占位符标记。其次，使用单个 BOS 标记（有时伴随着 EOS 标记）可以简化过程，通过指示非文本模态数据的位置。例如，DreamLLM[95] 采用特殊的标记来标记模态切换的开始，允许单个模型运行处理一系列查询。Emu[362] 和 Emu2[357] 使用图像 BOS 和 EOS 标记来封装编码的图像特征。

除了关注定位，模型还必须学习为非文本模态生成准确的特征。通常，大型语言模型（LLMs）的输出层具有用于离散标记解码的分类头，这是我们称为输出表示的目标。为了实现连续标记输出，需要对这些输出层进行修改。一般有三种方法：(1) 将原始语言建模头调整为回归型 [357, 362]；(2) 引入新的头用于密集输出 [95]；(3) 利用语言模型头之前的最终隐藏状态 [198, 506]。

输出对齐。通常，生成的连续标记不能直接用于多模态生成，因为它们与多模态解码器（如 LDM[336] 和 AudioLDM[252]）的输入特征不匹配。为了解决这个问题，引入了额外的模块将这些标记转换为适合多模态解码器的表示，最终生成最终的非文本模态数据。例如，NExT-GPT[417] 采用基于变压器的输出投影，而 Mini-GPT5[506] 和 GILL[198] 利用类似于 Q-Former 的架构 [227]（由变压器编码器和解码器组成）将连续标记转换为稳定扩散模型的条件潜在特征。DreamLLM[95] 使用线性层，而 Emu[362] 和 Emu2[357] 直接利用生成的连续标记作为多模态解码器的潜在表示。

2.5 不同模态的连续标记化

虽然前面的工作流程和分类概述了连续多模态标记化的一般方法，但研究表明，采用针对每个模态定制的特定模态编码器可以显著提高性能 [79, 295, 380]。鉴于不同模态的独特特征，这些方法在标记化过程中引入了特定的归纳偏差。

2.5.1 图像

对于图像，具体的研究方向包括但不限于：图像增强、分辨率和纵横比以及异构图像。

(1) 图像增强：这涉及使用深度、边缘和分割等元素增强图像表示 [196, 260, 392]。例如，Prismer[260] 引入了超越传统 RGB 补丁的特征，如深度和法线补丁化。这些特征在由统一图像编码器集成之前，由共享专家重采样器进行压缩。SAM-CLIP[392] 利用 SAM[196] 和 CLIP 文本编码器进行蒸馏训练，提高了图像编码器的语义和空间理解能力。

(2) 分辨率和纵横比：该策略包括支持高分辨率图像、多分辨率能力和任意纵横比 [18, 79, 152, 430, 447]。例如，Fuyu[18] 通过线性投影将原始像素作为图像编码输入用于 LLM 骨干网络，并使用特殊的图像换行标记来划分光栅顺序的补丁。这使得能够支持各种分辨率和纵横比。MS-ViT[152] 建议根据图像区域复杂性进行不同的补丁化，引入一个门机制来标记需要更精细补丁化的标记，然后在位置编码插值后进行编码。

(3) 异构图像：这包括对特定图像类型（如矢量图像、图表、图形和 PDF）的编码方法 [263, 431, 447]。例如，文档图像需要仔细观察，如 TextMonkey[263] 所示，它将大型文档图像分割为较小的子图像。每个子图像单独编码，并在冻结的 ViT 层之后添加可训练的移位注意力层，以实现子图像之间的交互表示。然后，这些子图像通过图像和标记重采样器进行压缩并输入到 LLM 骨干网络中。

2.5.2 音频

最近，MELLE[289] 表明以 NTP 方式预测连续标记可以生成与真实音频质量和自然度相当的音频。传统上，音频帧通过短时傅里叶变换（STFT）[139] 或快速傅里叶变换（FFT）[103] 从时域转换到频域。变换后的帧的幅度被建模为频谱图，这是一个显示信号频率内容随时间演变的 2D 图像。原始音频信号的频谱图或其他变换在转换为离散标记之前还需要经过特征选择管道。梅尔频率倒谱系数（MFCCs）[122] 提取代表声音短期功率谱的系数，是语音识别中最常用的特征之一。梅尔频谱图 [122] 将频谱图转换为更符合人类听觉感知的梅尔尺度。这些连续特征常用于音频生成任务。

预训练的基础模型，通常在大规模语料库上以自监督方式学习，已成为强大的语音和音频表示提取器 [211]。为了获得通用语音特征，wav2vec 2.0[11] 在潜在空间中掩码语音输入，并处理通过同时学习的量化潜在表示定义的对比任务。data2vec[9] 根据其距离对查询 - 键注意力分数施加惩罚来偏置。HuBERT[160] 采用离线聚类步骤为类似 BERT 的预测损失提供对齐的目标标签，该损失仅应用于掩码区域。WavLM[56] 引入了在预训练中的去噪，与常规掩码语音预测一起，如 HuBERT。Whisper[322] 是一种基于注意力的编码器 - 解码器架构的语音识别模型，在网络规模的标记语音数据上进行训练。它越来越多地被用作基础语音模型，其应用范围已超出语音识别任务[162, 287, 288, 366]。

对于音频的连续标记化，AST[134]使用无卷积的纯变压器架构来提取音频分类的特征，借鉴了 ViT[96]的思路。受 CLIP[321]的启发，CLAP[110]引入了对比语言 - 音频预训练任务，利用监督的音频和文本对来学习文本增强的音频表示。基于预训练的 CLIP 模型进行微调，Wav2CLIP[412]和 AudioCLIP[146]纳入了额外的音频编码器，使用监督的音频和类别标签对。Audio - MAE[165]采用基于变压器的编码器 - 解码器框架来学习音频表示。与 MAE 类似，它使用重建预训练任务，其中解码器负责从编码的未掩码补丁信息中重建掩码补丁。BEATs[57]引入了自蒸馏标记器，将连续音频信号转换为离散标签，便于进行经典的掩码和离散标签预测预训练。

2.5.3 视频

视频可以看作是随时间变化的图像（帧）序列，因此对这些帧之间的时间关系进行建模成为核心关注点。有两种常见的方法来实现这种建模：后时间融合和全时间融合。

在后时间融合的情况下，像 CLIP4Clip[276]和 CLIPBERT[220]这样的模型首先使用图像编码器独立地对每个帧进行编码。然后，它们采用轻量级的池化、卷积和注意力机制在时间上融合所有帧的特征。这种方法的优点是能够利用预训练的图像编码器，从而减少适应视频数据所需的计算开销。然而，一个显著的缺点是其在时间维度上充分建模特征的能力有限。

另一方面，全时空融合模型，如 Temporal 3D ConvNets[89]、VideoMAE[377]和 ViViT[6]，利用 3D 卷积或 3D 注意力结构，允许输入在时空维度上进行全面的交互。这能够更好地对时间顺序的动态变化进行建模，有效地捕捉物体和背景的运动。然而，这种方法需要大量的 3D 计算，促使人们采用常见的策略，如解耦时间和空间自注意力[22, 332]和实现稀疏 3D 注意力[247]来提高计算效率。

最近的进展，如 TimeChat[333]和 NumPro[419]，探索了将时间戳信息集成到连续视频标记中，促进了明确的时间 - 视觉关联，以提高时间定位和推理能力。

3. 用于多模态下一个标记预测的骨干模型

在将多模态信息标记化为顺序标记后，我们需要一个能够处理多模态信息的模型。在文献中，有两种经典的 MMNTP 模型结构如图 8 所示：1）组合模型和 2）统一模型。关键区别在于它们的设计：组合模型依赖于经过大量训练的外部编码器和解码器（如[321]）以及扩散模型[158]来完成理解和生成任务；相比之下，统一模型采用轻量级的编码器和解码器，多模态理解和生成任务主要在骨干模型（通常是大型变压器解码器）内完成。当前 MMNTP 模型的分类如表 3 所示。我们将在§3.1 中介绍 MMNTP 模型的一般结构，在§3.2 和§3.3 中分别介绍组合模型和统一模型的最新进展，并在§3.4 中对它们进行比较。

3.1 MMNTP 模型的基本结构

如图 9 所示，为了实现多模态理解和生成作为下一个标记预测，通常涉及三个步骤。步骤 1：将各种输入——图像、文本、音频、动作等，编码为共享表示空间中的标记序列。步骤 2：使用多模态变压器以自回归方式预测下一个标记。步骤 3：将预测的标记解码到各自的模态空间中。

图 9 还展示了基于 NTP 的多模态模型的关键模块，包括每个模态的标记器（编码器）和去标记器（解码器）以及多模态变压器。标记器（编码器）和去标记器（解码器）模块通常一起出现，并通过重建等技术使用单模态数据进行预训练。它们能够使用标记器（编码器）将原始输入分割为标记，并使用去标记器（解码器）将标记恢复为原始形式。一旦所有模态的标记器（编码器）和去标记器（解码器）都经过预训练，我们就可以针对包含多种模态的输入单独激活所需的标记器（编码器），从而获得多模态标记序列。最后，将这些多模态标记序列输入到多模态变压器中进行 NTP 训练。

对于多模态变压器，我们可以使用不同的注意力掩码来控制来自不同模态的信息流动[373, 422]。如图 10 所示，一种常见的注意力掩码是因果掩码，它要求每个标记仅依赖于前面的上下文进行生成。然而，某些任务需要根据内容丰富的输入前缀生成后续文本，例如基于富文本格式文档生成摘要。对于此类任务，我们也可以使用非因果掩码，它对前缀应用双向注意力，允许前缀内的上下文相互依赖并提供更好的表示，同时在生成要生成的内容时使用因果注意力进行自回归生成。总之，我们可以根据任务要求灵活选择注意力掩码。

3.1.1 视觉任务的统一结构

如图 11 所示，视觉模态中的各种任务可以封装在 MMNTP 框架内。目前，大多数大型多模态模型（LMMs），如 LLaVA[254]和 Qwen-VL[12, 395]系列，遵循基于 NTP 的视觉问答范式。在这种方法中，图像和文本指令被标记化并发送到变压器解码器以获得答案标记。另一条研究路线侧重于自回归图像生成，主要采用基于 NTP 的文本到图像生成范式，如 LlamaGen[356]、VAR[373]和 DnD-Transformer[51]等模型。或者，输出图像标记可以以非因果顺序生成，如 MaskGIT[44]和 RAR[459]等工作所示。此外，这些标记可以是连续的，然后发送到基于扩散的图像去标记器，如 MAR[234]和 Transfusion[507]等近期发展所示。一些研究结合了上述范式，使 LMMs 能够执行视觉理解和生成，如 Show-o[422]、Janus[410]和 Emu3[401]等模型所示。具体而言，NTP 范式还支持各种图像到图像任务，如图像编辑和语义分割，这在 Unified-IO2 和 LVM[13]中有所体现。

3.1.2 音频任务的统一结构

如图 12 所示，不同的基于 NTP 的模型架构对于各种音频处理和生成任务是必需的。对于音频理解[65, 162, 366]，大规模数据预训练的编码器在从语音中提取信息方面表现出优于离散标记的性能。此外，还使用一个适配器来促进音频和文本域之间的连接。同时，文本指令可以指定特定的音频处理任务，如自动语音识别、语音翻译和语音问答。对于音频生成，音频信号通常被转换为离散标记[202, 206, 391]或连续标记[289]。然后，这些标记可以通过使用相应的解码器或声码器转换回波形格式。文本既可以是要合成的特定语音内容，也可以是音频的详细描述。利用基于 NTP 的模型的上下文学习能力和可扩展性潜力，它在零样本文本到音频合成中取得了出色的性能，其中提供了提示音频。最近，对全双工实时口语对话[78, 302]的探索进展迅速，这需要强大的音频理解和流式语音生成能力。在 Moshi[78]中，为了满足这些要求，同时对多个音频流（包括用户输入和模型输出）进行建模，并引入了一种新颖的流音频标记器。对于这些任务，变压器解码器的参数可以有效地使用从 LLM 导出的参数进行初始化。

3.2 组合模型

如图 8 所示，组合模型利用先进的外部模型作为编码器和解码器来处理多模态信息。本节分别介绍这两个组件。

3.2.1 连接外部编码器以实现理解

使 LLM 具备多模态信息理解能力的一种常见架构方法是使用强大的外部编码器将原始多模态数据编码为更好的表示。开创性的工作包括 MiniGPT4[509]和 LLaVA[254]，它们将视觉编码器、对齐层和 LLM 结合起来，用于通用的视觉和语言理解。LLaVA 风格的结构[254]，使用 CLIP[321]作为编码器和 MLP 作为对齐层，已被许多后续模型采用。最近的研究表明，扩大视觉编码器的规模[12, 60]并允许更灵活的输入图像分辨率[12, 430]可以显著提高模型的视觉感知能力。在音频领域也采用了类似的架构方法，使 LLMs 具备感知和处理语音信号的能力，如 SALMONN[366]、Qwen-Audio[65]和 WavLLM[162]等模型所示。关于编码器设计的详细讨论，请参考§2.4.1。

3.2.2 连接外部解码器以实现生成

为了使 LLM 能够生成多模态输出，包括图像，一种直接的方法是将其连接到强大的图像生成模型，如潜在扩散模型[338]。在这种情况下，确保 LLM 生成超出仅语言标记的连续特征，并使输出与扩散模型的输入空间对齐至关重要。典型的工作包括 Emu[362]，它在 LLM 的输出隐藏状态之上添加一个回归头，以预测扩散模型的视觉嵌入。关于解码器设计的详细讨论，请参考§2.4.2。

为了使 LLM 能够以组合方式具备多模态理解和生成能力，可以同时将外部编码器和解码器连接到骨干模型。一个经典的结构示例是 Emu1 和 Emu2[362, 363]，它采用 EVA-CLIP[360]作为编码器和 SDXL 作为图像解码器。在音频领域，LLaMA-Omni[115]利用 Whisper-large-v3[322]作为编码器和基于变压器的解码器。

3.3 统一模型

如图 8 所示，统一模型利用轻量级的编码器和解码器来处理和生成多模态信息。骨干模型在理解和生成任务中承担了大部分角色。本节将介绍统一模型的两种主要结构。

3.3.1 基于量化的自回归

由于其简单性和与因果语言建模任务的相似性，基于量化的方法在构建用于多模态理解和生成的统一模型中得到了广泛应用。通常，编码器和解码器源自 VQVAEs，经过训练以从离散表示空间重建输入。在生成方面，研究探索了以更高质量自回归生成图像[51, 328, 356, 373]和音频[70, 202, 206, 440]，并整合了优化 LLMs 的先进技术。另一条工作线侧重于使用基于量化的方法同时理解和生成多模态信息。著名的例子包括 Unified-IO[271]、Chameleon[369]、Emu-3[400]和 Moshi[78]，它们采用统一的 NTP 训练目标来完成多模态理解和生成任务。

3.3.2 自回归扩散

基于量化的方法在生成质量方面经常受到批评。它通常以光栅扫描顺序生成图像，这与 2D 图像的内在性质相矛盾。此外，量化过程可能导致信息损失。一些工作旨在将扩散过程集成到 NTP 中以提高生成质量。与组合方法不同，扩散模型与整个变压器模型一起从头开始训练。独特的工作如 Transfusion[507]、MAR[234]、CosyVoice[101]和 Fluid[113]表明，扩散模型可以与语言建模任务联合训练，提供比基于量化的方法更好的图像生成质量。

关于图像生成的基于量化和基于扩散的自回归方法之间的争论仍在继续，这凸显了进一步研究的必要性。例如，虽然许多基于扩散的 AR 方法[234, 507]声称比量化方法具有更好的生成质量，但 Emu3[400]使用基于量化的 AR 方法显著优于 SDXL 等扩散基线。DnD-Transformer[51]表明，基于量化的 AR 生成在生成富文本图像方面比扩散模型具有更好的性能。总之，目前还没有定论哪种建模方法在性能上优于另一种。

3.4 组合模型和统一模型的比较

本节深入比较了组合模型和统一模型，评估了它们在通用多模态智能、训练和部署效率以及随着计算资源增加而扩展的潜力方面的各自优势和劣势。

通用多模态智能。统一模型在单个骨干模型内处理多模态理解和推理，而组合模型将不同任务分配给专门的外部模型。尽管 NTP 已经改变了语言智能，但它对多模态智能的影响仍不确定。在这种情况下，统一模型由于其端到端的性质更接近多模态基础模型[224, 401]，并且可能比组合模型具有更大的潜力，因为它们依赖于单个 NTP 训练目标，与多模块系统相比更易于扩展。我们将在§6.1 中讨论 MMNTP 模型的扩展行为。

训练效率。组合模型受益于利用高度专业化的外部编码器和解码器，通常在新任务上导致减少的训练时间，因为这些组件是单独预训练的。这种模块化方法允许有针对性的更新，重用现有的强大模型，而无需对整个系统进行大量的重新训练。相比之下，统一模型将大部分理解和生成责任留给一个骨干模型，在相同的计算量下导致次优性能[422]。这种集成训练可能更耗费资源，但它有可能促进 LLM 骨干网络中跨模态的更连贯的特征空间，从而有可能提高在各种多模态任务上的整体性能。

部署效率。统一模型，特别是在使用基于量化的方法时，与组合方法相比，展示出显著更高的部署效率。单个统一的变压器解码器骨干可以有效地利用 LLM 社区开发的先进技术来加速训练和推理，如 FlashAttention[75]和 vLLM[205]。这一能力经常被引用为统一模型的关键优势，如[356, 401]所强调的。

4. 使用统一多模态任务表示的训练

一旦将来自各种模态的内容标记化为标记序列，并使用统一的骨干模型（通常是仅解码器的变压器模型[386]），我们就可以根据不同的训练目标（参考§4.1）进行训练，以处理各种下游理解和生成任务。训练任务主要分为两类，类似于大型语言模型的训练：预训练（参考§4.2）和微调（参考§4.3）。

对于输入标记序列，模型预测下一个标记。单个预测的一般损失函数可以写为：

其中：是由模型参数和损失函数参数化的损失。是总词汇表。我们用、表示完整词汇表的文本部分和多模态部分，表示连续标记，它们是连续向量。表示下一个标记的目标输出。在监督训练中，通常从标记数据中导出，而在自监督训练中，可以从数据本身构建而无需明确的标签，通常使用输入序列中的真实下一个标记。在特殊情况下，可能涉及多个标记，允许并行预测下一个标记。当是离散标记分布时，是交叉熵损失。如果属于连续标记，也可以有不同的形式，如均方误差。

不同的训练任务在给定序列和目标标签的组织方式上有所不同。对于自监督训练，序列本身提供目标，使用正确的下一个标记作为标签。这允许模型从大量可用的未标记多模态数据中学习，但消耗更多的训练资源。监督训练需要明确标记下一个标记，这可以通过在数据收集期间付出更多努力来提高更具体的下游任务的性能。

4.1 训练目标

基于要预测的目标标记的类型，NTP 训练目标可进一步分为两类：离散标记预测、连续标记预测或它们的组合。

在图 13 中，我们以文本到图像生成任务为例展示了这两种训练目标的区别。

4.1.1 离散标记预测（DTP）

离散标记预测（DTP）是指学习根据上下文预测下一个离散标记。下一个标记可以属于文本或不同的模态。这种方法将传统的因果语言建模（CLM）扩展到适应与其他数据模态（如图像）交错的文本输入和输出。DTP 使模型能够以统一的方式理解和生成来自不同模态的不同内容。训练目标是最小化标记之间的平均交叉熵损失。

在多模态理解能力方面，大多数多模态大语言模型（例如 Flamingo [282]、GPT4V [301]、MiniGPT4 [509]、Qwen-VL [12] 和 LLaVA [254]）在给定多模态输入时仅预测语言标记。它们利用大语言模型强大的推理能力和世界知识来支持各种多模态理解任务，而无需重新预训练模型。

将输出标记空间扩展到离散多模态标记（如量化码）将实现多模态生成能力。在这种方法中，多模态内容首先转换为离散标记，并使用交叉熵损失作为损失函数。一个主要的研究方向是自回归多模态信息生成，例如 DALLE [327]、CogView [91]、Unified-IO [271]、LVM [13] 和 Video-Poet [199]。

将两个输出空间（和）合并到一个模型中是一个有趣的方向 [257, 270, 271]，这自然地统一了多模态理解和生成任务。然而，一些相关研究 [489] 表明，学习预测文本标记对预测多模态标记没有帮助，有时甚至会导致强烈的冲突。在 NTP 训练框架下，多模态生成是否有助于理解能力也仍然不清楚。因此，有效地整合文本和多模态标记的输出空间是该领域的主要挑战之一，凸显了需要创新和可扩展的方法来充分发挥 NTP 模型在多模态学习中的潜力。

标准的下一个标记预测的一个变体是一次预测多个标记，不遵循因果顺序。最近的研究 [44, 374, 456] 发现，对于图像和视频等视觉领域，并行预测比简单的基于光栅的预测（从左到右、从上到下预测图像标记）更有效。MaskGIT [44] 和 MAGVIT [456] 根据动态置信阈值在每个预测步骤中预测一部分标记。VAR [374] 以分辨率自回归的方式预测视觉标记，即并行预测相同分辨率的标记，并按顺序预测从低到高分辨率的图像。这些方法在 NTP 建模过程中为不同模态注入了不同的归纳偏差，这也是在多模态 NTP 框架中统一多种模态时的一个重要挑战。

4.1.2 连续标记预测（CTP）

除了离散多模态标记外，多模态信息也可以表示为连续向量，称为连续标记。连续标记可以被视为外部模型（如稳定扩散模型）的条件，以获得更好的生成质量。连续标记通常使用均方误差损失 [198, 357, 362, 368, 506] 进行自回归预测。例如，Emu-1 和 Emu-2 [357, 362] 利用大型语言模型生成连续标记，这些标记用作预训练扩散模型生成图像的条件。在文本到图像指令调整阶段，语言模型和扩散模型同时进行训练。这种方法利用了开源扩散模型强大的图像生成能力，并以适度的额外成本解锁了大型语言模型的多模态生成能力。

除了将连续标记用作外部模型的条件外，一些研究探索了使用连续标记直接生成图像，在整个 NTP 训练范式中用连续标记替换离散标记。El-Nouby 等人 [107] 揭示，当使用 L2 损失进行训练时，基于补丁的图像变压器表现出与大语言模型类似的缩放特性。[237] 用连续标记表示图像，并在训练因果变压器模型时涉及扩散损失。然而，这些模型仅在单一模态（如图像）上进行训练。不同模态的不同训练目标是否能在一个 NTP 模型中和谐共存仍有待进一步探索。

4.2 预训练：模态对齐

大型语言模型在纯语言领域已经证明了其有效性和可扩展性。类似地，开创性的研究正在探索利用大量的多模态数据在 NTP 框架下训练大型多模态模型。LMM 预训练的主要重点是将不同模态的表示空间与语言空间对齐，这可以分为理解（§4.2.1）和生成（§4.2.2）任务中的对齐。

4.2.1 理解中的模态对齐

模态对齐是一个关键过程，旨在将来自不同模态的输入表示在一个共享空间中，以便后续处理。鉴于各种模态的本质差异，专门针对每个模态的编码器将原始输入转换为向量表示，然后在共享空间中进行对齐。例如，视觉 - 语言模型的对齐训练通常在一个大规模语料库上进行，其中包括图像 - 文本对，图像表示为，其相应的标题表示为。模态对齐目标通常遵循条件语言建模格式，表示为：

其中，模态编码器模块的参数（例如负责将多模态输入映射到共享空间中的向量的 CLIP 视觉编码器）专门进行训练以提高稳定性。

值得注意的是，图像的模态条件可以很容易地适应其他模态，如视频和音频，相应的训练语料库如 WebVid [14] 用于视频 - 文本对齐，Clotho [98] 用于音频 - 文本对齐，CroCo [409] 用于 3D 视图和具身 Habitat [343]。此外，文本和图像也可以相互交错，并且目标可以相应地进行调整 [7, 214]。我们在后面的章节（§5.1.1）中提供了模态对齐训练的综合列表。

4.2.2 生成中的模态对齐

通过将 one-hot 单词索引替换为相应的模态标记，对齐目标可以很容易地适应生成场景，这些模态标记可以通过预定义的码本学习或通过回归进行优化。以传统的文本到图像任务为例，给定一个描述 - 图像对，对齐目标变为：

在 DTM 中，可以是通过现成模型（如 VQGAN）学习的目标离散视觉标记，并且图像内容将通过将标记映射回图像空间通过码本进行重建。在 CSM 中，是一个连续的模态向量，可以通过解码器进一步解码以生成图像像素 [363]。此外，目标也可以以跨度损坏的方式实现，以更好地重建特定模态 [271]。

鉴于对齐阶段的一个主要目标是协调不同模态中表达的概念的语义，全面覆盖训练语料库变得至关重要。因此，对齐训练通常在网络规模的数据集上进行。例如，视觉 - 文本对齐通常在 Laion400M [345] 和 Laion5B [344] 上进行数百万甚至数十亿对的训练。

4.3 微调：指令和偏好

在进行模态对齐训练后，LMMs 在统一的语义空间中获得了对各种模态语义的基本理解。为了进一步提高 LMMs 理解和执行复杂用户查询（如图像理解和生成）的能力，研究人员在精心策划的数据集上使用指令调整。随后，使用偏好对齐训练来根据隐式人类偏好改进模型行为，并解决早期训练阶段可能出现的潜在问题。在下面的讨论中，我们将讨论指令调整（§4.3.1 和§4.3.2）和对齐训练（§4.3.3 和§4.3.4）的最新进展，并探索这些领域未来研究的有前途的途径。

4.3.1 理解中的指令调整

在进行模态对齐训练后，不同模态的输入现在可以在统一的嵌入空间中表示，以便骨干 LLM 执行复杂任务。指令调整（也称为监督微调）在激活多模态语言模型的这种潜力方面起着至关重要的作用。具体来说，指令调整旨在提高模型满足用户查询的能力。再次以视觉语言模型为例，视觉指令调整涉及在一个通常由图像、用户查询和期望响应组成的多模态三元组数据集上训练模型。这仍然可以通过前面的训练目标实现：

与之前的对齐训练不同，指令调整阶段涉及一个更具挑战性的目标，即对模态进行推理，激励模型探索不同模态之间的内在相互作用，以增加首选答案的可能性。已经表明，指令调整的质量是能力的关键 [253]。试点研究探索了构建高质量指令调整数据集的各种方法，例如改编现有的多模态基准 [231, 432, 434]，使用 ChatGPT/GPT-4 进行自我指令合成数据集 [50, 254, 496, 503]。此外，将多模态指令数据集与仅文本的查询 - 响应对混合也被证明对提高指令遵循能力有效 [254, 434]。在后面的章节中也可以找到这些指令调整数据集的精选列表。

4.3.2 生成中的指令调整

与理解中的做法类似，在对齐后提高生成能力的关键是收集高质量和多样化的任务数据集，其中重建目标根据任务要求而变化。然而，大多数训练目标仍然属于标记建模范式，具有不同的标记化方案。给定指定目标输出要求的条件用户查询，期望的输出（如文本句子、图像/视频和音频）表示为个标记的序列。在指令调整阶段，优化以下目标：

其中将是在对齐训练目标中处理的相应离散标记或连续向量。为了广泛覆盖生成能力，以前的工作 [271] 集成了大量的多任务数据集，并在训练期间平衡采样比例，以更好地使模型接触到代表性不足的任务。AnyGPT [474] 利用商业图像生成和音乐生成系统构建大规模高质量的文本到多模态指令调整数据集。

4.3.3 理解中的偏好对齐训练

尽管之前的训练阶段取得了进展，但仍然存在一些问题，例如可能会生成与提供的视觉背景不相关的误导性内容 [238, 364]，或者对少数群体产生有偏见的响应 [301]。为了进一步使 LMMs 与人类偏好对齐，试点研究从 LLM 中汲取灵感，并应用对齐技术，如带有人类反馈的强化学习（RLHF）[304] 和直接偏好优化（DPO）[325] 到 LMMs。LLaVA-RLHF [364] 首先探索了 RLHF 用于视觉语言模型，通过在合成数据集上训练一个以事实为导向的奖励模型，引导 VLM 生成与视觉背景更好对齐的输出。形式上，设是一个包含图像和文本输入的提示，表示由模型生成的相应响应。RLHF 过程可以表示为：

其中是奖励模型，KL 项惩罚当前模型与初始模型的偏差，是一个超参数。RLHF 过程旨在微调模型以从奖励模型获得更高的奖励，同时保留其大部分原始知识。由于训练奖励模型可能因稳定性问题而困难，因此出现了 DPO 方法来应对这些挑战。DPO 的关键思想是，最优策略对于奖励函数和初始策略有一个封闭形式的解：

其中是配分函数。在布拉德利 - 特里（BT）偏好模型 [29] 下，目标变为：

其中表示 sigmoid 函数。RLHF-V [463] 以片段级纠正幻觉的形式收集人类偏好，并对人类反馈进行密集的直接偏好优化。Li 等人 [230] 通过使用 GPT-4V 模型注释偏好构建 VLFeedback，并在 Qwen-VL-Chat 上应用 DPO，显示出明显的优势。

4.3.4 生成中的偏好对齐训练

由于计算成本和收集大规模比较数据集（即创建略有不同的图像）的困难，在生成统一多模态模型中的偏好对齐方面的探索较少。有一些试点研究调查了扩散模型的偏好对齐，其中给定条件和初始潜在，生成序列的预期奖励为：

与理解任务中的对齐训练类似，目标是最大化预期奖励，同时最小化学习分布与参考分布之间的 KL 散度：

当前对齐图像生成模型的方法主要采用 DPO 来绕过繁琐的奖励建模过程。Wallace 等人 [389] 重新表述了 DPO，以考虑扩散模型中难以处理的似然性，其中使用证据下界（ELBO）导出可微的目标函数进行优化。最终的 DPO - Diffusion 损失函数鼓励模型更多地改进对首选图像的去噪过程，而不是非首选图像。

其中为了简洁起见省略了条件。模型在 Pick-a-Pic [197] 数据集上进行训练，该数据集包含 SDXL-beta 和 Dreamlike（Stable Diffusion 1.5 的微调版本）生成的图像的成对偏好。D3PO [441] 则将扩散生成视为多步决策问题。在温和的假设下，模型通过图像段级别的偏好目标进行训练。人类注释者被询问最终图像质量，D3PO 假设首选图像的任何状态 - 动作对都优于被拒绝的图像。

4.4 推理：通过提示工程增强多模态任务性能

在预训练和微调阶段之后，MMNTP 模型也可以像 LLM 一样从提示工程技术中受益。源于提示工程研究 [387]，上下文学习（ICL）[94] 和思维链推理（CoT）[408] 是显著提高 LLM 在复杂任务（如数学推理 [68]）上性能的关键方法。如图 16 所示，ICL 在 LMM 的提示中添加少量示例，以指导和提高模型在未见过的示例上的性能。CoT 引导模型逐步阐述推理过程。

尽管提示工程技术在 LLM 中取得了巨大成功 [387]，但它们在多模态中的应用到目前为止仍未得到充分探索。表 4 列出了关于多模态 ICL 和 CoT 研究的相关工作。

4.4.1 多模态上下文学习

多模态上下文学习（ICL）是一种新兴的范式，其中模型利用包含视觉、文本和其他可选模态的少量演示示例来执行多模态任务。在这种学习范式中，由大型多模态模型处理的输入分为两个组件：查询和上下文。大型多模态模型（LMM）需要基于这两部分生成一个标记序列作为输出：

上下文由一组输入 - 输出 ICL 示例组成：

采用 Todd 等人 [375] 的表示法，我们将组织上下文的通用模板表示如下：

其中和分别象征问题和答案模板结构，和分别表示第个演示的问题和答案。

与单模态 ICL 相比，多模态 ICL 带来了独特的挑战，特别是在整合和对齐不同模态（如文本、图像和视频）方面 [351][497][15]。在多模态 ICL 中，查询和上下文的模态可能会有所不同，传达互补但不同的信息，这可能会导致不平衡或低效的学习。最近的研究 [7][15] 指出，许多多模态 ICL 系统的性能在很大程度上仍然由文本驱动，其他模态（如图像或视频）对整体任务性能的贡献最小。

为了解决这一挑战，一些方法 [7, 453, 453, 497] 专注于增强模型在不同多模态任务中的泛化能力。EILEV [453] 提出了用于视频理解的新训练方法。MMICL [497] 和 CoBSAT [471] 使用专门的数据集和提示工程来增强多模态推理。最近的工作进一步扩展了这些努力，通过探索大规模模型以实现更有效的具有交错多模态输入的上下文学习，[212, 257, 358, 358]。

4.4.2 多模态思维链提示

多模态思维链（CoT）是一种方法，通过逐步推导和连贯思考，使模型能够在多模态环境中执行复杂的推理和决策。由 Zhang 等人 [494] 开创，MMCoT 将思维链提示引入视觉领域，带来了劳动密集型注释的挑战，因为多模态数据通常需要昂贵且复杂的人类标注信息。MM - CoT 采用 ScienceQA [273]，这是一个专注于涉及多种模态且带有注释推理的科学问题的数据集，而 VoT [116] 通过结合机器和人类专业知识的主动学习来应对视频任务中的注释挑战。

另一个挑战在于减轻语言幻觉 [3, 53, 179, 285, 330, 488, 499]，当同时提供多模态信息时，由于缺乏必要的和细粒度的视觉上下文，这种幻觉会加剧。为了更好地注入视觉信息，V* [416] 通过动态聚焦关键视觉区域来解决此问题，确保准确关注视觉细节，特别是在高分辨率图像中。CCoT [293] 生成场景图而不是简单的标题，通过对视觉特征进行明确推理来避免误解。此外，DDCoT [505] 引入了一种新的 CoT 提示方法，将推理和视觉识别的角色在语言和视觉模型之间进行划分，从而提高推理清晰度并减少幻觉。

后续工作 [404][116][100][326] 将该方法扩展到图像之外，包括视频和音频。例如，CoT - ST [100] 框架将思维链推理应用于语音翻译，将过程分解为不同步骤以提高准确性和流畅性。VideoCoT [404] 专注于复杂的视频推理，旨在实现人类水平的视频理解。

5. 数据集和评估

在本节中，我们深入探讨训练和评估 MMNTP 模型的几个关键方面。细分首先从对训练数据集的探索开始（§5.1），分为预训练和微调数据集。预训练数据集根据模态进一步分为仅文本、基于图像、基于视频和基于音频的数据，这些数据对于模态对齐和建立统一的多模态表示至关重要。接下来，描述微调数据集，重点关注它们在多模态理解和多模态生成任务中的具体应用。

此外，我们讨论了 MMNTP 模型的评估（§5.2），这对于衡量它们在各种模态中的有效性和能力至关重要。这方面分为整体评估和新兴评估基准。整体评估基准，如 MME [120] 和 SEED - Bench [222]，全面评估不同模态（如图像、文本和视频）之间的集成和相互作用。新兴基准，包括 SparklesEval [167] 和 HallusionBench [140]，通过测试模型输出中的专业能力（如对话能力、数学推理和减轻幻觉）进一步推动了边界。

5.1 训练数据集

根据训练阶段，我们将数据分为预训练数据和微调数据。预训练数据根据模态可分为单模态数据和多模态数据。微调数据根据其使用场景分为多模态理解数据和多模态生成数据。

5.1.1 预训练数据集

与仅在纯文本数据上进行预训练的大型语言模型不同，多模态模型需要在各种不同模态的数据上进行预训练，这需要大量且多样的多模态数据。在本节中，我们简要总结了几个广泛用于训练多模态模型的多模态数据集。根据模态类型，我们将这些数据分为四组：仅文本、基于图像、基于视频和基于音频。

仅文本。虽然纯文本数据通常用于语言模型，但它在增强多模态模型的语言表达和推理能力方面也起着至关重要的作用。为此，纯文本数据被整合到预训练语料库中。在这种情况下最广泛使用的数据集之一是 C4 [147]，这是一个从网络爬取中过滤得到的开源数据集。其多语言变体 mC4 [436] 包含来自公共 Common Crawl 网络存档的 101 种语言的自然文本。此外，维基百科数据集 [144] 由多种语言的清理文章组成，是从维基百科转储的特定语言部分创建的。另一个对该领域的重要贡献是 The Pile，这是一个用于语言建模的大规模且多样的开源数据集。它总共积累了 825 GiB，是 22 个不同的高质量较小数据集的集合，为语言模型预训练提供了丰富的资源。最近，RedPajama [69]，一个包含 30 万亿标记用于训练大型语言模型的开放数据集，也已推出，为开发先进的语言模型提供了重要资源。此外，FineWeb [310] 发布了一个新的大规模（15 万亿标记）用于 LLM 预训练的数据集。FineWeb 源自 96 个 CommonCrawl 快照，并产生了性能更好的 LLMs。Dolma [352] 是一个高质量的开放数据集，来自多样化的网络内容、学术出版物、代码、书籍和百科全书材料的混合，涵盖 3T 标记。

基于图像。多模态数据对于模型进行模态对齐至关重要，即将不同的模态表示映射到一个统一的空间。CLIP [321] 是使用来自互联网的 4 亿图像 - 文本对开发的。随后的模型如 ALIGN [180]、BASIC [314] 和 Florence [464] 在甚至更大且更多样化的数据集上进行训练，这些数据集具有更嘈杂的图像 - 文本对。然而，这些广泛的数据集大多无法公开获取。在学术界，研究人员建议使用几百万个图像 - 文本对进行多模态模型预训练，包括 CC12M [45]、RedCaps [81]、YFCC [372]、WIT [355] 和 Capsfusion [460]。公开可用的规模相对较小的数据集包括 SBU [303]、MSCOCO [249]、VG [203] 和 CC3M [347]。在公开可用的较大规模图像 - 文本数据集中，有 FILIP [445]、LAION - 400M [345]、COYO - 700M [35]、SA - 1B [398] 和 LAION - 5B [344] 等。此外，一些研究强调了数据质量在构建稳健多模态模型中的重要性，如 DataComp [123]、Shutterstock [299] 和 ShareGPT4V [50]。除了从网络获取图像 - 文本数据外，人们对编译交错图像和文本的数据集越来越感兴趣，这一概念由 Flamingo [3] 中介绍的 M3W [3] 数据集开创。这种数据集的著名例子包括 MMC4 [512] 和 OBELISC [213]。此外，研究中出现了一个新兴趋势，专注于提取和关联标题中的文本片段与图像中的特定区域，从而形成基于地面的图像 - 文本对。GRIT - 20M [313] 和 CapsFusion - grounded [357] 等数据集体现了这种方法。

基于视频。MSR - VTT [428] 包含 10K 个不同的网络视频剪辑和 200K 个剪辑 - 句子对，涵盖广泛的类别。HowTo100M [292] 通过 1.22 百万个关于烹饪和手工艺等主题的 YouTube 视频扩展了这一领域，并通过自动语音识别系统或手动输入丰富了字幕。ACAV100M [219] 提供了一个庞大的 100 百万视频库，非常适合具有高视听对应的自监督学习。WebVid [14] 通过手动制作的准确标题增强了视频数据。Ego4D [137] 提供了大量多样化的以自我为中心的视频素材用于研究。HD - VILA [435] 引入了一个高分辨率的视频 - 语言数据集，内容多样。YT - Temporal [469] 源自公共 YouTube 视频，专注于拓宽对物体、动作和场景的理解。VideoCC3M [297] 利用新的管道将图像标题转移到视频中，无需额外的手动劳动。Youku - mPLUG [426] 发布了最大的公开中文视频 - 语言数据集，优先考虑安全性、多样性和质量。最近，InternVid [403] 展示了一种构建高质量视频 - 文本数据集的可扩展方法，使用大型语言模型有效地增强了视频语言表示学习。

基于音频。基于音频的预训练数据集主要可分为三类：语音预训练数据集、音乐预训练数据集和通用音频预训练数据集。Librilight [190] 包含超过 60k 小时的未标记语音数据，广泛用于音频预训练 [391, 493]。Libriheavy [191] 引入了一个改进的音频对齐和分割管道，并带有标点和大写的详细注释，反映了更自然的语音模式，用于主要未标记的 Librilight。Wenetspeech [475] 是最大的普通话语音预训练语料库，收集了超过 22,400 小时的音频，其中包括 10,000 + 小时的高质量标记语音、2,400 + 小时的弱标记语音和大约 10,000 小时的未标记语音，来自各种来源，如 YouTube 和播客。Yodas [235] 提供了超过 500,000 小时的 100 多种语言的语音数据，极大地受益于音频预训练社区的多语言性质。其他广泛使用的语音预训练数据集包括 librispeech [308]、libritts [470] 和 gigaspeech [48]。音乐预训练是一个不断发展的研究领域 [85, 171, 241, 243, 274, 320, 510]。百万歌曲数据集（MSD）[23] 是最大的公开可用的当代流行音乐曲目音频特征和元数据集合之一。FMA（免费音乐档案）数据集 [77] 是一个精心策划的超过 100,000 首来自不同艺术家和流派的曲目集合，可在知识共享许可证下使用。其他广泛使用的音乐预训练数据集包括 disco10m [209]、mtg - jamendo [25] 和 Lp - musiccaps [93]。通用音频预训练数据集，包括 wavcaps [286]、audioset [129]、vggsound [49] 和 clotho [98]，主要侧重于提高视听对应定位和音频 - 文本跨模态翻译任务（不是语音 - 文本）的性能。

5.1.2 微调数据集

多模态理解。在多模态领域应用指令调整的开创性工作是由 MultiInstruct [434] 完成的，它成功地将多模态学习整合到一个包含 62 个不同任务的单一格式基准数据集中。同时，LLaVA [254] 利用以语言为中心的 GPT - 4 生成用于涉及文本和图像的多模态指令任务的数据集。MiniGPT - 4 [509] 精心组装了一个包含详细图像描述的数据集，以促进视觉和语言元素的融合。

进一步的进展包括 LMeye [239]、MMEvol [278]、PF - 1M [46] 和 SVIT [496]，它们扩大了指令调整的规模。视频内容领域也通过 Video - Chat [228] 和 Video - ChatGPT [280] 进行了探索，它们将指令调整应用于这种动态格式。在专门的医疗领域，PMC - VQA [485] 和 LLaVA - Med [225] 利用现有的医疗数据存储库构建了用于指令调整的数据集。通过 DetGPT [315] 和 MGVLID [500] 的努力，目标检测任务被巧妙地整合到指令调整中。GPT4Tools [443] 被开发出来，通过使开源大型语言模型（LLMs）能够有效利用各种工具来增强它们的能力，而则将多模态指令调整扩展到多种语言。进一步扩展，X - LLM [47]、MIMIC - IT [223]、MotionGPT [181]、Macaw - LLM [279] 和 BuboGPT [502] 涉足新的模态，扩大了指令调整的范围。LAMM [449] 和 M3DBench [232] 将 3D 任务整合到这个领域，丰富了指令调整的复杂性和适用性。同时，LLaVAR [491] 利用公开可用的 OCR 工具从 LAION [345] 数据集中提取文本丰富的图像，从而增强了视觉指令调整过程。为了解决幻觉问题，HalDetect [142] 开发了一个专注于准确图像描述的开创性多模态数据集。在追求稳健性方面，GAVIE [250] 引入了正负指令的混合，加强了视觉指令调整的训练。StableLLaVA [244] 结合了 ChatGPT 的生成能力和文本到图像模型，生成了一个包含广泛图像内容的多样化数据集。Sparkles [167] 引入了第一个为单词级交错多图像和文本交互量身定制的机器生成对话数据集。项目 LVIS - INSTRUCT4V [393] 利用 GPT - 4 改进的视觉处理优势，实现了更高的图像细节捕捉和指令注释准确性。

多模态生成。此外，一些基于指令的图像编辑数据集专注于图像生成。一个典型的数据集是 InstructPix2Pix [33]，它首先使用 GPT - 3 [34] 生成编辑图像的文本，然后利用 Stable Diffusion [336] 和 Prompt2Prompt [156] 技术生成相应的编辑图像来构建数据集。此外，HIVE [483] 引入了更多的训练三元组并纳入了人类排名结果，为更有效的模型训练提供了更强的监督信号。在此基础上，MagicBrush [481] 引入了第一个大规模、手动注释的数据集，专门用于指令引导的真实图像编辑。进一步扩展，HQ - Edit [170] 提供了一个高质量的基于指令的图像编辑数据集，包含大约 200,000 次编辑。与以前依赖属性指导或人类反馈构建数据集的方法不同，HQ - Edit 采用了可扩展的数据收集管道，利用先进的基础模型，特别是 GPT - 4V 和 DALL - E 3。

5.2 评估

评估 MMNTP 模型对于理解它们在不同维度上的能力、限制和潜力至关重要。本节探讨了评估此类模型的不同方面，概述了已建立的整体基准和新兴的评估实践。

5.2.1 整体评估

在评估多模态大型语言模型时，整体基准作为评估不同模态（如图像、文本和视频）之间集成和相互作用的基础工具。

在图像 - 语言领域，基准如 MME [120] 对模型在各种任务上的感知和认知能力进行全面评估，强调在不需要大量提示工程的情况下进行直观和可量化分析的重要性。MMBench [261] 通过纳入大规模数据集和独特的评估策略 CircularEval，扩展了这一点，通过从广泛的能力维度衍生的单项选择题，稳健地测试模型在各种能力上的表现，包括对象定位和社会推理。SEED - Bench [222] 及其后续版本 SEED - Bench - 2 [221] 通过提供详细的评估框架，进一步做出贡献，该框架聚焦于视觉 - 语言模型在不同场景下的表现，涵盖了从基础的视觉理解与语言理解，到更复杂的跨模态推理等多方面的任务，以此来综合考量模型的性能。

在视频 - 语言领域，像 VideoMME [427] 这类基准测试，是专门针对视频和语言交互场景所设计的，它重点考查模型在视频相关任务中对语言指令的理解以及基于此做出合适响应的能力，例如视频内容理解、视频事件预测等方面，从而全面衡量模型在视频 - 语言融合方面的水平。

对于多模态融合的整体评估，MMFusion [466] 基准测试提供了一个统一的框架，在这个框架里能够同时对多种模态（像图像、视频、音频与文本等）之间相互作用的效果进行衡量，观察模型在不同模态融合任务中的表现，以此来判断模型是否能有效地整合多模态信息并完成相应任务。

总体而言，这些整体评估基准从不同角度出发，致力于对多模态模型在各个模态交互融合以及完成不同任务时的综合表现给出一个较为全面、客观的评判，帮助研究人员清晰地了解模型的优势与不足，进而为后续的改进和优化提供依据。

5.2.2 新兴评估基准

随着多模态模型的不断发展以及应用场景的日益多样化，新兴的评估基准开始聚焦于一些特定的、更细化的能力维度，旨在进一步挖掘模型潜在的表现以及存在的问题。

在对话能力方面，SparklesEval [167] 作为首个针对单词级交错多图像和文本交互所定制的机器生成对话数据集，着重考查多模态模型在这种复杂交互场景下的对话能力，观察模型能否依据图像和文本信息流畅、合理地进行对话交流，为衡量模型在实际对话场景中的应用效果提供了参考。

在数学推理方面，新的评估基准尝试去测试多模态模型在结合视觉等其他模态信息时，是否能提升其数学推理的能力。例如，某些数据集会呈现包含数学元素的图像（如几何图形、统计图表等），并配以相关文字描述，然后看模型能否准确地基于这些多模态信息进行数学运算、逻辑推导等推理过程，以此来判断模型在多模态数学推理这一特定领域的表现。

在减轻幻觉方面，HallusionBench [140] 这类基准的出现是为了应对多模态模型容易出现幻觉现象（即生成不符合实际情况的内容）的问题。它通过特定的任务设置以及数据样本，精准地检测模型在不同模态下输出内容的准确性，观察模型是否会依据不准确的想象或者错误的关联生成不符合真实场景的结果，进而评估模型在抑制幻觉、保证输出内容真实性方面的能力。

通过这些新兴评估基准，可以更深入地探究多模态模型在一些前沿、专业领域的表现，发现目前模型尚存在的薄弱环节，促使研究人员针对这些问题去探索更有效的解决方法，进一步推动多模态模型朝着更智能、更可靠的方向发展。

6. 多模态下一个标记预测的开放挑战

尽管在多模态下一个标记预测（MMNTP）领域已经取得了显著的进展，但仍然存在许多开放挑战，这些挑战限制了模型在多模态智能方面达到人类水平的能力，也阻碍了其在更广泛、更复杂应用场景中的有效部署。以下将从不同方面详细阐述这些挑战以及当前一些应对思路。

6.1 模型扩展

随着多模态模型变得越来越复杂，模型扩展面临着诸多困难。一方面，从计算资源角度来看，训练大型的多模态模型需要海量的计算资源，包括强大的 GPU 集群等硬件设施以及大量的能源消耗。例如，目前一些顶尖的多模态模型训练往往需要数千甚至上万块 GPU 并行运算，这对硬件资源的要求极高，而且训练过程中的能耗成本也相当可观。另一方面，从数据角度而言，为了让模型能够学习到足够丰富的多模态信息，需要大量不同模态且高质量的数据进行训练，但收集、整理和标注这些数据的难度极大，成本也很高。例如，获取高质量的图像 - 文本对或者视频 - 文本对数据，不仅要保证数据的准确性、多样性，还要考虑不同模态之间的关联性，这涉及到复杂的人工筛选、标注等工作。

此外，即使有了充足的资源和数据，模型扩展过程中的优化问题也不容忽视。目前的优化算法在面对超大规模的多模态模型时，往往难以实现高效的参数更新，导致训练效率低下，训练周期过长。而且，随着模型规模的扩大，模型容易出现过拟合现象，即模型对训练数据过度拟合，在测试数据或者新的应用场景中表现不佳，无法有效泛化到更多的情况。

当前一些缓解这些问题的尝试包括探索更高效的硬件架构，例如专门针对深度学习设计的新型芯片等，以降低对传统 GPU 集群的依赖，提高计算效率；利用数据增强技术，通过对已有数据进行变换、组合等操作，在一定程度上增加数据的多样性，减少对大规模原始数据收集的依赖；同时，不断改进优化算法，如采用自适应学习率调整、正则化等方法，提高参数更新的效率，抑制过拟合现象的发生。

6.2 涌现能力

在多模态模型中，涌现能力是指模型在达到一定规模或经过特定训练后，突然展现出一些原本未被预期到的、复杂的能力。例如，某些多模态模型在训练过程中，可能原本只是针对一些基本的视觉 - 语言理解任务进行训练，但当模型规模足够大或者训练程度达到一定阶段时，却意外地展现出了能够进行复杂跨模态推理或者创造性图像生成等能力。

然而，目前对于这种涌现能力的产生机制还不清楚，我们很难确切地知道是哪些因素（如模型结构、训练数据、训练方法等）导致了这种能力的出现。而且，由于不清楚其产生机制，也就难以对其进行有效的控制和引导，无法保证模型在需要的时候能够稳定地展现出这些涌现能力，也很难利用这些能力来进一步提升模型的性能。

针对这一挑战，研究人员正在尝试通过详细的实验分析，对比不同模型结构、不同训练数据和训练方法下涌现能力的表现情况，试图从中找出规律；同时，利用可解释性人工智能（AI）的方法，尝试对模型的内部运作机制进行剖析，以便更好地理解涌现能力的产生根源，进而为实现对其的有效控制和引导奠定基础。

6.3 模态特定偏差

不同模态在数据分布、特征表示等方面存在着天然的差异，这就容易导致模态特定偏差的出现。例如，在图像模态中，数据往往具有高维度、空间结构等特点，而文本模态的数据则是离散的、基于语义的顺序结构。当多模态模型将这些不同模态的信息整合在一起时，由于各自的特性不同，模型可能会对某一种模态的信息过度依赖或者处理不当，从而影响整体的多模态融合效果。

在实际应用中，这种偏差可能表现为模型在处理视觉 - 语言任务时，过于侧重文本信息，而忽略了图像中一些关键的视觉细节，导致对任务的理解和执行出现偏差；或者在生成多模态内容时，由于不能很好地平衡不同模态的特征，使得生成的结果在某一模态上表现不佳，例如生成的图像不符合文本描述的内容。

为了减轻模态特定偏差，目前的做法主要包括在训练阶段采用更均衡的模态对齐方法，通过精心设计训练目标和损失函数，促使模型在融合不同模态信息时给予各模态更合理的权重；同时，在数据预处理阶段，对不同模态的数据进行归一化、标准化等操作，尽量缩小各模态之间在数据特征上的差异，使得模型在处理时能够更加公平、有效地整合不同模态的信息。

6.4 模态干扰

当多模态模型同时处理多个模态的信息时，模态之间可能会产生相互干扰的情况。例如，在一个视觉 - 语言任务中，图像中的某些元素可能会误导模型对文本信息的理解，或者文本中的某些表述可能会使模型对图像的解读出现偏差，从而影响模型最终的输出结果。这种模态干扰在多模态生成任务中表现得更为明显，因为在生成过程中需要同时协调不同模态的信息，一旦出现干扰，就很容易导致生成的内容不符合预期，比如生成的图像与对应的文本描述不一致，或者生成的文本内容与所提供的图像情境不相符。

为了应对模态干扰问题，研究人员正在探索采用模态分离技术，在模型的输入、处理和输出阶段，通过特定的模块或者机制，将不同模态的信息进行适当的分离，减少它们之间的相互影响；同时，优化模型的结构设计，例如采用分层架构或者多阶段处理的方式，让模型在不同的阶段分别对不同模态的信息进行处理，从而更好地协调和整合各模态信息，降低模态干扰带来的负面影响。

6.5 多模态下一个标记预测作为通用接口

将多模态下一个标记预测作为通用接口，旨在实现一种统一的、能够涵盖多种模态且便于不同应用场景使用的交互方式。然而，目前仍然面临诸多问题。一方面，不同的应用场景对多模态信息的需求和处理方式差异很大，很难设计出一个能够完全满足所有需求的通用接口。例如，在智能医疗领域，可能需要重点关注图像模态（如医学影像）与文本模态（如病历描述）的交互，并且对准确性要求极高；而在娱乐领域，可能更注重音频、视频和文本之间的融合互动，对创造性和趣味性的要求更高。

另一方面，要实现这样一个通用接口，需要确保其与现有的各种多模态模型、工具以及系统之间的兼容性和可扩展性。目前的多模态模型在结构、训练方法、输出格式等方面各不相同，要将它们整合到一个通用接口之下，需要解决大量的技术难题，如数据格式转换、模型调用和协同工作等问题。

针对这些问题，目前正在尝试通过对不同应用场景进行深入调研和分类，总结出共性需求和差异点，然后基于这些来设计更加灵活、可定制的通用接口；同时，制定统一的技术标准和规范，推动多模态模型、工具以及系统之间的互操作性，逐步实现多模态下一个标记预测作为通用接口的目标。

总之，多模态下一个标记预测领域虽然取得了显著进展，但要实现更广泛、更高效的应用以及达到人类水平的多模态智能，还需要克服上述诸多开放挑战，这需要整个研究界持续不断地探索和创新。

7. 结论

多模态下一个标记预测（MMNTP）已成为多模态学习领域极具前景的研究方向，它通过统一的范式整合了多模态学习中的理解与生成任务，推动了多模态智能的发展。本综述从多模态标记化、MMNTP模型架构、统一任务表示、数据集与评估以及开放挑战这五个关键方面，对该领域进行了全面且系统的梳理与分析。

在多模态标记化方面，我们探讨了离散标记化和连续标记化这两种方式，它们各自有着独特的原理、适用场景以及对应的技术手段，能够将不同模态（如图像、音频、视频等）的信息转化为适合模型处理的标记形式，为后续的多模态学习奠定基础。

在MMNTP模型架构层面，介绍了组合模型和统一模型这两种经典结构，分析了它们在多模态智能处理中的不同工作方式、优势与劣势，以及在通用多模态智能、训练和部署效率、模型扩展潜力等方面的表现，展示了该领域多样的模型构建思路与实践成果。

对于统一任务表示，详细阐述了其训练过程中涉及的训练目标（包括离散标记预测和连续标记预测）、预训练阶段的模态对齐（涵盖理解与生成中的对齐）、微调阶段的指令和偏好调整，以及推理阶段的提示工程应用等内容，揭示了如何通过不同阶段的精心设计与优化，让模型更好地掌握多模态任务并提升性能。

在数据集与评估部分，介绍了众多用于预训练和微调的多模态数据集，这些数据集覆盖了不同模态且各有侧重，为模型的训练提供了丰富资源；同时阐述了整体评估基准和新兴评估基准，它们从不同维度对多模态模型进行评价，有助于深入了解模型的能力与局限。

此外，还着重指出了当前MMNTP领域面临的开放挑战，像模型扩展的困难、涌现能力的不可控、模态特定偏差、模态干扰以及多模态下一个标记预测作为通用接口所面临的难题等，这些挑战制约着多模态智能向更高级别发展以及在更广泛场景中的应用，不过目前也有一些相应的缓解思路正在探索之中。

总体而言，MMNTP领域正处于蓬勃发展阶段，虽然存在诸多挑战，但也蕴含着巨大的发展潜力。未来的研究有望在攻克现有难题、完善模型架构、优化训练策略以及拓展应用场景等方面取得进一步突破，从而使多模态模型能够更接近人类水平的多模态智能，在众多领域发挥更为重要的作用，为人工智能的整体发展注入强大动力。希望本综述能够为从事多模态学习相关研究的科研人员提供全面且有价值的参考，助力他们在这一充满机遇与挑战的领域中探索前行，推动多模态智能迈向新的高度。

作者：张长旺，图源：旺知识

参考资料

标题：Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey
作者：Liang Chen, Zekun Wang, Shuhuai Ren, Lei Li, Haozhe Zhao, Yunshui Li, Zefan Cai, Hongcheng Guo, Lei Zhang, Yizhe Xiong, Yichi Zhang, Ruoyu Wu, Qingxiu Dong, Ge Zhang, Jian Yang, Lingwei Meng, Shujie Hu, Yulong Chen, Junyang Lin, Shuai Bai, Andreas Vlachos, Xu Tan, Minjia Zhang, Wen Xiao, Aaron Yee, Tianyu Liu, Baobao Chang
单位：1Peking University, 2Beihang Univerisy, 3University of Hongkong, 4Shenzhen Institute of Advanced Technology, China Academy of Sciences, 5Tsinghua University, 6M-A-P, 7The Chinese University of Hong Kong, 8Alibaba Group, 9University of Cambridge, 10Microsoft Research, 11UIUC, 12Humanify Inc., 13Zhejiang University
标签：人工智能、多模态学习、下一个标记预测、大型多模态模型、标记化、统一任务表示
概述: 本文是一篇关于多模态下一个标记预测（NTP）的综述，介绍了其在多模态学习中的应用及相关模型架构、训练方法、数据集与评估等内容，并探讨了面临的挑战。
链接：https://arxiv.org/pdf/2412.18619

最后别忘了，帮忙点“在看”。

您的点赞，在看，是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

长按扫描下面二维码，加入知识星球。

Ai fighting

全网第一且唯一分享自动驾驶实战，以代码、项目的形式讲解自动驾驶感知方向的关键技术，从算法训练到模型部署。主要致力于3D目标检测，3D目标追踪，多传感器融合，Transform，BEV，OCC，模型量化，模型部署等方向的实战。