2w字综述 | 一文掌握Video Diffusion Model视频扩散模型

文摘 2024-10-29 08:00 浙江

近期文章回顾（更多热门文章请关注公众号与知乎Rocky Ding哦）

写在前面

WeThinkIn最新福利放送：大家只需关注WeThinkIn公众号，后台回复“简历资源”，即可获取包含Rocky独家简历模版在内的60套精选的简历模板资源，希望能给大家在AIGC时代带来帮助。

AIGC时代的《三年面试五年模拟》算法工程师求职面试秘籍（持续更新）独家资源：https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main

Rocky最新发布Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章（持续更新），点击链接直达干货知识：https://zhuanlan.zhihu.com/p/684068402

最近，扩散生成模型已成为一种强大的技术，用于生成和修改连贯的高质量视频。该综述系统性地概述了用于视频生成的扩散模型的关键要素，涵盖应用、架构选择和时间动态建模。

总结该领域的最新进展，并将其归类为发展趋势。最后概述了仍存在的挑战和对该领域的未来展望。

一、引言

扩散生成模型已经证明了学习异构视觉概念和创建基于文本描述的高质量图像的显著能力。

最近的发展还将扩散模型扩展到视频，有潜力彻底改变娱乐内容生成或为智能决策模拟世界。例如，文本到视频的SORA模型能够在用户提示的条件下生成高达一分钟的高质量视频。将扩散模型适应视频生成提出了独特的挑战，这些挑战仍需完全克服，包括保持时间一致性、生成长视频和计算成本。

在本综述中，提供视频扩散模型关键方面的概述，包括可能的适用性、架构选择、时间动态建模机制以及训练模式（见图1）。然后，简要总结该领域迄今为止的重要论文，以便概述发展。最后，我们以讨论正在进行中的挑战并确定未来改进的潜在领域结束。

二、应用分类

视频扩散模型的可能应用可以大致根据输入模态进行分类，包括文本提示、图像、视频和听觉信号。许多模型还接受这些模态中的一些组合作为输入。本文展示了不同应用场景，总结每个应用领域中的重要论文。

文本条件生成：指的是仅基于文本描述生成视频的任务。不同的模型在模拟特定于物体的运动方面表现出不同程度的成功。因此，本文将模型分为两类：能够产生简单运动的模型，如轻微的摄像机摇摆或流动的头发，以及能够随时间表示更复杂运动的模型，例如那些结合物理推理的模型。

图像条件视频生成：一个现有的参考图像被动画化。有时会提供文本提示或其他指导信息。由于对生成的视频内容具有高度的可控性，图像条件视频生成最近得到了广泛研究。

视频补全模型：将其视为一个独立的群体，即使它们与前面的应用场景有交集，这些模型也处理现有的视频并在时间域内扩展它。视频扩散模型通常由于架构和硬件限制而具有固定数量的输入和输出帧。为了将这些模型扩展以生成任意长度的视频，已经探索了自回归和层次化方法。

音频条件模型： 接收声音片段作为输入，有时与其他模态结合使用，如文本或图像，可以合成与声音源一致的视频。典型的应用包括生成说话人、音乐视频，以及更一般的场景。

视频编辑模型：使用现有的视频作为基线，从中生成新的视频。典型的任务包括风格编辑（在保持物体身份的同时改变视频的外观）、对象/背景替换、深度伪造，以及恢复旧的视频素材（包括去噪、着色或扩展纵横比等任务）。

智能决策：视频扩散模型可以作为模拟现实世界的工具，条件是代理当前的状态或任务的高级文本描述。这可能使规划在模拟世界中成为可能，并且可以在生成世界模型内完全训练强化学习策略。

三、数学表述

首先回顾扩散生成模型的数学表述，这些模型学习模拟目标分布p(x0)，例如自然视频。

数学公式：扩散生成模型通过一系列去噪步骤从初始噪声向量生成目标分布的样本。每个去噪步骤由一个神经网络执行，该网络被训练以将噪声输入引导到目标分布。去噪过程可以通过以下公式描述：

其中，βt 是一个方差保持噪声计划，I 是单位矩阵。

去噪过程：在去噪阶段，模型尝试逆转前向噪声过程。反向过程也是一个马尔可夫链，但需要学习的梯度下降概率。单个去噪步骤的描述如下：

其中，θ 是去噪模型的参数。

损失函数****：为了训练模型，最小化负对数似然的变分下界：

该损失函数可以重写为Kullback-Leibler散度之和：

四、架构

接下来，回顾用于视频扩散模型的流行架构，包括 UNet 和 Transformer。首先介绍基于图像的变体，然后讨论它们如何适当地适应视频生成。还讨论了这些变体的常见变化，包括潜在扩散模型和级联扩散模型。

图3：在文本到图像扩散模型中常用的去噪UNet架构。该模型迭代预测噪声输入图像的去噪版本。图像通过多个编码层处理，与残差连接相连的解码层数量相同。每层由ResNet块实现卷积，以及Vision Transformer自注意力块和跨注意力块。自注意力在图像块之间共享信息，而跨注意力则对去噪过程进行文本提示的条件化。

4.1 UNet

UNet 目前是视觉扩散模型中去噪器的最流行架构选择（见图3）。最初是为医学图像分割开发的，最近已成功适应于图像、视频和音频领域的生成任务。

UNet 通过将输入图像首先编码成越来越低的空间分辨率潜在表示，同时增加特征通道数，通过固定数量的编码层，将输入图像转换为相同大小和形状的输出图像。然后，通过相同数量的解码层，将得到的“中间”潜在表示上采样回原始大小。

虽然原始 UNet 仅使用 ResNet 块，但大多数扩散模型在每层中都交错使用它们和Vision Transformer块。ResNet块主要利用二维卷积，而Vision Transformer块则实现了空间自注意力和跨注意力。这是通过一种方式实现的，允许对生成过程进行条件化，例如文本提示和当前时间步长等额外信息。UNet的编码器和解码器部分的相同分辨率层通过残差连接相连。

4.2 Vision Transformer

Vision Transformer（ViT，Dosovitskiy等人，2020年）是基于 Transformer 架构的自然语言处理开发的生成扩散模型的一个重要构建模块。

图4：提高图像扩散模型输出分辨率的架构选择。a) 分级扩散模型（CDM）链去噪UNet，逐级增加分辨率以生成高保真图像。b)潜在扩散模型（LDM）使用预训练的变分自编码器（VAE）在低维空间中操作，从而节省计算资源

ViT 结合多头注意力层、归一化层、残差连接以及线性投影层，将输入token向量转换为输出token向量。

在图像情况下，通过将输入图像分割成规则块，并使用图像编码器为每个块计算一个块嵌入，辅以可学习的位置嵌入，来获得输入令牌。在注意力层内，块嵌入通过可训练的投影矩阵进行投影，产生所谓的查询、键和值矩阵。前两个矩阵用于计算不同图像令牌位置之间的可学习亲和力矩阵A，该矩阵根据缩放点积注意力公式计算：

在扩散模型中，ViT块有两个目的：一方面，它们实现了空间自注意力，其中Q、K和V指的是图像补丁。这允许信息在整个图像上共享，甚至整个视频序列。另一方面，它们用于跨注意力，该过程基于额外的指导信息（如文本提示）来条件化去噪过程。这里，Q是一个图像补丁，而K和V是基于已经使用CLIP编码器编码成类似图像表示的文本标记。

纯粹基于 ViT 的扩散模型已被提出作为标准UNet的替代品。与利用卷积不同，整个模型只由一系列变压器块组成。这种方法具有明显的优势，例如在生成视频长度方面的灵活性。虽然基于UNet的模型通常生成固定长度的输出序列，但Transformer模型可以自回归地预测相对任意长度的序列中的标记。

4.3 分级扩散模型

分级扩散模型（CDM）由多个 UNet 模型组成，这些模型以递增的图像分辨率运行。通过将一个模型的低分辨率输出图像上采样，并将其作为输入传递给下一个模型，可以生成高保真度的图像版本。在训练时，各种形式的数据增强被应用于一个去噪UNet模型的输出，然后将其作为输入传递给级联中的下一个模型。这些包括高斯模糊，以及提前停止去噪过程。在适应了潜在扩散模型之后，CDM的使用大大减少，后者允许使用较少资源的原生生成高保真度图像。

4.4 潜在扩散模型

潜在扩散模型（LDM）是基础 UNet 架构的一个重要发展，现在已成为图像和视频生成任务的官方标准。

与RGB空间不同，输入图像首先使用预训练的向量量化变分自编码器编码成具有较低空间分辨率和更多特征通道的潜在表示。然后将这种低分辨率表示传递给 UNet，在那里整个扩散和去噪过程都在VQ-VAE编码器的潜在空间中进行。然后使用VQ-VAE的解码器部分将去噪后的潜在空间解码回原始像素空间。通过在低维潜在空间中操作，LDMs可以节省大量的计算资源，因此允许它们与之前的扩散模型相比生成更高分辨率的图像。Stable Diffusion 是LDM架构的一个典型开源实现。

五、时间动态

像 Stable Diffusion 这样的文本到图像模型可以产生逼真的图像，但将其扩展用于视频生成任务并非易事。如果尝试从文本提示中天真地生成单个视频帧，得到的序列没有空间或时间连贯性（见图5a）。对于视频编辑任务，可以从原始视频序列中提取空间线索，并使用它们来条件化扩散过程。通过这种方式，可以产生物体的流体运动，但由于物体更细的纹理变化，时间连贯性仍然受到影响（见图5b）。

图5：文本到视频扩散模型生成一致视频的局限性。（顶部）仅使用文本提示（“迈克尔·乔丹跑步”）时，物体在视频帧之间的外观和位置变化巨大。（底部）基于参考视频的空间信息进行条件化可以产生一致的移动，但物体的外观和背景仍然在视频帧之间波动

为了实现时空一致性，视频扩散模型需要跨视频帧共享信息。实现这一目标的最明显方法是向去噪模型中添加第三个时间维度。然后ResNet块实现了三维卷积，而自注意力块则转变为全跨帧注意力块（见图6）。然而，这种全三维架构与非常高的计算成本相关联。

图6：UNet架构的三维扩展，用于视频生成。最顶部：时间上相邻的UNet 2D层输出被堆叠起来，在UNet层链中每个新的分辨率（黄色）提供3D输入。下面：层组内的处理从3D操作开始，接着是交叉注意力以适应文本输入，然后是将其展平回纯空间ResNet和上采样阶段

为了降低视频UNet模型的计算需求，已经提出了不同的方法（见图7）：三维卷积和注意力块可以分解为空间二维和时间一维块。时间一维模块通常被插入到预训练的文本到图像模型中。此外，经常使用时间上采样技术来增加运动一致性。在视频到视频任务中，通常使用预处理的视频特征，如深度估计，来指导去噪过程。最后，训练数据类型和训练策略对模型生成一致运动的能力有着深远的影响。

5.1 空间-时间注意力机制

为了在视频帧之间实现空间和时间的一致性，大多数视频扩散模型修改了UNet模型中的自注意力层。这些层由 ViT 组成，它计算图像的一个查询补丁与该图像中所有其他补丁之间的亲和力。这种基本机制可以通过几种方式扩展：在时间注意力中，查询补丁关注同一视频帧中其他位置上的补丁。在完全时空注意力中，它关注所有视频帧中的所有块。在因果注意力中，它只关注所有先前视频帧中的块。在稀疏因果注意力中，它只关注有限数量的先前帧中的块，通常是前一个和紧接着的一个。不同形式的时空注意力在计算需求和捕捉运动的能力上有所不同。此外，产生的运动质量在很大程度上取决于所使用的训练策略和数据集。

5.2 时间上采样

在单个批次中生成长视频序列通常超出了当前硬件的容量。虽然已经探索了不同的技术来减少计算负担（如稀疏因果注意力），但大多数模型仍然限制在生成不超过几秒钟的视频序列，即使在高端GPU上也是如此。为了克服这一限制，许多工作采用了分层上采样的技术，首先生成间隔化的关键帧。然后可以通过插值在相邻的关键帧之间填充中间帧，或者使用基于每个两个关键帧的扩散模型的额外遍历来填充。

作为时间上采样的替代方案，生成的视频序列也可以以自回归的方式扩展。因此，上一批最后一个生成的视频帧被用作下一批第一个帧的条件。虽然原则上可以这样任意扩展视频，但结果往往会随着时间的推移而重复和质量下降。

5.3 结构保持

视频到视频的翻译任务通常追求两个相反的目标：一方面保持源视频的粗略结构，另一方面引入所需的更改。过多地坚持源视频会阻碍模型进行编辑的能力，而远离源视频的布局会带来更具创造性的结果，但会对空间和时间连贯性产生负面影响。

一种常见的方法是通过用输入视频帧的潜在表示替换去噪模型中的初始噪声。通过改变添加到每个输入帧的噪声量，用户可以控制输出视频与输入视频相似的程度，或者在编辑时应该给予多少自由度。实际上，这种方法本身不足以保留输入视频的更精细结构，因此通常会与其他技术结合使用。首先，当添加更多噪声时，物体的轮廓没有得到足够的保留。这可能导致视频中不希望的物体扭曲。此外，如果去噪过程中没有跨帧共享信息，较细的细节可能会随时间转移。

通过将去噪过程的条件化附加到从原始视频中提取的额外空间线索上，可以在一定程度上缓解这些缺点。例如，已经训练了专门的扩散模型来考虑深度估计。ControlNet 是更通用的Stable Diffusion 扩展，它能够对各种信息进行条件处理，如深度图、OpenPose骨架或线条。ControlNet 模型是 Stable Diffusion 去噪UNet编码器部分的微调副本，可以与预训练的Stable Diffusion模型接口。图像特征使用预处理器提取，通过专门的编码器编码，通过ControlNet 模型传递，并与图像潜在值连接以条件化去噪过程。多个ControlNets可以任意组合。几个视频扩散模型也实现了基于提取的帧特征（如深度）或姿态估计的视频编辑的条件视频编辑。

六、训练与评估

视频扩散模型在训练方式上可能大相径庭。有些模型是从零开始训练的，而其他模型则是建立在预训练图像模型之上的。完全使用标记的视频数据来训练模型是可能的，这样它就能学习文本提示与视频内容之间的关联以及视频帧之间的时间对应关系。然而，大量的标记视频数据集往往比纯图像数据集小，并且可能只包含有限范围的内容。此外，每个视频只有一个文本标签可能无法描述所有帧中不断变化的图像内容。至少，自动收集的视频需要被划分为适当长度的块，这些块可以用单个文本注释描述，并且没有不需要的场景转换，从而对未策划或弱策划的数据收集设置了更高的障碍。因此，训练通常会用现成的标记图像数据集来增强。这允许给定模型学习文本和视觉概念之间更广泛的关系。与此同时，可以在甚至未经标记的视频数据上独立训练跨帧的空间和时间一致性。

与从头开始训练的模型不同，最近的视频扩散方法通常依赖于预训练的图像生成模型，如Stable Diffusion。这些模型在文本到图像和图像编辑领域取得了令人印象深刻的结果，但并非以视频生成为初衷。因此，它们必须进行调整，以产生空间和时间上连贯的结果。实现这一目标的一种可能性是添加新的注意力块或调整现有的注意力块，以便它们能够模拟跨帧的时空对应关系。根据实现方式的不同，这些注意力块要么重新使用来自预训练模型的参数，要么在由许多视频组成的训练数据集上进行微调，或者在视频到视频翻译任务中仅在单个输入视频上进行微调。在微调过程中，预训练模型的其余参数通常被冻结。不同的训练方法如图8所示。

图8：视频扩散模型的训练方法：a) 在视频上进行训练。b) 同时在图像和视频上进行训练。c) 在图像上进行预训练，在视频上进行微调

数据集

使用了多个常用的视频数据集进行训练和评估，包括WebVid-10M、HD-Villa-100M、Kinetics-600、UCF101、MSR-VTT、Sky Time-lapse、Tai-Chi-HD和TikTok。

评估指标

人类评分是视频模型最重要的评估方法，因为最终目标是产生符合我们审美标准的结果。为了展示新模型的质量，通常会向受试者展示两个不同视频模型的生成片段对，并要求他们指出在特定评估标准下，他们更喜欢这两个例子中的哪一个。根据研究的不同，评分可以纯粹反映受试者的个人偏好，也可以指向视频的特定方面，如时间一致性和遵循提示。人类非常擅长判断什么是“看起来自然”的，以及识别小的时间不一致性。人类评分的缺点包括收集足够大样本所需的工作量和时间，以及跨研究之间可比性的有限性。因此，报告自动化评估指标也是可取的。人类研究还可以用来衡量自动化指标与人类偏好的契合程度，检查人类判断是否与指标结果一致，或者在评估相似视频时是否有所不同。

常见的自动化评估指标可以分为两类：集合到集合比较指标，如图9所示。第一类衡量生成数据集与参考数据集之间的差异，通常使用统计度量如Fréchet距离。第二类一元度量不需要参考集。这使得它们适用于像野生视频生成或视频编辑这样的应用，在这些应用中缺乏黄金标准参考。

图10：自动化评估指标的局限性：我们选择五个视频样本，按照人类评估从最差到最好的顺序进行排名。将FVD、FID、VBench和FVMD提供的定量评估结果进行比较，以展示算法评估程序的局限性。例如，视频样本（a）质量最差，但无法基于FID或VBench指标有效地区分于样本（b）、（c）和（d）。然而，FVMD指标与视频质量和运动一致性更为吻合。视频样本是来自TikTok数据集上训练的各种模型收集的结果：（a）来自Magic Animate；（b）、（c）和（e）来自Animate Anyone；以及（d）来自DisCo

七、视频生成

7.1 无条件生成与文本到视频

无条件视频生成和文本条件视频生成是生成视频模型的常见基准。在扩散模型之前，生成对抗网络和自回归变换器模型一直是生成视频任务的流行选择。

接下来，将简要概述几个代表性的GAN和自回归变换器视频模型。

7.1.1 GAN 视频模型

TGAN采用两个生成器网络：时间生成器创建代表视频运动轨迹的潜在特征。这个特征向量可以被输入到一个图像生成器中，在像素空间中创建固定数量的视频帧。TGAN-v2 使用一系列生成器模块来创建不同时间分辨率的视频，使过程更加高效。TGAN-F 是另一个改进版本，它依赖于鉴别器网络中的低维核。

MoCoGAN 通过为单个帧和视频序列使用两个独立的鉴别器，将潜在空间分解为运动和内容特定部分。在推理时，内容向量保持不变，而每个帧的下一个运动向量则使用神经网络以自回归方式预测。MoCoGAN在UCF-101和Tai-Chi-HD数据集上评估了无条件视频生成，并取得了比前一代TGAN和VGAN模型更高的IS分数。

DVD-GAN 使用与MoCoGAN相似的双重鉴别器设置。主要区别在于DVD-GAN不使用自回归预测，而是并行生成所有视频帧。它在UCF-101数据集上的IS分数方面表现优于之前的方法，如TGAN-v2和MoCoGAN，尽管DVD-GAN在其生成上依赖于类别标签，而其他方法是无条件的。

MoCoGAN-HD 以不同于以往方法的方式区分内容和运动。训练一个运动生成器来预测潜在的运动轨迹，然后将其作为输入传递给固定图像生成器。它在UCF-101、Tai-Chi-HD和Sky Time-lapse基准测试上的无条件生成方面表现优于之前的方法。

DIGAN 引入了一种基于隐式神经表示的视频GAN架构，可以有效地表示长视频序列。它遵循上述讨论的内容-运动分割。运动鉴别器根据视频帧对而非整个序列来判断时间动态。这些改进使模型能够生成更长的视频序列，长度为128帧。DIGAN 在UCF-101上实现了最先进的IS和FVD分数结果，在Sky Time-lapse和Tai-Chi-HD上实现了FVD和KVD分数的结果。

7.1.2 自回归变换器视频模型

VideoGPT 2021年使用了一个3D VQ-VAE 来学习紧凑的视频表示。然后训练一个自回归变换器模型，基于前面的帧预测下一帧的潜在代码。虽然当时VideoGPT的表现没有优于最佳的基于GAN的模型，即TGAN-v2和DVD-GAN，但它凭借其简单的架构，在UCF-101基准测试上取得了可观的IS分数。

NUWA 也使用了一个带有自回归变换器生成器的3D VQ-VAE。它在各种数据集上进行预训练，使其能够在视频和图像领域执行各种生成和编辑任务。它的文本条件视频生成能力在MSR-VTT数据集上进行了评估。

TATS 引入了几项改进，解决了自回归变换器模型在生成长视频序列时面临的质量问题。它在几乎所有指标上超越了以前的方法，包括UFC-101（无条件和类别条件）、Tai-Chi-HD和Sky Time-lapse。只有DIGAN在Sky Time-lapse基准测试上保持了更高的FVD分数。

CogVideo 是一个文本条件的变换器模型。它基于预训练的文本到图像模型CogView2，并扩展了时空注意力层。GPT风格的变换器在潜在的VQ-VAE空间中生成关键帧，第二个上采样模型将它们插值到更高的帧率。该模型在一个内部数据集上进行了训练，该数据集包含540万张标注视频，分辨率160×160。在零样本设置中，通过使用101个类别标签作为文本提示，在UCF-101数据集上进行了评估。除了TATS外，它在FVD和IS评分方面优于大多数其他模型。

7.1.3 扩散模型

仅基于文本提示生成现实视频是视频扩散模型的最具挑战性的任务之一。一个关键问题是缺乏合适的训练数据。公开可用的视频数据集通常是未标记的，人工注释的标签甚至可能无法准确描述空间和时间信息之间的复杂关系。因此，许多作者通过在他们的模型训练中使用大量标记图像的数据集或在其之上构建预训练的文本到图像模型来补充训练。第一个视频扩散模型具有非常高的计算需求，但视觉保真度相对较低。这两个方面都通过架构进步得到了显著改善，例如将去噪过程移动到变分自编码器的潜在空间。

VDM一种早期的基于扩散的视频生成模型。它建立在Cicek等人提出的3D UNet架构之上，并通过分解时空注意力块对其进行扩展。这产生了长度为16帧、大小为64 x 64像素的视频。这些低分辨率视频可以通过使用更大的上采样模型扩展到128 x 128像素和64帧。这些模型在相对较大的标记视频数据集以及这些视频的单帧上进行训练，这使得在推理时能够进行文本引导的视频生成。然而，这种方法存在一个限制，因为标记视频数据相对难以获得。

Singer等人通过结合他们对标记图像的监督训练和对未标记视频的无监督训练来解决这个问题。这使他们能够访问更广泛、更多样化的训练数据池。他们还将UNet模型中的卷积层分为二维空间卷积和一维时间卷积，从而减轻了与完整的3D UNet相关的部分计算负担。最后，他们在时间上上采样或视频预测任务上训练了一个遮蔽时空解码器。这使得能够生成长达76帧的更长视频。Make-a-Video在UCF-101和MSR-VTT基准测试上进行了评估，在这些测试中，它的性能超过了所有以前的GAN和自回归变换器模型。

ImagenVideo 模型使用一个级联扩散过程（参见图4），可以生成高分辨率视频。他们从一个基础模型开始，该模型合成具有40x24像素和16帧的视频，并通过六个额外的扩散模型将其上采样到最终分辨率为1280x768像素和128帧。低分辨率基础模型使用分解时空卷积和注意力。为了节省计算资源，上采样模型仅依赖卷积。ImagenVideo 在大型专有数据集上并行训练了标记视频和图像，使其能够模拟多种视觉风格。该模型还展示了生成文本动画的能力，这是大多数其他模型所难以实现的。

MagicVideo采用了潜在扩散模型的架构进行视频生成任务。与之前在像素空间操作的模型不同，它们的扩散过程发生在由预训练变分自编码器（VAE）定义的低维潜在嵌入空间中。这显著提高了视频生成过程的效率。这个VAE在视频数据上训练，因此可以减少与用于文本到图像模型的VAEs相比的运动伪影。作者使用预训练的文本到图像模型作为他们视频模型的骨干，并增加了因果注意力块。该模型在标记和无标记视频的数据集上进行微调。它产生256x256像素和16帧的视频，可以使用单独的空间和时间超分辨率模型上采样到1024x1024像素和61帧。除了文本到视频生成外，作者还展示了他们模型的视频编辑和图像动画能力。

Blattmann等人提出了潜在扩散模型的另一种适应，Rombach等人提出了一种称为VideoLDM的架构，用于从文本到视频的生成任务。与周等人的方法类似，他们在预训练的文本到图像扩散模型中添加了时间注意力层，并在标记的视频数据上进行微调。他们展示了，除了文本到视频合成之外，他们的模型还能够以自回归的方式生成长驱动汽车视频序列，以及使用Dreambooth生成个性化角色的视频。

图11：图像条件化方法用于图像到视频生成模型。a) 输入图像可以在视频生成模型的注意力层中进行条件化。b) 输入图像可以作为扩散模型的额外输入通道形成。c) 输入图像可以与其他模态一起进行条件化，例如光流

7.2 无需训练的模型

Text2Video-Zero 完全摒弃了视频训练数据的需求，仅依赖于一个预训练的文本到图像扩散模型，并通过跨帧注意力块进行增强。通过应用扭曲函数对潜在帧进行运动模拟，尽管与在视频数据上训练的模型相比，产生的运动缺乏现实感。通过使用经过训练的对象检测网络遮蔽前景物体并平滑背景跨帧来提高时空一致性。与Zhou等人类似，扩散过程发生在潜在空间中。

7.3 个性化生成

个性化生成允许用户调整预训练的文本到图像模型，使其从少量个人图像中学习概念。流行的方法是模型微调模型，以及文本反转。

Guo等人提供一个以个性化图像生成为目标的文本到视频模型。他们的AnimateDiff 扩展了一个预训练的Stable Diffusion模型，该模型包含一个仅包含在视频数据上训练的自注意力模块的时间适配器模块。通过这种方式，可以诱导简单的运动。作者证明了他们的方法与个性化图像生成技术兼容，例如Dreambooth和LoRA。

7.4 图像条件生成

文本到视频模型的一个重要限制是缺乏可控性，因为视频内容只能由输入文本提示确定。为了缓解这个问题，最近的研究集中在向视频生成过程引入额外的图像条件信号。图像条件可以通过在注意力层注入语义图像嵌入（例如CLIP）或图像VAE潜在来实现（图11a），增加额外的输入通道来代表条件图像（图11b），与其他模态如光流进行联合条件处理（图11c）。图像条件生成还使得广泛的应用成为可能，例如自回归长视频生成，循环视频生成，生成帧插值。陈等人专注于根据运动线索对图像进行动画化的任务。他们的运动条件扩散模型（MCDiff）接受一个输入图像，并允许用户通过在图像上绘制笔画来指示所需的运动。然后，该模型产生一个短视频序列，在该序列中，物体根据运动线索移动。它可以根据上下文区分前景（例如演员运动）或背景运动（即相机运动）。作者使用自回归方法生成每个视频帧，基于前一帧和预测的运动流。为此，输入的运动笔画被分解成更小的片段，并传递给UNet流完成模型以预测下一帧中的运动。去噪扩散模型接收这些信息，并使用它们来合成下一帧。流完成模型和去噪模型首先分别进行训练，然后在未标注的视频上进行联合微调。

陈等人的SEINE提出通过沿输入噪声的通道维度拼接图像的VAE潜在，并添加一个额外的掩码通道来指示需要预测哪一帧，来训练一个图像条件视频生成模型。这使得图像条件化变得灵活，使得模型可以生成提供任何给定帧作为条件信号的视频。SEINE从文本到视频模型LaVie初始化，并在WebVid-10M上进行训练。2021年，连同内部私有数据。在推理过程中，模型能够执行自回归长视频生成（通过重用前一视频剪辑的最后帧作为预测下一视频的第一帧），生成不同场景之间的过渡（通过使用来自不同场景的两帧作为条件第一帧和最后一帧，并生成中间帧）以及图像动画（通过对输入的第一帧进行视频生成过程的条件化）。

八、视频补全与长视频生成

大多数视频扩散模型只能每序列生成固定数量的视频帧。为了规避这一限制，提出了自回归扩展和时间上采样方法（见第5.2节）。采用这些方法的模型通常以独特的方式调整和组合它们，以加快计算速度或保持一致性。这些方法的一个常见问题是它们倾向于生成内容重复的视频。因此，一些模型探索了通过随时间变化文本提示来生成具有变化场景的视频的方法。

8.1 时间上采样与视频预测

NUWA-XL模型使用迭代层次化方法生成几分钟长的视频序列。它首先从独立的文本提示中生成均匀间隔的关键帧，这些关键帧形成了视频的大致轮廓。然后在中间填充帧，这些帧由基于两个关键帧的条件局部扩散模型填充。这个过程被迭代应用，每次传递都增加时间分辨率。由于这可以并行化，该模型在长视频生成方面比自回归方法实现了更快的计算速度。作者在新训练数据集上训练了模型，该数据集包含标注的萤火虫卡通。简单的时间卷积和注意力块被插入到预训练的文本到图像模型中，以学习时间动态。

Long Video Diffusion Model（LVDM）解决了生成超过1000帧的长视频任务。它结合了自回归和层次化的方法，首先生成关键帧的长序列，然后填充缺失的帧。为了减少由自回归采样引起的质量退化，作者使用了无分类器指导和无条件潜在扰动，该扰动根据参考帧的噪声潜像来条件化去噪过程。该模型利用专用的视频编码器，并结合了二维空间和一维时间自注意力。它可以用于无条件视频生成或文本到视频任务。

Flexible Diffusion Model（FDM）同样探索了使用具有固定输出帧数的视频模型的方法来生成长视频序列。FDM接受任意数量的条件帧来合成新帧，从而允许它以自回归方式扩展视频或使用层次化方法（类似于NUWA-XL）。作者探索了这些采样技术的变体，并提出了一种自动优化程序，该程序为给定的训练数据集找到最佳方案。

视频扩散变换器（VDT），这是一种基于扩散的视频模型，它使用视觉变换器架构。这种架构相对于常用的UNet的优势包括能够捕捉长距离时间动态、接受不同长度的条件输入以及模型的可扩展性。VDT在更窄的数据集上训练，这些数据集包含未标记的视频片段，并在这些受限领域完成了视频预测、时间插值和图像动画等任务。

8.2 另一种方法

Gen-L-Video通过并行去噪重叠的较短视频片段来生成长视频序列。视频扩散模型单独预测每个视频片段中的去噪潜在内容。给定帧的噪声预测是通过跨所有出现它的片段进行插值得到的聚合。这导致长视频序列之间的连贯性更强。作者将这种方法应用于现有的框架中，如文本到视频（LVDM）、无需调优的视频到视频（Pix2Video）以及一次性调优的视频到视频（Tune-A-Video）领域。

MovieFactory 模型中采用了一种独特的方法来生成长视频序列。他们不是扩展单个视频剪辑，而是从单个文本提示生成类似电影的一系列相关片段。ChatGPT用于将简短的文本提示转换为十个详细的场景描述。然后每个场景描述被作为提示传递给视频扩散模型，以生成视频序列的一部分。最后，从声音数据库中检索与每个视频场景相匹配的音频剪辑。首先通过额外的ResNet和注意力块对预训练的文本到图像模型（Stable Diffusion 2.0）进行扩展，这些块经过训练以产生宽屏图像。在第二步训练中，添加了一维时间卷积和注意力块以学习时间动态。

GLOBER 是一个生成任意长度视频的模型，它不依赖于自回归或层次化方法。相反，它首先使用视频KL-VAE自编码器从关键帧提取全局2D特征。然后，它将这些全局特征以及任意帧索引提供给UNET扩散模型，该模型可以直接在这些位置生成帧。为了确保生成的帧的时间连贯性和真实性，引入了一种新颖的对抗损失。在训练过程中，对抗性鉴别器模型接收随机位置的视频帧及其索引对，并必须预测这两个帧是否都来自输入视频，或者一个或多个是由扩散模型生成的。为了启用推理，基于扩散变换器架构的生成器模型经过训练，以产生模仿视频编码器给定文本提示的全局特征。GLOBER在FVD得分方面超越了几个竞争模型，但其主要优势是计算时间比自回归方法快得多。

VideoFusion模型通过分解前向扩散过程中添加的噪声来提高时间一致性。一个基础噪声组件在所有帧中共享，并表征整个视频的内容。同时，一个残差组件特定于每帧，并且与物体的运动部分相关。这种方法节省了计算资源，因为可以使用较小的残差生成器去噪模型来估计每帧的残差噪声，而基础噪声必须使用预训练的图像模型对整个视频进行一次估计。预训练的基础生成器与残差生成器共同微调。

GAIA-1 是一个混合变压器-扩散模型，可以根据表示速度和运动轨迹的图像、文本或动作令牌生成驾驶汽车视频。在训练期间，它首先使用VQ-GAN将输入视频帧转换为离散令牌。一个自回归变压器世界模型被用来预测序列中下一个令牌，基于所有前面的令牌并使用因果掩蔽。基于扩散的视频解码器随后通过去噪随机噪声模式，将标记转换回像素空间，条件是生成的标记序列。该解码器经过训练，以实现灵活的应用，例如自回归视频生成和帧插值。

九、音频条件合成

多模态合成可能是视频扩散模型的最具挑战性的任务。一个关键问题在于如何学习不同模态之间的关联。类似于CLIP模型在共享嵌入空间中编码文本和图像的方式，许多模型通过对比学习等技术学习音频、文本和/或视频的共享语义空间。

9.1 音频条件生成与编辑

Soundini 模型使得基于声音剪辑的风景视频可以进行局部编辑。可以指定一个二进制掩码来指示一个视频区域，使其视觉上与声音剪辑的听觉内容保持一致。为此，声音剪辑的梅尔频谱图滑动窗口选择被编码进共享的音频-图像语义空间。在训练过程中，最小化两个损失函数以条件化去噪过程：编码音频剪辑与图像潜在影响生成的视频内容，而图像与音频梯度的余弦相似性负责将视频与音频信号同步。与其他模型不同，Soundini 没有将其去噪UNet扩展到视频领域，而是仅生成孤立的单帧。为了提高时间一致性，使用双向光流引导将相邻帧相互扭曲。

音频对齐扩散框架（AADiff）从文本提示和音频剪辑生成风景视频。音频剪辑用于根据音频剪辑嵌入与提供的文本标记中某一个的最高相似性来识别目标标记。例如，爆裂声可能会选择单词“燃烧”。在生成视频帧时，所选目标标记对输出帧的影响通过注意力图控制进行调节（类似于Prompt-to-Prompt），与声音大小成比例。这导致与音频剪辑同步的相关视频元素发生变化。作者还展示了他们的模型可以用来动画单个图像，并且可以并行插入多个音频剪辑。该模型使用预训练的文本到图像模型生成每个视频帧，无需对视频进行额外微调或显式建模时间动态。

生成性Disco提供了一个交互式界面，以支持音乐可视化的创建。它们作为由用户指定的文本提示创建的图像对之间的视觉转换实现。两张图像之间的间隔根据音乐的节奏填充，使用一种插值形式，采用设计模式来引起颜色、主题或风格的偏移，或者设置瞬态视频焦点在主题上。大型语言模型可以进一步协助用户选择合适的提示。虽然该模型仅限于简单的图像转换，因此无法产生逼真的运动，但它突出了视频扩散模型在音乐可视化方面的创意潜力。

Composable Diffusion模型，可以根据任何输入模态的组合生成任何输出模态的组合。这包括文本、图像、视频和声音。不同模态的编码器通过对比学习在共享嵌入空间中对齐。然后可以通过线性插值在它们的嵌入之间灵活地条件化输入模态的组合。每个输出模态都训练了一个单独的去噪扩散模型，模态特定模型之间的信息通过跨注意力块共享。视频模型使用简单的时间注意力以及时间偏移方法，以确保帧与帧之间的一致性。

9.2 说话人头生成

Diffused Heads 模型，第一个用于生成说话人头视频的扩散模型。Diffused Heads 以预期说话者的参考图像以及语音音频剪辑作为输入。音频剪辑被分割成短块，这些短块通过预训练的音频编码器单独嵌入。在推理过程中，参考图像以及最后两个生成的视频帧与当前视频帧的噪声版本连接起来，并通过一个二维UNet。此外，去噪过程还依赖于音频嵌入的滑动窗口选择。生成的对话面孔同步移动嘴唇并显示真实的面部表情。

赵等人采用了类似的方法，但他们不是使用参考图像，而是接受一个参考视频，该视频被转换以与所需的音频剪辑对齐。首先从视频中提取面部标志，然后将它们编码成眨眼嵌入和嘴部运动嵌入。嘴部运动使用对比学习与音频剪辑对齐。头部位置和眨眼使用VAE进行编码，与同步的嘴部运动嵌入一起连接起来，并作为条件信息传递给去噪UNet。

卡斯达蒙特等人专注于生成笑声头部的独特任务。类似于扩散头部，模型接收一个参考图像和一个笑声音频剪辑来生成匹配的视频序列。模型结合了2D空间卷积和注意力块与1D时间卷积和注意力。这比完全3D架构节省了计算资源，并且允许它并行处理16个视频帧。更长的视频可以以自回归的方式生成。作者展示了使用专门的音频编码器嵌入笑声片段以生成现实结果的重要性。

十、视频编辑

编辑可能意味着一系列操作，如调整照明、风格或背景，改变、替换、重新排列或移除物体或人物，修改动作或整个行为等。

为了避免对可能的大量视频帧进行繁琐的规格说明，需要一个方便的界面。为了实现这一点，大多数方法依赖于提供灵活方式在方便的抽象和泛化级别上指定所需编辑操作的文本提示。

然而，完全不受约束的编辑请求可能与视频的理想时间属性相冲突，导致如何平衡时间一致性和可编辑性这一主要挑战（见第5.3节）。

为此，许多作者已经尝试基于输入视频预处理特征的条件化去噪过程。一次性调整方法首先根据真实视频微调他们的参数。这确保了视频内容和结构可以以高质量重建。另一方面，无调整方法没有在真实视频上进行微调，这使得编辑在计算上更加高效。

10.1 一次性调整方法

Dreamix，一种基于ImagenVideo架构的扩散视频编辑模型。该模型首先对输入视频进行降采样，然后在低分辨率版本中添加高斯噪声，接着应用一个基于文本提示的去噪过程。模型在每个输入视频上进行微调，并遵循保持整个视频和单个帧外观的联合训练目标。作者展示了该模型能够编辑物体的外观以及它们的动作。它还能够接受单个输入图像或描述同一物体的图像集合，并对其进行动画化。与ImagenVideo不同，Dreamix在像素空间而不是潜在空间中操作。由于需要在每个视频上微调模型，这使得它在计算上非常昂贵。

Tune-A-Video，基于预训练的文本到图像扩散模型构建。他们不是在视频数据上微调整个模型，而是在给定的输入视频上训练注意力层中的投影矩阵。空间自注意力层被时空层所取代，后者关注之前的视频帧，同时增加了一个新的1D时间注意力层。通过使用DDIM反演获得的潜在作为生成过程的输入，大致保留了原始帧的结构。这种方法的优势在于，在单个视频上微调模型相对较快，而且可以利用为文本到图像任务开发的扩展，例如ControlNet或Dreambooth。随后，几个模型基于调谐视频方法，并以不同的方式改进了它。

FateZero模型中采用了受Prompt-to-Prompt启发的注意力混合方法。他们首先通过BLIP从原始视频中获得中间帧的合成文本描述，该描述可以由用户编辑。在生成新图像时，他们使用DDIM反演获得的潜在空间中的未编辑单词的自注意力和交叉注意力掩码与反演阶段获得的原始掩码进行混合。此外，他们采用了一种掩模操作，将编辑限制在受提示中编辑过的单词影响的区域。这种方法提高了生成视频的一致性，同时允许与刘等人相比有更大的可编辑性。尽管他们也基于调谐视频方法构建了类似FateZero的视频对视频（VP2P）模型，但他们引入了一种受提示到提示启发的注意力调整方法。此外，他们通过使用零文本反演，增强了原始视频的DDIM反演，从而提高了其重建能力。

10.2 深度条件编辑

Pix2Video 继续使用预训练的文本到图像模型作为视频编辑任务的主干。然而，与之前的方法不同，它消除了在每个单独视频上微调模型的需要。为了保持输入的粗略空间结构，作者使用DDIM反演，并在从原始视频中提取的深度图上对去噪过程进行条件化。通过将来自前一帧的潜在特征注入到UNet解码器部分的自注意力块中来确保时间一致性。股票文本到图像模型的投影矩阵没有改变。尽管使用了相对轻量级的架构，作者在他们的结果中展示了良好的可编辑性和一致性。

Runway Gen-1能够在保留原始视频内容和结构的同时实现视频风格编辑。这一方面是通过在解码器部分的自注意力块上条件化扩散过程，该过程基于从参考视频帧中提取的CLIP嵌入（除了编辑文本提示），另一方面是通过将提取的深度估计与潜在视频输入连接起来。该模型使用二维空间和一维时间卷积以及二维+一维注意力块。它并行地在视频和图像数据上进行训练。两种模式的预测以无分类器指导的方式结合在一起，允许对时间一致性和可编辑性之间的权衡进行细粒度控制。继任模型Runway Gen-2还增加了从图像到视频和从文本到视频的能力。

Make-Your-Video模型，将一个预训练的文本到图像模型扩展到基于深度图的视频编辑任务，类似于Pix2Video。他们在其UNet中添加了二维空间卷积层和一维时间卷积层，以及跨帧注意力层。因果注意力掩码限制了参考帧的数量至四个紧接着的帧，因为作者指出，这是在图像质量和连贯性之间提供了最佳权衡。时间模块在大型未标记视频数据集（WebVid-10M）上进行训练。

10.3 姿态条件编辑

Ma等人根据输入视频中提取的姿态特征对调谐视频中的去噪过程进行姿态条件处理。姿态特征通过卷积层编码并降采样，然后通过残差连接传递给去噪UNet。姿态编码器在图像数据上训练，而时空注意力层（与调谐视频中的相同）在视频数据上训练。该模型生成的输出受源视频的限制较少，同时保留了主体相对自然的运动。

Make-A-Protagonist 结合了几个专家模型来执行主体替换和风格编辑任务。他们的流程能够通过Blip-2、Grounding DINO对象检测、Segment Anything对象分割和XMem掩膜跟踪等组合，在视频中检测并隔离视频的主要主体（即“主角”）。然后可以通过ControlNet深度图引导的Stable Diffusion修复技术用参考图像替换主体。此外，背景可以根据文本提示进行更改。通过跨帧注意力扩展预训练的Stable Diffusion UNet模型，并在输入视频的帧上进行微调。

10.4 利用预训练的视频生成模型进行视频编辑

与适应预训练的图像生成模型进行视频编辑不同，UniEdit 研究了利用预训练的文本到视频生成模型进行零样本视频编辑的方法。具体来说，他们提出使用LaVie T2V模型，并采用特征注入机制来条件化T2V生成过程于输入视频。这是通过在视频去噪过程中引入辅助重建分支和运动参考分支来实现的。从这些辅助分支中提取的视频特征被注入到主编辑路径的空间和时间自注意力层中，以确保输出视频包含与源视频相同的空间结构和运动。

UniEdit的一种并发方法是AnyV2V，它采用预训练的图像到视频（I2V）生成模型进行零样本视频编辑任务。AnyV2V 将视频编辑分为两个阶段。在第一阶段，使用图像编辑方法将视频的第一帧修改为编辑后的帧。在第二阶段，将编辑后的帧和源视频的DDIM倒置潜在传递给I2V生成模型以渲染编辑后的视频。AnyV2V还采用了类似于PnP的特征注入机制。为了保持源视频的结构和运动，提出了两阶段编辑策略。由于AnyV2V与任何现成的图像编辑模型兼容，并且可以广泛应用于视频编辑任务，如基于提示的视频编辑、基于参考的风格迁移、身份操纵和受主体驱动的视频编辑。该框架还支持不同的I2V模型，例如I2VGen-XL、ConsistI2V和SEINE。

10.5 多条件编辑

ControlVideo模型扩展了ControlNet到视频生成任务。ControlNet使用自编码器对预处理过的图像特征进行编码，并通过微调的Stable Diffusion UNet前半部分的副本传递它们。然后在UNet解码器的部分，每层的结果潜像与原始Stable Diffusion模型的相应潜像连接起来，以控制生成图像的结构。为了提高视频帧之间的时空连贯性，ControlVideo在去噪UNet的自注意力块中增加了全跨帧注意力。此外，它通过在交替帧之间插值来减轻小细节的闪烁。通过首先生成一系列关键帧，然后根据每个两个关键帧的条件在几批中生成缺失帧，可以合成更长的视频。与其他依赖于特定类型预处理特征的视频到视频模型不同，ControlVideo与所有ControlNet模型兼容，例如Canny或OpenPose。预训练的Stable Diffusion和ControlNet模型也不需要任何微调。

10.6 其他方法

vid2vid-zero模型，采用一个预训练的文本到图像模型来适应视频编辑任务，无需微调，类似于Tune-A-Video和Pix2Video，vid2vid-zero模型用跨帧注意力替换了自注意力块，而不改变变换矩阵。虽然这些先前模型中的跨帧注意力仅限于第一帧和紧接着的一帧，但王等人将注意力扩展到了整个视频序列。vid2vid-zero不依赖于结构深度图，而是使用传统的DDIM反演方法。为了在输入视频和用户提供的提示之间实现更好的对齐，它优化了用于无分类器指导的空文本嵌入。

Style-A-Video，一个旨在根据文本提示编辑视频风格的同时保留其内容的模型。它利用了一种无分类器指导的方法，平衡了三个独立的指导条件：原始帧的CLIP嵌入保留语义信息，文本提示的CLIP嵌入引入风格变化，而来自去噪UNet中自注意力层的阈值亲和力矩阵的CLIP嵌入编码了图像的空间结构。通过基于流的正则化网络减少了闪烁。该模型在每个单独的帧上运行，不进行任何形式的跨帧注意力或对文本到图像主干网络的微调。这使得它成为本次比较中重量最轻的模型之一。

杨等人也在他们的重渲染A视频模型中使用ControlNet进行空间指导。与之前的模型类似，稀疏因果跨帧注意力块被用来在每个去噪步骤中关注锚帧和紧随其后的帧。在早期的去噪步骤中，帧潜在性还会额外插值来自锚帧的数据，以提供粗略的形状指导。此外，锚帧和前一个帧在像素空间中被变形，以与当前帧对齐，然后编码，并在潜在空间中进行插值。为了减少与重复编码相关的伪影，作者估计编码损失，并沿着损失函数的负梯度移动编码的潜在性，以抵消退化。最后应用了一种颜色校正形式，以确保帧之间的颜色一致性。这个流程用于生成关键帧，然后使用基于补丁的传播来填充这些帧。该模型产生的视频在展示慢速运动场景时看起来相当一致，但由于使用的各种插值方法，对于更快的运动则存在困难。

10.7 视频恢复

ColorDiffuser，这是一个专门用于灰度视频片段着色的模型。它利用预训练的文本到图像模型和特定训练的适配器模块，根据文本提示着色短视频序列。颜色传播注意力计算当前灰度帧作为查询、参考灰度帧作为键，以及（噪声）彩色化参考帧潜在值之间的亲和力。得到的帧与当前灰度帧连接后，输入到遵循稳定扩散UNet架构的协调器模块中。然后将协调器模块的特征图注入到去噪UNet的相应层中，以指导扩散过程（类似于ControlNet）。在推理过程中，采用交替采样策略，其中前一个和后续帧依次用作参考。通过这种方式，颜色信息可以在时间方向上传播。通过使用专门训练的向量量化变分自编码器（VQVAE），进一步提高了时间一致性和颜色准确性，该模型解码整个去噪潜在视频序列。

十一、视频扩散模型用于智能决策

视频扩散模型开始在控制和智能决策中广泛使用，包括下游表示学习、世界建模和生成数据增强。到目前为止，用例主要集中在基于图像的低维扩散模型上，但我们阐明了这些如何自然地扩展到视频。

11.1 表示学习

表示学习是一种流行的方法，用于将从大规模训练中学到的有用特征转移到下游任务中。近期研究表明，扩散模型是一种有效的方法，特别是对于基于图像和视频的任务。一大类方法已经考虑了从像Stable Diffusion这样的文本到图像扩散模型中提取表示。从UNet的中间注意力图中提取计算机视觉的分割掩码，这是可能的。因为扩散模型已经内化了对象的概念。另一方面，提出从网络的中间层提取表示，用于分类或机器人控制任务，这在图12中有所描绘。这些视觉语言表示通常显著优于相关方法，如CLIP。由于图像和视频UNet在架构上的相似性，这些方法可以很容易地适应视频领域。

另一方面，Sariyildiz等人直接使用针对ImageNet分类标签的合成扩散数据预训练视觉表示学习器。另一种预训练扩散模型可用于下游分类任务的方法是通过基于似然的方法。扩散分类器利用了扩散模型可以作为条件密度模型的事实，并通过向它们添加噪声然后选择最佳预测添加噪声的类别标签来对图像进行分类。

图12：从预训练的扩散UNet中提取视觉-语言表示的方法示意图。给定一个图像-文本提示，可以对图像进行编码和噪声处理，并将其与语言提示一起输入UNet。然后可以从降采样过程的多个层次上聚合特征。类似的技术可以扩展到视频扩散UNet

11.2 世界模型

更现实的视频扩散模型的一个激动人心的应用是能够准确模拟现实世界。正如LeCun所提出的，学习一个准确的现实世界模型是走向自主智能的关键步骤，使代理能够稳健地规划和推理其行动的结果。扩散模型已经作为轨迹世界模型在低维环境的退化视野控制风格设置中被使用。在这些设置中，任何任意质量的轨迹都可以通过分类器引导或无分类器指导偏向高回报。

视频世界建模的进一步进展可能导致类似技术被扩展到现实世界设置。一个显著的例子是GENIE，一个视频世界模型（尽管不是基于扩散的）从YouTube视频中训练，学习在潜在动作下规划。关键的是，这使得代理能够从基于互联网上大量未标记视频的合成环境中进行训练。当前方法面临的其余挑战包括提高生成轨迹的逐帧一致性，因为控制策略通常对观察质量非常敏感，以及对生成速度的要求很高，以便这样的模型能够在实时中使用。

11.3 合成训练数据

最后，随着我们开始耗尽可用的真实标记图像和视频供应，合成生成数据作为一种强大的方法，已经出现，用于增强下游任务的现有训练数据集。在监督学习中，扩散模型已被用来生成额外的类条件数据以进行分类，从而显著提高了性能。这使得互联网规模的知识可以蒸馏到这些模型中。随着更真实的视频生成，我们可以类似地为视频分类或字幕任务生成数据。

在控制方面，通常缺乏现成的机器人学数据，因此扩散模型是生成强化学习代理策略训练数据的特别有力的方法。这可以通过简单地天真地放大现有数据集或在引导式方式下完成，生成与当前优化代理策略的训练数据。这些方法极大地提高了训练有素的代理的样本效率。在视觉设置中，ROSIE和GenAug考虑使用图像扩散模型来合成具有新颖背景和物品的数据点，以提升学习到的策略的泛化性能。视频扩散模型代表了单时间步数据增强的重要改进，并将使代理能够完全模拟一系列长动作的结果。

十二、展望与挑战

视频扩散模型已经在多种用例中展示了令人印象深刻的结果。然而，在我们能够产生具有良好时间一致性的更长视频序列之前，仍需要克服几个挑战。

一个问题是相对缺乏合适的训练数据。虽然已经从互联网上抓取了大量标记好的图像数据，但可用的标记视频数据要小得多。因此，许多作者转而联合训练他们的模型在标记好的图像和未标记的视频上，或者在未标记的视频数据上微调预训练的文本到图像模型。虽然这种折衷允许学习多样化的视觉概念，但它可能不适合捕捉特定于物体的运动。一种可能的解决方案是手动注释视频序列，尽管这似乎不太可能在训练通用视频模型的规模上进行。我们希望未来自动化注释方法能够发展，以生成准确的视频描述。

一个更根本的问题是，简单的文本标签往往不足以描述视频中时间流逝的内容。这阻碍了当前视频模型生成更复杂事件序列的能力。因此，检查描述视频内容的其他方式可能有益，这些方式能更明确地表示不同方面，例如演员、他们的动作、场景、摄像机角度、照明、场景转换等。

另一个挑战在于建模（长期）时间依赖性。由于当前图形卡的内存限制，视频模型通常只能一次处理固定数量的视频帧。为了生成更长的视频序列，模型要么采用自回归或层次化的方式扩展，但这通常会引入伪影或在随时间降低图像质量。可能在架构层面上进行改进。大多数视频扩散模型建立在标准的UNet架构之上，用于文本到图像的模型。为了捕捉时间动态，通过引入跨帧卷积和/或注意力来扩展模型。然而，使用完整的3D时空卷积和注意力块成本高昂。因此，许多模型采用了分解的伪3D架构，其中2D空间块后面跟着1D时间块。尽管在当前硬件限制面前这种折中方案似乎是必要的，但逻辑上讲，一旦硬件允许，全三维架构可能更能捕捉复杂的时空动态。与此同时，其他减少视频生成计算负担的方法有望被探索。这也可能使视频扩散的新应用成为可能，例如实时视频到视频的翻译。

结论

在这篇综述中，探讨视频扩散模型的当前文献。首先根据输入模态对可能的应用进行了分类。接下来，讨论关于架构选择、时间动态建模和模型训练的技术方面。通过论文摘要概述了该领域的进展、还存在的问题以及未来改进的可能性。