震撼发布！英伟达Cosmos平台：开启物理AI的“元宇宙”时代

文摘 2025-01-09 09:59 美国

英伟达发布 Cosmos 世界模型平台，为物理 AI 提供从数据到应用的端到端解决方案。该平台支持扩散和自回归两种模型架构，针对物理 AI 进行了专门优化，可应用于相机控制、机器人操作和自动驾驶等领域，并集成了安全护栏机制。Cosmos 平台开源开放，潜力巨大，有望开启物理 AI 的“元宇宙”时代！

物理AI时代来临，数字孪生世界成关键

AI 正从虚拟世界大步迈入物理世界，一个全新的时代——物理 AI 时代已经到来！想象一下，未来工厂里，灵活的机器人将代替人类从事繁重或危险的工作；道路上，自动驾驶汽车将安全高效地运送乘客和货物；家庭中，贴心的服务机器人将包揽各种家务，甚至成为我们的伙伴。这些曾经只存在于科幻电影中的场景，正随着物理 AI 的发展逐渐成为现实。

物理 AI，简单来说，就是能够感知、理解物理世界并与之交互的 AI 系统。它不仅能“看懂”周围的环境，还能“动手”改变环境，从而完成各种任务。与传统的 AI 相比，物理 AI 更加强调与真实世界的交互和对物理规律的理解，这使得它在机器人、自动驾驶、工业自动化等领域拥有广阔的应用前景。

然而，训练物理 AI 却面临着巨大的挑战。传统的机器学习方法依赖于海量的真实世界数据，但在物理 AI 领域，获取数据却异常困难。试想，要训练一个自动驾驶算法，我们需要收集多少真实的道路数据？要训练一个机器人抓取物体，我们需要让它在真实环境中进行多少次尝试？这不仅成本高昂，而且耗时费力，更严重的是，还可能存在安全隐患。

为了解决这一难题，数字孪生世界的概念应运而生。数字孪生世界，顾名思义，就是真实世界的数字化映射，一个“虚拟的平行宇宙”。在这个虚拟的世界里，可以模拟各种物理场景，让 AI 智能体在其中进行学习和训练，而无需担心真实世界的风险和成本。数字孪生世界为物理 AI 的训练提供了一个安全、高效、低成本的平台，是物理 AI 走向成熟的关键。

今天，英伟达正式发布 Cosmos 世界模型平台，为构建物理 AI 的数字孪生世界提供了全套解决方案！Cosmos 平台的发布，标志着物理 AI 的发展迈出了重要的一步，它将极大地加速物理 AI 的落地应用，让我们离梦想中的智能世界更近一步！

Cosmos平台：构建物理AI数字孪生世界的全套解决方案

如果说数字孪生世界是物理 AI 的“训练场”，那么 Cosmos 平台就是构建这个“训练场”的一站式“建筑师”。它提供了一套完整的工具链，涵盖了从数据收集、模型训练到应用部署的全流程，为开发者构建物理 AI 应用提供了强有力的支持。下面，让我们深入了解一下 Cosmos 平台的各个组成部分。

1. 基础设施：数据为王，Cosmos的“视频图书馆”馆藏海量数据

数据是 AI 的基石，对于物理 AI 来说，高质量的视频数据尤为重要。Cosmos 平台拥有一个庞大的“视频图书馆”，其中包含了海量的、多样化的视频数据，涵盖了各种物理场景和动作。这些数据主要包括 9 大类：驾驶、手部运动和物体操纵、人类运动和活动、空间感知和导航、第一人称视角、自然动态、动态摄像机运动、合成渲染和其他。具体比例如下图所示：

图：Cosmos平台的视频数据类别占比

这些视频数据从哪里来呢？据悉，Cosmos 平台利用了英伟达内部的专有视频数据集和公开可用的互联网视频资源，总共收集了约 2000 万小时的原始视频数据！为了确保数据的质量，Cosmos 平台采用了一套严格的数据处理流程，就像“淘金”一样，一步步筛选出最有价值的数据。整个数据处理流程如下图所示：

图：Cosmos 视频数据收集流程

具体来说，数据处理流程包括以下几个关键步骤：

• 分割：

• 镜头检测： 利用 TransNetV2 算法，将长视频分割成多个镜头，确保每个镜头内的场景保持一致。通过在 ShotBench 数据集上的评估，TransNetV2 表现出了优异的性能。
表：不同分割算法性能对比
• 转码： 将所有视频片段转码成统一的、高质量的 mp4 格式，提高了数据处理的效率和稳定性。通过对比不同的软硬件配置，选择了最优的转码方案，实现了约 6.5 倍的吞吐量提升。
表：不同软硬件配置下的转码性能对比

• 过滤：

• 运动过滤： 利用基于 ViT 架构的分类器，去除静态或具有随机、剧烈相机运动的视频，并标记具有不同类型相机运动的视频，例如平移、缩放、倾斜等。
• 视觉质量过滤： 采用基于 DOVER 的视频质量评估模型和图像美学模型，去除模糊、曝光过度或不足等质量低劣的视频片段。
• 文本覆盖过滤： 利用基于 MLP 的二元分类器，去除带有过多后期添加文本的视频，避免模型学习到无关的视觉信息。
• 视频类型过滤： 通过训练分类器，根据内容类型和视觉风格对视频进行分类，并根据需要调整数据分布，例如增加与物理 AI 更相关的类别（如人类动作、人与物体的交互等）的比例。

• 注释： 利用 VILA 模型为每个视频片段生成详细的文本描述，提供更丰富的语义信息。通过对比不同的 VLM 模型，选择了性能最优的 VILA 模型，并利用 FP8 量化的 TensorRT-LLM 引擎，实现了 10 倍的速度提升。
表：VILA 模型在不同配置下的推理吞吐量对比
• 去重： 利用 SemDeDup 方法，对视频片段进行语义去重，去除重复或高度相似的视频，提高数据的多样性和训练效率。

通过这一系列精细化的处理，Cosmos 平台从海量的原始视频数据中提取出了约 1 亿个高质量的视频片段用于预训练，以及约 1000 万个更高质量的视频片段用于微调。

在基础设施方面，Cosmos 平台利用 AnyScale Ray 构建了一个流式处理管道系统，实现了高效的资源利用和跨集群的分布式数据处理。该系统能够同时利用网络带宽、NVDEC 单元和 GPU 等多种硬件资源，并通过优化的调度算法，实现了高效的数据处理和模型训练。

2. 基础模型：双架构并行，满足不同需求

Cosmos 平台的核心是其强大的世界模型。为了满足不同应用场景的需求，Cosmos 平台提供了两种主流的世界模型架构：扩散模型和自回归模型。这两种架构各有优劣，前者擅长生成高质量的视频，后者则在推理速度和可控性方面更有优势。

表：Cosmos 世界模型 1.0 版本概览

下表总结了两种模型的对比：

特性	扩散模型	自回归模型
视频质量	高	相对较低，可通过扩散解码器提升
推理速度	相对较慢	快，可通过推测解码和低分辨率自适应进一步加速
可控性	相对较弱	强
适用场景	对视频质量要求高的场景，如虚拟现实、电影制作	对实时性要求高的场景，如机器人控制
典型模型	Cosmos-1.0-Diffusion	Cosmos-1.0-Autoregressive

2.1 扩散模型：精雕细琢，打造逼真视界

Cosmos 平台的扩散模型采用了先进的架构设计和训练策略，能够生成高质量、高分辨率、具有良好时间一致性的视频。如果把生成视频比作画一幅画，那么扩散模型就像是一位技艺精湛的画家，通过不断地“去噪”、“上色”，最终呈现出一幅栩栩如生的画作。

2.1.1 化繁为简：从噪声中“还原”清晰影像

扩散模型的核心思想是通过逐步去除噪声来生成视频。你可以把它想象成雕刻：一块大理石，经过雕刻师不断地雕琢，最终变成精美的艺术品。

在训练过程中，模型学习一个去噪器，这个去噪器就像雕刻师的凿子，它的任务是在给定噪声水平的情况下，从带噪的样本（大理石）中预测出干净的样本（艺术品）。训练的目标就是让模型学会如何一步步地去除噪声，还原出清晰的图像。

2.1.2 架构巧思：洞悉时空的奥秘

Cosmos 扩散模型的架构如下图所示，它巧妙地融合了多种先进技术，如同一个精密的仪器，高效地处理着时空信息：

图：Cosmos-1.0-扩散世界模型总体架构

• 3D 块化： 将输入的潜在表示划分为不重叠的 3D 块，并将其转换为一维序列，作为模型输入。就像将一个三维物体分解成一个个小的立方体，方便模型处理。
• 混合位置嵌入： 采用了 3D 分解的旋转位置嵌入 (RoPE) 和可学习的绝对位置嵌入，并根据训练视频的 FPS 对时间频率进行缩放，增强了模型对不同大小、长宽比和帧率的视频的适应能力。这就好比给每个“小立方体”都打上独特的时空标签，让模型能够准确地把握它们之间的相对位置和时间关系。
• 文本条件交叉注意力： 利用 T5-XXL 模型的文本嵌入作为键和值，将文本信息融入到模型中。就像给模型一个“剧本”，让它按照剧本的要求来生成视频。
• 查询键规范化： 对查询和键向量进行归一化，提高了训练的稳定性。
• AdaLN-LoRA： 在自适应层归一化 (AdaLN) 层中采用低秩自适应 (LoRA) 技术，减少了模型参数量，同时保持了性能。这就像对模型进行了“瘦身”，让它运行得更快更轻盈。

下表提供了 Cosmos-1.0-Diffusion 模型的配置细节：

表：Cosmos-1.0-Diffusion 模型的配置细节

2.1.3 训练策略：循序渐进，精益求精

Cosmos 扩散模型的训练策略也颇有讲究，就像培育一棵参天大树，需要精心的呵护和时间的沉淀：

• 联合图像和视频训练： 交替使用图像和视频数据进行训练，并采用特定领域的归一化方案，提高了模型在图像和视频生成方面的性能。
• 渐进式训练： 从低分辨率、短视频开始训练，逐步过渡到高分辨率、长视频，提高了训练效率和生成质量。就像学习一门新技能，先易后难，循序渐进。
• 多方面训练： 将数据分成不同的长宽比桶，并在每个桶内进行最长边调整大小，提高了模型对不同长宽比视频的处理能力。
• 混合精度训练： 使用 BF16 和 FP32 混合精度训练，提高了训练效率，并保持了数值稳定性。
• 文本调节： 使用 T5-XXL 模型作为文本编码器，并采用无分类器指导技术，增强了文本到视频生成的能力。
• 图像和视频调节： 通过将之前的帧与生成的帧在时间维度上连接起来，实现了基于图像和视频的条件生成。

2.1.4 规模化：化零为整，高效并行

为了高效地训练大型扩散模型，Cosmos 平台采用了多种并行化技术，将庞大的计算任务分解到多个 GPU 上并行处理：

• 全分片数据并行 (FSDP)： 将模型参数、梯度和优化器状态分片到多个 GPU 上，减少了每个 GPU 的内存占用。
• 上下文并行 (CP)： 将查询和键值沿序列维度分割到多个 GPU 上，减少了激活内存占用，并提高了长序列处理能力。

通过这些优化，Cosmos 平台成功地训练了具有 70 亿和 140 亿参数的扩散模型，并在 10,000 个 NVIDIA H100 GPU 上进行了为期三个月的训练。

2.1.5 提示上采样器：锦上添花，激发创意

为了将用户输入的简短提示转换为更详细、更丰富的提示，Cosmos 平台构建了一个提示上采样器。该上采样器基于 Mistral-NeMo-12B-Instruct 模型进行微调，能够生成与训练数据 distribution 更一致的提示，从而提高生成视频的质量。

2.1.6 成果展示：栩栩如生，真假难辨

下图展示了 Cosmos-1.0-Diffusion-7B-Text2world 和 Cosmos-1.0-Diffusion-14B-Text2world 模型的生成结果。可以看出，这两个模型都能够生成高质量、具有良好运动动态和文本对齐的视频。与 7B 模型相比，14B 模型能够捕捉更精细的视觉细节和更复杂的运动模式。

图：Cosmos-1.0-Diffusion-7B-Text2world 和 Cosmos-1.0-Diffusion-14B-Text2world 模型的生成结果

下图展示了 Cosmos-1.0-Diffusion-7B-Video2world 和 Cosmos-1.0-Diffusion-14B-Video2world 模型的生成结果。这两个模型都支持图像和视频条件生成，并且可以自回归地生成长视频。

图：Cosmos-1.0-Diffusion-7B-Video2world 和 Cosmos-1.0-Diffusion-14B-Video2world 模型的生成结果

2.2 自回归模型：闪电速度，实现高效交互

如果说扩散模型是一位精雕细琢的画家，那么自回归模型就是一位思维敏捷的“预言家”。它通过预测下一个 token 的方式来生成视频，像“接龙”一样，一步步地构建出完整的视频序列。Cosmos 平台的自回归模型将世界模拟生成建模为下一个 token 预测任务，类似于语言建模。它采用了一种改进的 Transformer 解码器架构，并针对视频生成任务进行了优化。

2.2.1 预测未来：像“预言家”一样思考

自回归模型的核心思想是预测下一个 token。给定一个视频，首先将其转换为一系列离散的视频 token，然后训练一个 Transformer 解码器来预测下一个视频 token。你可以把它想象成一个“预言家”，根据过去和现在的信息，预测未来的景象。

2.2.2 架构创新：洞察入微，把握关键

Cosmos 自回归模型的架构如下图所示，它巧妙地融合了多种先进技术，如同一个精密的“大脑”，高效地处理着时空信息：

图：Cosmos-1.0-自回归-Video2World 模型

• 3D 位置嵌入： 类似于扩散模型，自回归模型也采用了 3D 旋转位置嵌入 (RoPE) 和 3D 绝对位置嵌入 (APE)，以提供全面的时空信息。RoPE 利用 YaRN 技术沿时间维度进行了扩展，以支持更长的视频序列。
• 词汇表： 自回归模型使用 Cosmos-1.0-Tokenizer-DV8x16x16 作为分词器，该分词器将 6 维潜在空间量化为 (8, 8, 8, 5, 5, 5) 个级别，词汇表大小为 64,000。
• 文本条件交叉注意力： 在自注意力块之后添加交叉注意力层，使模型能够根据输入的文本条件生成视频。文本嵌入来自预训练的 T5-XXL 文本编码器。
• 查询键规范化： 在计算点积之前对查询和键向量进行归一化，提高了训练的稳定性。
• Z 损失： 在训练目标中引入了一个稳定项，称为 z 损失，用于惩罚偏离零的 logits，防止梯度爆炸。

2.2.3 规模化：分而治之，高效并行

为了高效地训练大型自回归模型，Cosmos 平台采用了以下技术：

• 张量并行 (TP)： 将线性层的权重沿输入或输出特征维度分割，以减少每个 GPU 的内存占用。
• 序列并行 (SP)： 进一步将上下文沿序列维度分割，以减少自注意力层中 LayerNorm 和 Dropout 等操作的激活内存占用。

通过这些优化，Cosmos 平台成功地训练了具有 40 亿和 120 亿参数的自回归模型。以 12B 模型为例，其参数、梯度和优化器状态总共需要约 192GB 内存，通过张量并行和序列并行，可以将内存需求分摊到多个 GPU 上。

下表提供了 Cosmos-1.0-Autoregressive 模型的配置细节：

表：Cosmos-1.0-Autoregressive 模型的配置细节

2.2.4 步步为营：多阶段训练策略

Cosmos 自回归模型的预训练分为多个阶段：

• 阶段 1： 给定第一帧作为输入条件，模型被训练来预测未来的视频帧，上下文长度为 17 帧。
• 阶段 1.1： 增加上下文长度到 34 帧，并在时间维度上使用 YaRN 扩展。
• 阶段 2： 引入文本条件，并使用联合图像和视频数据进行训练。
• 冷却阶段： 在高质量数据上进行微调，并线性衰减学习率。

2.2.5 实时生成：争分夺秒，极速响应

为了加速自回归模型的推理速度，Cosmos 平台采用了以下技术：

• 推测解码： 应用了 Medusa 推测解码框架，通过引入额外的解码头来并行预测多个后续 token，并使用拒绝采样来验证这些推测的 token，从而减少了推理所需的步骤数。就像“多管齐下”，同时预测多个 token，大大提高了生成速度。

下表展示了不同数量的 Medusa 头对平均 token 吞吐量和前向传递次数的影响：

表：Medusa 头数量对平均 token 吞吐量和前向传递次数的影响

下表展示了自回归模型集成 Medusa 后的性能分析：

表：自回归模型集成 Medusa 后的性能分析

• 用于实时推理的低分辨率自适应： 通过在目标物理 AI 领域的低分辨率视频上微调分词器和自回归模型，并结合 Medusa 头，实现了生成一帧小于 0.1 秒，达到近似实时的视频生成。

下表展示了低分辨率自适应的 Cosmos-1.0-Autoregressive-4B 模型的解码吞吐量：

表：低分辨率自适应的 Cosmos-1.0-Autoregressive-4B 模型的解码吞吐量

2.2.6 扩散解码器：精益求精，提升画质

虽然自回归模型推理速度快，但生成的视频质量可能不如扩散模型。为了解决这个问题，Cosmos 平台引入了一个扩散解码器。该解码器通过微调 Cosmos-1.0-Diffusion-7B-Text2Video 模型来实现，它将离散的 token 视频作为条件输入，并生成更高质量的连续 token 视频。然后，该连续 token 视频可以使用 Cosmos-1.0-Tokenizer-CV8x8x8 解码为 RGB 视频。

下图分别展示了扩散解码器的训练和推理过程：

图：Cosmos 扩散解码器训练

图：Cosmos 扩散解码器推理

2.2.7 成果展示：快速生成，流畅体验

下图展示了不同大小的自回归模型的生成结果：

图：Cosmos 自回归世界模型生成结果 (上排：4B 和 12B 模型无提示生成；下排：5B 和 13B 模型基于文本提示生成)

从图中可以看出，12B 和 13B 模型生成的视频比 4B 和 5B 模型更清晰，运动更连贯。这表明较大的模型容量可以带来更好的生成质量。

下图展示了使用扩散解码器前后的对比：

图：扩散解码器效果对比 (上排：Cosmos-1.0-Autoregressive-13B-Video2World 模型输出；下排：经过扩散解码器增强后的输出)

可以看出，扩散解码器能够有效提升自回归模型生成的视频质量，使其在清晰度和细节方面得到显著改善。

2.2.8 局限性：仍需改进，精益求精

尽管自回归模型在速度和可控性方面具有优势，但它也存在一些局限性。一个明显的失效案例是物体会意外地从下方出现，如下图所示：

图：Cosmos 自回归模型的失效案例（红色框中物体突然出现）

为了评估失效的频率，研究团队创建了一个包含 100 个物理 AI 输入的评估集，并使用不同的模型和输入模式生成视频。结果如下表所示：

表：Cosmos 自回归模型的失效频率分析

从表中可以看出，较小的模型在单帧条件输入下更容易出现失效，而较大的模型则更稳定。使用 9 帧视频作为条件输入可以显著降低所有模型的失效频率。

2.3 评估：多维评估，全面衡量

为了全面评估预训练世界模型的性能，Cosmos 平台从 3D 一致性和物理对齐两个方面进行了评估。

2.3.1 3D 一致性：虚实结合，浑然一体

3D 一致性是指生成的视频是否符合三维世界的几何规律。为了评估这一点，研究团队使用了一个包含 500 个静态场景视频的数据集，并与 VideoLDM 模型进行了比较。评估指标包括几何一致性 (Sampson 误差和相机姿态估计成功率) 和视图合成一致性 (PSNR、SSIM 和 LPIPS)。

下表展示了 3D 一致性的评估结果：

表：基础 Cosmos 模型上的 3D 一致性评估 (Sampson误差越低越好，姿态估计成功率越高越好，PSNR越高越好，SSIM越高越好，LPIPS越低越好)

从表中可以看出，Cosmos 模型在几何一致性和视图合成一致性方面都显著优于 VideoLDM 模型，甚至达到了真实视频的水平。这表明 Cosmos 模型能够生成具有良好 3D 一致性的视频，为构建逼真的虚拟世界奠定了基础。

2.3.2 物理对齐：遵循规律，合乎情理

物理对齐是指生成的视频是否符合现实世界的物理规律。为了评估这一点，研究团队使用了一个基于物理模拟引擎的基准数据集，该数据集包含 8 个不同的物理场景，例如：自由落体、斜面滚动、多米诺骨牌效应等。评估指标包括像素级指标 (PSNR 和 SSIM)、特征级指标 (DreamSim) 和对象级指标 (平均 IoU)。

下图展示了一些模拟场景和 WFM 预测结果的对比：

图：模拟与预训练 WFM 的物理场景展开对比 (每组第一行为参考的物理模拟结果，第二行为Cosmos-1.0-Diffusion-7B-Video2World模型预测结果，蓝色边框和遮罩为跟踪物体)

下表展示了物理对齐的评估结果：

表：物理对齐结果 (PSNR越高越好，SSIM越高越好，DreamSim越高越好，平均IoU越高越好)

从表中可以看出，扩散模型在 9 帧条件输入下，像素级预测方面优于自回归模型。然而，所有模型在物理对齐方面都存在较大的提升空间，这也指明了未来研究的方向。

3. 工具：从分词器到安全护栏，Cosmos提供全方位支持

除了强大的基础模型，Cosmos 平台还提供了一系列工具，为开发者提供了全方位的支持，就像一个完备的工具箱，让开发者可以更轻松地构建和部署物理 AI 应用。

3.1 Cosmos分词器：高效压缩，精准重建

分词器是连接视频数据和世界模型的桥梁，它的作用是将视频数据压缩成更紧凑的 token 表示，方便模型处理。Cosmos 平台提供了一套高效且高质量的分词器，包括连续和离散两种类型，能够将视频压缩成紧凑的 token 表示，同时最大限度地保留原始视频的信息，就像一个高效的“压缩大师”。

• 连续分词器： 将视频编码为连续的潜在嵌入，适用于基于扩散的模型。
• 离散分词器： 将视频编码为离散的 token，适用于基于自回归的模型。

Cosmos 分词器采用了轻量级、高效的架构和时间因果机制，实现了高压缩率和高质量的视频重建。下图展示了不同分词器在压缩率和重建质量方面的对比：

图：不同分词器在压缩率和重建质量方面的对比 (左图：连续分词器；右图：离散分词器)

下表对比了不同分词器在 DAVIS 和 TokenBench 数据集上的性能：

表：不同分词器在 DAVIS 和 TokenBench 数据集上的性能对比 (PSNR 越高越好，SSIM 越高越好，rFID 越低越好，rFVD 越低越好)

3.2 安全护栏：双重保障，确保模型输出安全可靠

Cosmos 平台非常重视模型的安全性，并集成了多层次的安全护栏机制，包括前置守卫和后置守卫，以确保模型生成的视频内容安全可靠。如果把 Cosmos 平台比作一个工厂，那么安全护栏就是工厂的“安全员”，负责检查每一件产品的安全性。

3.2.1 前置守卫：防患于未然

前置守卫主要负责对输入的文本提示进行过滤，阻止有害或不当的输入。它包含两个主要组件：

• 关键词屏蔽： 维护一个包含显式和令人反感的词汇的黑名单，并利用词形还原工具来识别这些词汇的变体。如果输入的文本提示中包含任何黑名单中的词汇，则会被阻止。就像一个“敏感词过滤器”，将不良信息拒之门外。
• Aegis 守卫： 使用了基于 LLM 的 Aegis-AI-Content-Safety-LlamaGuard-LLM-Defensive-1.0 模型，该模型经过了微调，能够识别 13 个关键安全风险类别的内容，包括：暴力、色情、犯罪计划、武器、违禁物质、自杀、儿童色情材料、仇恨、骚扰、威胁和亵渎。如果输入的文本提示被 Aegis 模型判定为不安全，则会被阻止。

3.2.2 后置守卫：精益求精

后置守卫主要负责对模型生成的视频内容进行过滤，确保输出内容的安全性和隐私性。它包含两个主要组件：

• 视频内容安全过滤器： 这是一个基于帧级别的多类分类器，经过训练可以识别不同类别的视频内容，包括安全和不安全的类别。如果模型生成的视频中包含任何被分类为不安全的帧，则整个视频都会被标记为不安全。就像一个“质检员”，对每一帧画面进行安全检查。
• 人脸模糊过滤器： 使用 RetinaFace 模型检测视频中的人脸区域，并对大于 20x20 像素的人脸区域进行像素化处理，以保护隐私。就像一个“马赛克大师”，对人脸信息进行模糊处理。

为了提高安全护栏的性能，Cosmos 平台还采用了红队测试的方法，使用人工标注的数据不断地对模型进行测试和改进，不断提升“安全员”的业务能力。

下图展示了 Cosmos 安全护栏的整体流程：

图：Cosmos 安全护栏概览

4. 应用层：三大应用场景，展现Cosmos强大能力

Cosmos 平台的强大功能最终体现在其广泛的应用场景上。通过对预训练的世界模型进行微调，Cosmos 平台可以应用于各种物理 AI 任务，为各行各业带来智能化变革。这里，我们将重点介绍三个典型的应用场景：相机控制、机器人操作和自动驾驶。这三个场景都对可控性和物理真实性有很高的要求，也最能体现Cosmos平台的价值。

4.1 相机控制：自由漫游，探索虚拟世界

想象一下，你就是一名导演，可以自由地控制摄像机，拍摄你想要的任何场景，甚至可以“穿越”到任何一个虚拟世界。通过对 Cosmos-1.0-Diffusion-7B-Video2World 模型进行微调，并加入相机姿态作为控制条件，Cosmos平台可以实现对生成视频的相机控制，从而构建一个可以自由导航的 3D 虚拟世界。我们将微调后的模型称为 Cosmos-1.0-Diffusion-7B-Video2World-Sample-CameraCond。

4.1.1 微调方法

研究团队使用了 DL3DV-10K 数据集进行微调，该数据集包含大量静态场景的视频以及相应的相机姿态信息。他们使用 GLOMAP 对视频片段进行处理，获得了密集的相机姿态标注。在微调过程中，将相机姿态转换为 Plücker 坐标，并将其与采样的潜在嵌入连接起来，作为模型的输入。

4.1.2 评估指标

研究团队从视频生成质量和 3D 一致性两个方面评估了模型的性能。

• 视频生成质量： 使用 FID 和 FVD 指标来评估生成视频的质量。
• 3D 一致性： 通过重新估计相机姿态并与输入的相机控制轨迹进行比较来评估 3D 一致性。具体指标包括平均旋转误差和平均平移误差。

4.1.3 结果展示

下表展示了与其他模型的对比结果：

表：相机控制模型的定量比较 (姿态估计成功率越高越好，旋转误差越低越好，平移误差越低越好，FID 越低越好，FVD 越低越好)

下图展示了生成视频和重新估计的相机姿态：

图：相机控制模型的定性比较 (第一列: 输入帧; 第二列: 输入相机轨迹; 第三列: 生成的视频帧; 第四列: 重新估计的相机轨迹)

从结果可以看出，Cosmos-1.0-Diffusion-7B-Video2World-Sample-CameraCond 模型在视频生成质量和 3D 一致性方面都明显优于其他模型，例如 CamCo。这表明，Cosmos 平台能够生成高质量、3D 一致的视频，并且可以精确地根据相机控制信号进行导航。

下图展示了使用操纵杆控制相机运动的生成结果，第一列是输入的单张图片，后面几列是基于这张图片，在不同控制下生成的视频帧，从上到下分别是前进、后退、左转、右转：

图：使用操纵杆控制的 Cosmos-1.0-Diffusion-7B-Video2World-Sample-CameraCond 结果

下图展示了在相同输入图像和相机控制条件下，使用不同随机种子生成的不同世界。每组第一列为输入的单张图片，后面几列为不同种子下的生成结果，第一组为后退控制，第二组为右转控制：

图：使用不同种子的 Cosmos-1.0-Diffusion-7B-Video2World-Sample-CameraCond 结果

这些结果表明，Cosmos 平台可以根据用户的控制信号，生成多样化的、3D 一致的虚拟世界，为虚拟现实、游戏开发等领域提供了强大的工具。

4.2 机器人操作：精准预测，赋能智能决策

通过对 Cosmos 预训练模型进行微调，并加入指令或动作作为控制条件，我们可以预测机器人执行特定操作后的结果，从而为机器人规划和控制提供支持。这就好比给机器人装上了一个“先知”的大脑，让它能够预见未来的结果，从而做出更明智的决策。

4.2.1 微调方法和数据集

研究团队针对两种不同的任务进行了微调：

• 指令为基础的视频预测： 输入当前视频帧和文本指令，输出预测的未来视频。他们使用了内部的 Cosmos-1X 数据集，其中包含约 12,000 个由 EVE 人形机器人执行各种任务的视频片段，并标注了相应的指令，例如“把绿色的东西从桌子上拿起来”。
• 动作为基础的下一帧预测： 输入当前视频帧和动作向量，输出预测的下一帧。他们使用了公开的 Bridge 数据集，其中包含约 20,000 个机器人手臂在厨房环境中执行不同任务的视频片段，并标注了相应的动作向量。

他们分别基于 Cosmos-1.0-Diffusion-7B-Video2World 和 Cosmos-1.0-Autoregressive-5B-Video2World 模型进行了微调，得到了四个模型：

• Cosmos-1.0-Diffusion-7B-Video2World-Sample-Instruction
• Cosmos-1.0-Autoregressive-5B-Video2World-Sample-Instruction
• Cosmos-1.0-Diffusion-7B-Video2World-Sample-ActionCond
• Cosmos-1.0-Autoregressive-5B-Video2World-Sample-ActionCond

4.2.2 评估指标

• 指令为基础的视频预测： 研究团队从以下几个方面评估了模型的性能：指令遵循（生成的视频是否与输入的指令一致）、对象持久性（物体是否在生成的视频中保持不变）、真实性（生成的视频是否符合真实世界的物理规律）和整体合理性（生成的视频对于机器人规划来说是否合理）。他们通过人工评估的方式，对比了 Cosmos 模型和 VideoLDM-Instruction 模型在 23 个测试片段上的表现。
• 动作为基础的下一帧预测： 通过自回归的方式生成视频，并与 IRASim-Action 模型进行了比较。评估指标包括 PSNR、SSIM、Latent L2 和 FVD。

4.2.3 结果展示

下图展示了指令为基础的视频预测的人工评估结果：

图：Cosmos-1X 数据集上基于指令的视频预测的人工评估结果 (左图：Cosmos-1.0-Diffusion-7B-Video2World-Sample-Instruction vs. VideoLDM-Instruction；右图：Cosmos-1.0-Autoregressive-5B-Video2World-Sample-Instruction vs. VideoLDM-Instruction)

从图中可以看出，Cosmos 模型在指令遵循、对象持久性、真实性和整体合理性方面都优于 VideoLDM-Instruction 模型。

下图展示了指令为基础的视频预测的生成样例：

图：Cosmos-1X 数据集上基于指令的视频预测样本 (左侧：Cosmos-1.0-Diffusion-7B-Video2World-Sample-Instruction；右侧：Cosmos-1.0-Autoregressive-5B-Video2World-Sample-Instruction)

下表展示了动作为基础的下一帧预测的评估结果：

表：Bridge 数据集上基于动作的下一帧预测的评估 (PSNR 越高越好，SSIM 越高越好，Latent L2 越低越好，FVD 越低越好)

从表中可以看出，Cosmos 模型在各项指标上都优于 IRASim-Action 模型。

下图展示了动作为基础的下一帧预测的生成样例，左侧是 Cosmos-1.0-Diffusion-7B-Video2World-Sample-ActionCond 的结果，右侧是 Cosmos-1.0-Autoregressive-5B-Video2World-Sample-ActionCond 的结果：

图：Bridge 数据集上基于动作的下一帧预测样本

这些结果表明，Cosmos 平台可以根据指令或动作预测机器人操作的结果，为机器人规划和控制提供了强大的支持。

4.3 自动驾驶：多视角仿真，安全高效训练

自动驾驶是物理 AI 的另一个重要应用领域。通过对 Cosmos 预训练模型进行微调，并加入轨迹作为控制条件，我们可以生成多视角、符合轨迹的驾驶场景，为自动驾驶算法的训练提供安全、高效、低成本的数据。这就好比为自动驾驶汽车打造了一个“虚拟驾校”，让它可以在各种路况下进行练习，而无需担心真实世界的风险。

4.3.1 微调方法和数据集

研究团队使用了内部的真实驾驶场景 (RDS) 数据集进行微调，该数据集包含约 360 万个 20 秒的环视视频片段，每个片段包含 6 个摄像头的视角，并标注了相应的轨迹信息。他们基于 Cosmos-1.0-Diffusion-7B-Text2World 模型进行了微调，得到了三个多视角世界模型：

• Cosmos-1.0-Diffusion-7B-Text2World-Sample-MultiView： 可以根据文本提示生成六个摄像机视角的视频。
• Cosmos-1.0-Diffusion-7B-Text2World-Sample-MultiView-TrajectoryCond： 在 Cosmos-1.0-Diffusion-7B-Text2World-Sample-MultiView 的基础上，加入了轨迹输入作为控制条件，可以生成符合特定轨迹的驾驶场景。
• Cosmos-1.0-Diffusion-7B-Video2World-Sample-MultiView： 在 Cosmos-1.0-Diffusion-7B-Text2World-Sample-MultiView 的基础上，加入了视频输入作为控制条件，可以基于 Cosmos-1.0-Diffusion-7B-Text2World-Sample-MultiView 的输出进行扩展，生成更长的视频序列。

4.3.2 评估指标

研究团队从生成质量、多视图一致性和轨迹一致性三个方面评估了模型的性能。

• 生成质量： 使用 FID 和 FVD 指标来评估生成视频的质量。
• 多视图一致性： 使用时间 Sampson 错误 (TSE) 和跨视图 Sampson 错误 (CSE) 来评估生成视频的几何一致性。
• 轨迹一致性：

• 轨迹协议错误 (TAE)： 通过估计相机姿态并计算不同视角下轨迹之间的协议错误来评估轨迹一致性。
• 轨迹跟随错误 (TFE)： 通过估计相机姿态并与输入的轨迹条件进行比较来评估模型遵循给定轨迹的能力。

• 对象跟踪一致性： 通过人工标注的方式，评估生成的 8 秒视频中，跟踪算法是否误判了物理上不可能发生的情况，例如两个不同的物体（例如，人和汽车）错误地合并为单个跟踪实体。

4.3.3 结果展示

下表展示了多视角驾驶视频生成的评估结果：

表：多视图驾驶视频生成的多视图一致性评估 (TSE 越低越好，CSE 越低越好)

下表展示了多视角驾驶视频生成的轨迹一致性评估结果：

表：多视图驾驶视频生成的轨迹一致性评估 (TAE-ATE 越低越好, TAE-RPE-R 越低越好, TAE-RPE-t 越低越好, TFE 越低越好)

下图展示了基于文本条件的多视角驾驶视频生成样例：

图：由 Cosmos-1.0-Diffusion-7B-Text2World-Sample-MultiView 生成的文本条件样本，由 Cosmos-1.0-Diffusion-7B-Video2World-Sample-MultiView 扩展到 8 秒 (左侧：摩托车行驶在卡车旁边的场景；右侧：大雪天，车辆右转场景)

下图展示了 Cosmos 模型能够生成训练数据集中罕见或不存在的场景：

图：由 Cosmos-1.0-Diffusion-7B-Text2World-Sample-MultiView 生成的罕见场景样本，由 Cosmos-1.0-Diffusion-7B-Video2World-Sample-MultiView 扩展到 8 秒 (左侧：汽车驶向冰雪城堡；右侧：汽车在水面上行驶)

下图展示了基于轨迹条件的多视角驾驶视频生成样例：

图：由 Cosmos-1.0-Diffusion-7B-Text2World-Sample-MultiView-TrajectoryCond 生成的轨迹条件样本

从结果可以看出，Cosmos 平台可以生成高质量、多视角、符合轨迹的驾驶场景，为自动驾驶算法的训练提供了强大的支持。

Cosmos平台的创新与意义：开源、开放、高效

Cosmos 平台的发布，是物理 AI 领域的一件大事。它不仅提供了一个强大的工具，更代表了一种开源、开放、合作的理念，将极大地推动物理 AI 的发展。

Cosmos 平台的创新之处主要体现在以下几个方面：

• 全流程解决方案： Cosmos 平台涵盖了从数据收集、预处理、模型训练、微调到应用部署的全流程，为开发者提供了端到端的解决方案，就像一个“交钥匙工程”，让开发者可以更专注于应用层的创新。
• 双架构支持： Cosmos 平台同时支持扩散模型和自回归模型两种主流架构，并针对物理 AI 的需求进行了优化，为开发者提供了更灵活的选择，可以根据不同的应用场景选择最合适的模型。
• 针对物理 AI 的优化： Cosmos 平台在数据处理、模型架构、训练策略等方面都针对物理 AI 的特点进行了优化，例如，采用了更精细的数据过滤机制、更高效的分词器、更强大的模型架构等，使其更适用于物理 AI 任务。
• 数据和模型开源： 英伟达将 Cosmos 平台的预训练模型和代码开源，降低了物理 AI 研究和开发的门槛，促进了社区的合作和创新。

Cosmos 平台如何降低物理 AI 研究和开发的门槛？

• 提供预训练模型： 开发者可以直接使用 Cosmos 平台提供的预训练模型，无需从头开始训练，节省了大量的时间和计算资源。这就好比站在巨人的肩膀上，可以看得更远，走得更快。
• 简化数据处理流程： Cosmos 平台提供了一套完整的数据处理工具，可以帮助开发者更轻松地处理和准备训练数据，避免了繁琐的数据清洗和标注工作。
• 提供详细的文档和教程： Cosmos 平台提供了详细的文档和教程，帮助开发者快速上手使用平台，降低了学习成本。

Cosmos 平台对物理 AI 领域发展的推动作用：

• 加速算法研究： Cosmos 平台为研究人员提供了一个强大的工具，可以帮助他们更快地开发和测试新的物理 AI 算法，加速科研进程。
• 促进应用落地： Cosmos 平台降低了物理 AI 应用的开发门槛，将促进更多物理 AI 应用的落地，让 AI 技术真正服务于各行各业。
• 推动行业创新： Cosmos 平台的开源性质将促进社区的合作和创新，推动整个物理 AI 行业的发展，形成一个良性循环的生态系统。

结语：Cosmos的局限与未来：持续进化，前景无限

尽管 Cosmos 平台已经取得了很大的进展，但它仍然处于早期阶段，还存在一些局限性，例如：

• 对象持久性： 生成的视频中，物体有时会出现或消失，缺乏持久性，需要进一步提高模型对物体存在的理解。
• 复杂动力学： 模型在处理复杂的物理交互，例如碰撞、流体动力学等方面还存在不足，需要加强对物理规律的建模能力。
• 指令遵循： 模型在理解和执行复杂指令方面还有待提高，需要进一步提升模型的推理能力。
• 评估方法： 目前还没有一套完善的评估方法来衡量世界模型的性能，特别是物理准确性方面，需要开发更有效的评估手段。

未来的改进方向：

• 提高物理准确性： 研究团队将继续改进模型架构和训练方法，提高模型对物理规律的理解和建模能力，让生成的虚拟世界更加逼真。
• 开发更有效的评估方法： 研究团队将探索更有效的评估方法，例如利用多模态大语言模型或物理模拟器进行自动评估，更全面地衡量模型的性能。
• 探索自回归和扩散模型的混合方法： 结合两种架构的优势，开发更强大、更灵活的世界模型，兼顾生成质量、推理速度和可控性。

我们相信，随着技术的不断发展，Cosmos 平台将不断进化，未来将能够生成更加逼真、更加符合物理规律的虚拟世界，为物理 AI 的发展提供更强大的支持。物理 AI 的未来前景无限，我们期待着 Cosmos 平台能够在其中发挥更大的作用，开启物理 AI 的“元宇宙”时代，让 AI 技术真正地造福人类！

相关链接

• Cosmos 论文地址：https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_4.pdf
• Cosmos Tokenizer 地址：github.com/NVIDIA/Cosmos-Tokenizer

子非AI

子非AI，亦解AI之妙：一站式AI情报站，助你开启智能未来之门。