1月7日,英伟达官宣了首个「世界基础模型」——Cosmos。
在 CES 大会上,老黄称,「AI下一个前沿就是物理AI」。
简单来说,Cosmos 是一个世界模型平台,专为物理AI而设计,上面有一系列开源、开放权重的视频世界模型,参数量从 4B 到 14B 不等。这些模型的作用非常明确,就是为机器人、自动驾驶汽车等在物理世界中运行的 AI 系统生成大量照片级真实、基于物理的合成数据,以解决该领域数据严重不足的问题。
Cosmos 一共包含了四大功能模块:扩散模型、自回归模型、视频分词器,以及视频处理与编辑流程。
Cosmos 平台发布了 8 个模型,参数量从 4B 到 14B 不等,这些模型在 2000 万小时的视频数据上进行训练,分为扩散(连续 token)和自回归(离散 token)模型两类,支持文本生成视频和文本 + 视频生成视频两种生成方式。
图:英伟达的 Cosmos 平台一次发布了 8 个模型
Cosmos 一共包含了三种规格的模型:Nano、Super、Ultra。
Nano:用于低延迟和实时应用。
Super:用于高性能基线模型。
Ultra:用于最大质量和高保真输出。
与 VideoLDM 基准相比,Cosmos 世界模型在几何准确性方面表现更优,而且在视觉一致性方面持续超越 VLDM,姿态估计成功率最高飙升 14 倍。
与此同时,关于 Cosmos 75页最详细的技术报告也发布了。
技术报告地址:https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_4.pdf
技术报告主要介绍了用于构建物理 AI 的 Cosmos 世界基础模型(WFM)平台。
参考:
https://developer.nvidia.com/cosmos?ncid=no-ncid
https://www.nvidia.com/en-us/ai/cosmos/