【最新开源】英伟达推出 Cosmos 世界基础模型平台,支持物理 AI 系统开发

文摘   2025-01-09 16:04   广东  

1月7日,英伟达官宣了首个「世界基础模型」——Cosmos

在 CES 大会上,老黄称,「AI下一个前沿就是物理AI」

简单来说,Cosmos 是一个世界模型平台,专为物理AI而设计,上面有一系列开源、开放权重的视频世界模型,参数量从 4B 到 14B 不等。这些模型的作用非常明确,就是为机器人、自动驾驶汽车等在物理世界中运行的 AI 系统生成大量照片级真实、基于物理的合成数据,以解决该领域数据严重不足的问题。

Cosmos 一共包含了四大功能模块:扩散模型、自回归模型、视频分词器,以及视频处理与编辑流程

Cosmos 平台发布了 8 个模型,参数量从 4B 到 14B 不等,这些模型在 2000 万小时的视频数据上进行训练,分为扩散(连续 token)和自回归(离散 token)模型两类,支持文本生成视频文本 + 视频生成视频两种生成方式。

图:英伟达的 Cosmos 平台一次发布了 8 个模型

Cosmos 一共包含了三种规格的模型:Nano、Super、Ultra

  • Nano:用于低延迟和实时应用。

  • Super:用于高性能基线模型。

  • Ultra:用于最大质量和高保真输出。

与 VideoLDM 基准相比,Cosmos 世界模型在几何准确性方面表现更优,而且在视觉一致性方面持续超越 VLDM,姿态估计成功率最高飙升 14 倍。

与此同时,关于 Cosmos 75页最详细的技术报告也发布了。

  • 技术报告地址:https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_4.pdf

技术报告主要介绍了用于构建物理 AI 的 Cosmos 世界基础模型(WFM)平台



参考:
https://developer.nvidia.com/cosmos?ncid=no-ncid
https://www.nvidia.com/en-us/ai/cosmos/

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章