2025年才刚开始没几天,具身智能机器人赛道的热度就达到了顶峰。
在昨天的CES开幕演讲中,英伟达CEO黄仁勋抛出了一个世界模型开发平台Cosmos,旨在加速机器人和自动驾驶汽车等物理AI系统的开发。
老黄一句“通用机器人的ChatGPT时刻即将到来”把热度成功引向了机器人赛道。
今天,关于Cosmos的一份详细技术报告出炉,Cosmos项目在GitHub开源社区上线后瞬间引起不少业内开发者关注,一天不到就上了2.7K星。
紧跟着老黄的节奏,国内智元机器人研究院具身算法团队也丢出一篇关于机器人4D世界模型的论文。不仅如此,外媒曝出谷歌从OpenAI挖了人正在加速组建新团队,致力于研究可以模拟物理世界的人工智能模型。
2025年能不能实现机器人领域的“ChatGPT时刻”不得而知,但从大厂到小厂的一系列动作表明,“世界模型”已是2025年绕不开的行业焦点。
Cosmos给世界模型加了把火
众所周知,物理AI首先需要进行数字化训练。它需要自身的数字孪生(即策略模型)以及世界的数字孪生(即世界模型)。
在这样的背景下,英伟达推出Cosmos就是希望能帮开发人员为他们的物理AI配置构建定制化的世界模型,它在定位上偏通用的世界基础模型(WFM) ,然后能够针对下游应用被微调为定制化。
简单来讲,这种世界基础模型与大型语言模型一样,使用输入数据(包括文本、图像、视频和动作)来生成和模拟虚拟世界,从而准确地模拟场景中物体的空间关系及其物理交互。
物理AI是一种配备了传感器和执行器的人工智能系统:传感器使其能够观察世界,而执行器则使其能够与世界进行交互并对世界做出改变。尽管近十年来,得益于数据量和计算能力的提升,人工智能的其他领域已经取得了显著进展,但物理AI却进展缓慢。
这很大程度上是因为扩展物理AI的训练数据要困难得多,因为所需的数据必须包含交叉的观察结果和行动序列,这些行动会干扰物理世界,并且可能会对系统以及世界造成严重破坏。
因此,世界基础模型(WFM)作为物理AI能够安全与之交互的物理世界的数字孪生体,就成为科学家们长期寻求的解决数据扩展问题的良方。
英伟达团队提出了一种 “先预训练再后训练” 的范式。
预训练的世界基础模型(WFM)是世界模型通用型产物,他们利用大规模、多样化的视频数据集进行训练的,这些数据集捕捉了现实世界物理现象的不同方面。由于预训练的世界基础模型提供了良好基础,所以用于后训练的数据集规模可以小得多。这种方式为构建物理AI系统提供了一种更高效的策略。
Cosmos等于是为行业打了个底子,在2000万小时的现实世界人际互动、环境、工业、机器人和驾驶数据中对9000万亿个token进行了训练。
开发者可以使用Cosmos的开放模型进行文本到世界或者视频到世界的一键生成:
简单来讲,有了这样的世界基础模型就可以实现海量合成数据生成,以增强训练数据集,在物理AI模型(如机器人)部署到现实世界之前对其进行大量的测试和调试,实现在虚拟世界里进行强化学习以加速AI代理进步。
比如合成逼真的自动驾驶数据或者机器人抓取数据:
技术报告中概述了搭建Cosmos的综合方法,涵盖了数据筛选流程、连续型和离散型标记器的设计、扩散式和自回归式世界基础模型的架构,以及针对各类下游物理人工智能任务的微调过程等。
但是也强调了这种生成出来的“世界”有着很多局限性,比如缺乏物体恒存性,在富含接触的动力学方面不够准确,例如所生成视频的逼真度虽然可以,但并非总能体现出对基本物理原理(如重力、光的相互作用以及流体动力学)的遵循情况。而且,以怎样的评估标准来评判物理逼真度目前是困难的。
最后值得一提的是,英伟达Cosmos背后的核心贡献者,华人几乎占据着半壁江山。
中国团队的创新
在国内,趁着老黄带来的这波热度未散,华为天才少年“稚晖君”的机器人公司智元机器人研究院也上了一波技术秀。
针对多模态对齐和数据稀缺问题,他们提出了一个EnerVerse架构,通过自回归扩散模型,在生成未来具身空间的同时引导机器人完成复杂任务。
论文称EnerVerse不仅具备卓越的空间生成能力,在机器人动作规划任务中也能达到当前最优表现,其模型与相关数据集马上也会开源。
这是近期该公司的第二次开源操作。在2024年12月30日,他们团队刚开源了一个百万真机数据集开源项目AgiBot World,引起行业不少关注度。
针对具身操作中复杂遮挡环境和多视角需求,EnerVerse提出了自由锚定视角方法,以灵活表达4D空间。
在短程与长程任务视频生成中,EnerVerse同样展现出卓越的性能:
在短程生成任务中,EnerVerse表现优于现有微调视频生成模型,在长程生成任务中,EnerVerse展现出更强的逻辑一致性与连续生成能力,这是现有模型无法实现的。
而且EnerVerse在仿真场景和真实场景中生成的多视角视频质量也得到了充分验证。
简单来讲,EnerVerse的优势在于,通过生成高质量合成数据缩小了模拟与现实的差距,减少了对昂贵真实世界数据收集的依赖,并为实现从生成场景向真实场景的无缝过渡方法。
同时,作为一个专为机器人操作任务而设计的用于生成具身未来空间的综合框架,EnerVerse能显著提升策略预测能力,进而提升机器人整体性能,尤其在长距离机器人操作任务方面表现突出。
生成式AI的下一个里程碑
2025年,机器人行业可能会有一个巨大进步,不仅英伟达,人工智能领域的佼佼者们都正在为此蓄力。
前段时间,OpenAI被传出正在考虑开发一款人形机器人,目前尚不清楚其具体计划,但公开资料显示,OpenAI已投资了多家机器人软硬初创公司,比如1X、Figure和Physical Intelligence等。
据TechCrunch报道,谷歌也正在组建一个新团队,致力于研究可以模拟物理世界的人工智能模型,而几个月前从OpenAI离职的高管Tim Brooks将成为带队人,该团队会成为Google DeepMind的一部分。
Tim Brooks曾是OpenAI Sora的联合负责人之一,他在自己的社交媒体上已经开始招人:“DeepMind有雄心勃勃的计划,要制作大量模拟世界的生成模型。我正在为这个使命招募一个新团队。”
在2024年12月底,DeepMind已经和人形机器人公司Apptronik达成战略略合作,Apptronik开发出的Apollo机器人目前处于行业一线水平,可以预见的是,Google DeepMind的机器人团队2025年会在机器人领域大干一场。
除了科技巨头,许多初创公司都开始追逐世界模型,如人工智能研究员李飞飞的空间智能公司World Labs以及一些新兴世界建模公司Decart和Odyssey诞生。他们相信,世界模型有朝一日不仅可以用于创建交互式媒体,如视频游戏和电影,而且有能力运行逼真的模拟效果,如机器人和智能汽车的训练环境。
基于互联网数据训练的生成式模型在2024年已经彻底改变了文本、图像和视频内容的创作方式。
从趋势来看,生成式模型的下一个里程碑将是更好地逼真模拟现实世界物理特性,以对人类、机器人以及其他类型交互主体所执行的行动做出响应。2025年距离这个里程碑已经不远了。