现实世界版的 Genie-2?
论文标题:Navigation World Models 论文地址:https://arxiv.org/pdf/2412.03572v1 项目地址:https://www.amirbar.net/nwm/
NWM 效果演示
提出了导航世界模型和一种全新的条件扩散 Transformer(CDiT);相比于标准 DiT,其能高效地扩展到 1B 参数,同时计算需求还小得多。 使用来自不同机器人智能体的视频和导航动作对 CDiT 进行了训练,通过独立地或与外部导航策略一起模拟导航规划而实现规划,从而取得了当前最先进的视觉导航性能。 通过在 Ego4D 等无动作和无奖励的视频数据上训练 NWM,使其能在未曾见过的环境中取得更好的视频预测和生成性能。
导航世界模型
实验结果
扫描二维码添加小助手微信