LeCun团队新作：在世界模型中导航

科技 2024-12-09 00:02 吉林

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 机器之心

现实世界版的 Genie-2？

最近，世界模型（World Models）似乎成为了 AI 领域最热门的研究方向。

继 World Labs（李飞飞）、谷歌 DeepMind 接连发布自己的世界模型研究之后，Meta FAIR 的 Yann LeCun 团队也加入了战场，也在同一周之内发布了导航世界模型（Navigation World Models/NWM）。

我们知道，Yann LeCun 一边在不断唱衰当前主导 LLM 领域的自回归范式，同时也一直是世界模型的「鼓吹者」。上月中旬，该团队就已经发布了一篇世界模型相关研究成果，但那篇研究涉及的模型规模不大，环境也较为简单，参阅机器之心报道《LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划》。

而这一次，LeCun 团队发布的 NWM 看起来能适应更复杂的环境了，并且与 World Labs 和 DeepMind 的世界模型一样，也能基于单张图像生成连续一致的视频。只是 LeCun 团队的这个世界模型更加强调世界模型的导航能力，其能够在已知环境中按照轨迹行进，也能在未知环境中自己寻找前进道路，还能执行路径规划。不过整体而言，与能单图生世界的 DeepMind Genie 2 相比，NWM 的单图生视频还是要稍逊一些。

论文标题：Navigation World Models
论文地址：https://arxiv.org/pdf/2412.03572v1
项目地址：https://www.amirbar.net/nwm/

从其项目网站的演示视频看，NWM 的效果很不错，能够基于单张真实照片执行相当好的导航操作。只能说，世界模型，也开始卷起来了。

NWM 效果演示

在深入了解 NWM 的技术细节之前，我们先来看看它的实际表现如何。

首先是在已知环境中按照轨迹行进的能力。NWM 能够基于单张输入帧和给定的输入动作合成视频，这个过程是自回归式的。另需说明，在这里，模型已经已经训练阶段看过了这个环境，但轨迹是全新的。可以看到，不管是室内环境还是室外环境，NWM 都具有相当不错的场景理解表现。

NWM 也能在未知环境中导航：它不仅适用于已知环境，对于训练中从未见过的单张输入图像，模型也可以根据给定的输入动作自回归式地预测后续帧。

下面是与其它模型的对比情况，可以看到，NWM 在保证合成视频的一致性和稳定性方面以及动作的执行效果方面都更加出色。

另外，该团队也研究了使用 NWM 和外部导航策略 NoMaD 来执行规划。具体来说，就是让 NoMaD 给出轨迹，再让 NWM 来进行排名 —— 后者会生成轨迹视频并选出其中得分最高的轨迹。

整体而言，LeCun 团队的这项 NWM 研究做出了以下贡献：

提出了导航世界模型和一种全新的条件扩散 Transformer（CDiT）；相比于标准 DiT，其能高效地扩展到 1B 参数，同时计算需求还小得多。
使用来自不同机器人智能体的视频和导航动作对 CDiT 进行了训练，通过独立地或与外部导航策略一起模拟导航规划而实现规划，从而取得了当前最先进的视觉导航性能。
通过在 Ego4D 等无动作和无奖励的视频数据上训练 NWM，使其能在未曾见过的环境中取得更好的视频预测和生成性能。

导航世界模型

NWM 的数学描述

下面先来看看 NWM 的公式描述。直观地说，NWM 是一个接收当前世界状态（例如，对图像的观察）和导航操作（描述物体移动到哪里以及如何旋转）的模型。然后，该模型根据智能体的视角生成下一个世界状态。

本文给出了一个第一人称的视频数据集，其包含智能体导航动作，其中是图像，a_i = (u, ϕ) 是由平移参数给出的导航命令，控制向前 / 向后和左右运动，以及导航旋转角。a_i 的导航动作可以被完全观察到。

目标是学习一个世界模型 F，即从先前的潜在观察 s_τ 和动作 a_τ 随机映射到未来的潜在状态表示 s_(t+1 )：

由于此公式简单易懂，因此它可以自然地跨环境共享，并轻松扩展到更复杂的动作空间，例如控制机械臂。

公式 1 模拟了动作，但无法控制时间动态（temporal dynamics）。因此，作者用时移输入 k ∈ [T_min, T_max] 扩展此公式，设置，因此现在 a_τ 指定时间变化 k，用于确定模型应向未来（或过去）移动多少步。因此，给定当前状态 s_τ ，可以随机选择 k， token 化相应的视频帧。然后可以将导航动作近似为从时间 τ 到 τ + k 的总和：

上述公式既可以学习导航动作，也可以学习时间动态。实际上，本文允许时间偏移最多 ±16 秒。

扩散 Transformer 作为世界模型

条件扩散 Transformer 架构。本文使用的架构是一个时间自回归 transformer 模型，该模型利用高效的 CDiT 块（见图 2）。

CDiT 通过将第一个注意力块中的注意力限制在正在去噪的目标帧中的 token 上，实现了在时间上高效的自回归建模。为了对过去帧中的 token 进行条件处理，本文还整合了一个交叉注意力层，然后，交叉注意力通过跳跃连接层将表示情境化。

使用世界模型进行导航规划

接下来，文章描述了如何使用经过训练的 NWM 来规划导航轨迹。直观地说，如果世界模型熟悉某个环境，可以用它来模拟导航轨迹，并选择那些能够达到目标的轨迹。在未知的、分布外的环境中，长期规划可能依赖于想象力。

形式上，给定潜在编码 s_0 和导航目标 s^∗，目标是寻找动作序列 (a_0, ..., a_T)，以最大化到达 s^∗ 的可能性。

定义能量函数，使得最小化能量与最大化未归一化的感知相似度得分相对应，并遵循关于状态和动作的潜在约束。

相似度的计算方法是，使用预训练的 VAE 解码器将 s^∗ 和 s_T 解码为像素，然后测量感知相似度。

那么问题就简化为寻找最小化该能量函数的动作：

该目标可被重新表述成一个模型预测控制（MPC）问题，并且可使用交叉熵方法（Cross-Entropy Method）来优化它。

导航轨迹排名方法。假设已有一个导航策略 Π(a|s_0, s^∗)，可使用 NWM 来对采样得到的轨迹进行排名。这里，该团队的使用了一种 SOTA 的导航策略 NoMaD 来执行机器人导航。在排名时，会从 Π 给出的多个样本中选出能量最低的那个。

实验结果

下面来看看 NWM 在实验中实际表现。

首先，数据集方面，该团队使用了 TartanDrive、RECON 和 HuRoN。NWM 可以获取机器人的位置和角度数据，然后推断在当前位置的相关动作。

评估指标包括绝对轨迹误差（ATE）和相对姿态误差（RPE）。对比基线包括 DIAMOND、GNM 和 NoMaD。

消融实验

模型在已知环境 RECON 上对验证集轨迹对单步 4 秒未来预测进行评估。研究人员通过测量 LPIPS、DreamSim 和 PSNR 来评估相对于地面真实框架的性能。图 3 中提供了定性示例：

模型大小和 CDiT。研究人员将 CDiT 与标准 DiT（其中所有上下文标记都作为输入）进行比较。其中假设，对于导航已知环境，模型的容量是最重要的，图 5 中的结果表明，CDiT 确实在具有多达 1B 个参数的模型中表现更好，同时消耗的 FLOP 不到 ×2。令人惊讶的是，即使参数数量相同（例如，CDiT-L 与 DiT-XL 相比），CDiT 也可以快 4 倍，并且表现更好。

目标数量。在给定固定上下文的情况下训练具有可变目标状态数量的模型，将目标数量从 1 更改为 4。每个目标都是在当前状态的 ±16 秒窗口内随机选择的。表 1 中报告的结果表明，使用 4 个目标可显著提高所有指标的预测性能。

上下文大小。研究人员在训练模型的同时将条件帧的数量从 1 变为 4（见表 1）。不出所料，更多的上下文带来了帮助，而对于较短的上下文，模型通常会「迷失方向」，导致预测不佳。

时间和动作条件。研究人员同时使用时间和动作条件训练模型，并测试每个输入对预测性能的贡献程度。结果包含在表 1 中。研究人员发现，使用时间运行模型只会导致性能不佳，而不使用时间条件也会导致性能略有下降。这证实了两种输入对模型都有好处。

视频预测与合成

这里评估的是模型遵从真实动作和预测未来状态的能力。

以第一张图像和上下文帧为条件，该模型需要根据 ground truth 动作，以自回归方式预测下一个状态，并给每个预测提供反馈。

通过比较在 1、2、4、8 和 16 秒的 ground truth 图像，再得出在 RECON 数据集上的 FID 和 LPIPS 值，可以对这些预测结果进行比较。

图 4 展示了在 4 FPS 和 1 FPS 帧率下，NWM 与 DIAMOND 的性能情况。可以明显看到，NWM 的预测准确度比 DIAMOND 好得多。

一开始的时候，NWM 1 FPS 的表现更好，但 8 秒之后，它就会因为累积误差和上下文损失而被 4 FPS 版本超过。

生成质量。为了评估视频质量，该团队以 4 FPS 的速度自回归预测生成了一些 16 秒长的视频，同时这是基于 ground truth 动作的。然后，再使用 FVD 评估生成视频的质量，并与 DIAMOND 进行比较。图 6 中的结果表明 NWM 输出的视频质量更高。

使用 NWM 执行规划

接下来的实验衡量了 NWM 执行导航的能力。

独立规划。实验表明，这个世界模型可以有效地独立执行目标导向的导航。

基于过去的观察和目标图像，NWM 可以使用交叉熵方法找到一条轨迹，同时尽可能降低预测图像和目标图像之间的 LPIPS 相似度，实验结果见下表 2，可以看到 NWM 的规划能力足以比肩 SOTA 策略。

带约束条件的规划。在使用 NWM 进行规划时，还可以指定约束条件，比如要求智能体走直线或只转弯一次。

表 3 的结果表明，NWM 可以在满足约束的同时进行有效规划，并且规划性能变化不大。

下图 9 中包含了左右优先约束下的规划轨迹案例。

使用导航世界模型进行排序。NWM 可以增强目标条件导航中已有的导航策略。研究者根据过去观察结果和目标图像对 NoMaD 进行条件化，采样了 n ∈ {16,32} 条轨迹，其中每条轨迹长度为 8，并通过使用 NWM 来自回归地遵循动作以对这些轨迹进行评估。

最后，研究者通过测量与目标图像的 LPIPS 相似性来对每条轨迹的最终预测结果进行排序，结果如下图 7 所示。他们还在上表 2 中报告了 ATE 和 RPE，发现对轨迹进行排序可以产生 SOTA 导航性能，并且采样的轨迹越多结果越好。

泛化到未知环境的能力

研究者尝试添加未标注的数据，并询问 NWM 是否可以使用想象力在新环境中做出预测。他们在所有域内数据集以及来自 Ego4D 的未标注视频子数据集上训练了一个模型，并且只能访问时移操作。

研究者训练了一个 CDiT-XL 模型，并在 Go Stanford 数据集以及其他随机图像上对该模型进行了测试。结果如下表 4 所示，可以发现，在未标注数据上进行训练可以显著提升各项视频预测结果，包括提高生成质量。

研究者在下图 8 中提供了一些定性案例。相较于域内（上图 3），模型崩溃得更快并且在生成想象环境的遍历时还会产生幻觉路径。

更多实验细节请参阅原论文。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

机器学习算法与自然语言处理

关注AI前沿技术，助力AI学者进步

最新文章

人大教授张鸣：退休之际，讲点废话（这也太敢言了）

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

近期必看的多模态大模型进展：从Qwen2-VL到Pixtral

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

《一书解决几乎所有机器学习问题》.PDF下载

16种新型RAG最新进展

李飞飞：World Labs这样实现「空间智能」

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

OpenAI发布49页长文，讲述o1的安全机制

谷歌Willow量子芯片逆天出世！5分钟颠覆10亿亿亿计算极限，马斯克奥特曼惊叹

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora开服被挤爆！支持中文/编剧模式/作品分享，145块就能玩

今日最佳 AI 论文：简单蒸馏训练，就能超越 o1-preview？

5分钟完成最强超算10^25年工作，谷歌量子芯片重大突破，马斯克、奥特曼齐祝贺

困扰数学家近60年的搬沙发难题疑似被解决！119页论文证明最优解，百万网友围观

英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜

LLM不会CoT隐性推理，只会显性推理！

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

LeCun团队新作：在世界模型中导航

刚刚，2025 IEEE Fellow名单出炉：戴琼海、姜大昕、尹首一、翟广涛、褚晓文等人入选

复旦大学，上海创智院等多家单位联合发布大模型社交智能体综述

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

o1满血版最鲜测！这¥1500花得值吗？

从答案到问题：一种新的学习目标让LLM更擅长推理

满血版o1深夜震撼上线，奥特曼怼脸演示超强推理！终极Pro版每月1450元

GAN作者追忆往事：论文是DDL前一周开始写的，最初在NeurIPS大会无人问津

刚刚，谷歌ViT核心骨干集体投奔OpenAI：他们为Sora打下基础

1-bit大模型还能再突破！新一代BitNet架构启用4位激活值

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

ICLR'25 惊现[10,10,10,10]满分论文，ControlNet 一作张吕敏新作，Github 5.8k 颗星

Text-to-SQL新SOTA！华科团队提出双向模式链接新方法RSL-SQL

纽约大学十四年精华《机器学习基础》第二版免费下载

北京理工AI教育服务上线！DirectionAI：大模型驱动的个性化教学方式

图结构转文本序列，大模型直接读懂！图推理性能大涨

翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞，网友们抢着传看

DeepMind用语言游戏让大模型学AlphaGo自我博弈，数据限制不存在了

图结构转文本序列，大模型直接读懂！图推理性能大涨

马斯克全力阻止OpenAI转盈利！已向法院申请禁令，奥特曼：我和爱人休假盖树屋

Token化一切！北大、谷歌等提出TokenFormer，Transformer从未这么灵活过

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

陶哲轩新论文“太反直觉”：再战Erdős问题，证明44年数学猜想是错的

自我反思助力VLM推理！南大清华提出VLM自训练框架，支持Inference Scaling

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉