CoRL 2024 | InstructNav：通用指令导航大模型系统

创业 2024-10-09 08:22 北京

本文是对发表于 CoRL 2024 的论文 InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment 的解读。该论文由北京大学前沿计算研究中心董豪课题组主导完成。
本文提出一种零样本的通用指令导航大模型系统 InstructNav，通过设计动态导航链路统一不同类型导航指令的规划，在每一步导航决策前根据环境语义信息更新导航链路，并基于该链路生成动作、语义、轨迹和直觉价值地图联合完成导航决策。
InstructNav 首次实现一个导航框架完成多种截然不同的导航指令，首次实现零样本视觉语言导航，并在零样本的物体目标导航和需求驱动导航上成功率远超现有方法。

论文标题：
InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment
论文链接：
https://arxiv.org/pdf/2406.04882
代码链接：
https://github.com/LYX0501/InstructNav
项目主页：
https://sites.google.com/view/instructnav

一、概览

不同类型的指令导航任务要求具备截然不同的能力。经典的物体导向任务，如“Find a bed”，需要理解房间的结构以及物体之间的关系；而视觉语言导航任务，例如“往前走到海报附近然后右拐进办公室”，则侧重于严格遵循指令。此外，新兴的需求驱动导航任务，如“帮我找个地方休息一下”，则要求根据人类的抽象需求进行语义推理。

以往的研究主要围绕特定类型的指令设计相应的导航方法。然而，在实际应用中，人类可能会向机器人下达多种形式的指令，甚至是混合类型的指令，例如“转身走进厨房寻找一个水池”，这同时包含了视觉语言导航和物体目标导航。目前的具身导航模型无法满足这样的实际需求，因此，实现通用指令导航对于机器人在现实世界中的应用具有重要价值。

为了这一目标，本文提出一个零样本的通用指令导航大模型系统 InstructNav。本方法中，多种不同类型的导航指令被统一为动态导航链路，该链路有效刻画了指令导航中最关键的动作和地标，并会根据导航过程中实时观测到的环境语义信息动态更新。基于动态导航链路中的信息进一步生成动作、语义、轨迹和直觉价值地图，这些地图联合完成导航高层决策，配合底层路径规划算法即可实现通用指令导航。

仿真实验和真机评测证明，InstructNav 是首个实现一个导航框架完成多种类型导航指令的方法，首次实现零样本视觉语言导航，并在零样本的物体目标导航和需求驱动导航上成功率远超现有方法。

二、动态导航链路

为了统一不同导航指令，本文首先提出动态导航链路（Dynamic Chain-of-Navigation）这一全新的导航规划范式，将不同类型的导航指令统一为“导航动作 1 - 标志物1 -> 导航动作 2 - 标志物 2 … ”的标准形式。

InstructNav 利用大语言模型在任务规划和常识推理上的卓越能力，根据原始指令规划导航链路。在导航过程中，InstructNav 会根据最新观测到的场景物体不断更新导航链路，引导机器人对于环境进行有效探索。例如，当指令要求“Find a sofa”时，如果视野中检测到“Sofa”，动态导航链路会被更新为“Explore - Television”附近区域，因为电视旁边最可能存在沙发。

三、多源价值地图

为了引导机器人根据动态导航链路中的信息完成导航高层决策，本文提出将大模型的规划结果映射到多源价值地图（Multi-sourced Value Maps）上，这些价值地图包括：

动作价值地图（Action Value Map）：赋予待执行动作对应的区域更高可导航价值。如动作为“Move Forward”，则前方被赋予更高价值。
语义价值地图（Semantic Value Map）：赋予标志物附近区域更高可导航价值。如地标为“Carpet”，则地毯附近被赋予更高价值。
直觉价值地图（Intuition Value Map）：利用多模态大模型判断全景图中最适合移动的方向，并赋予对应区域更高可导航价值。
轨迹价值地图（Trajectory Value Map）：赋予远离现有轨迹的区域更高的可导航价值。

通过对多源价值地图相加求和即可得到决策价值地图（Decision-making Value Map）：

在决策价值地图上选取最高价值点作为下一途径点，然后利用点到点的路径规划算法即可实现对于机器人底层移动的控制。

四、实验结果

本文在物体目标导航，视觉语言导航和需求驱动导航三个不同类型的指令导航任务上进行评测。物体目标导航任务评测基于 Habitat 仿真器中的 HM3D 场景进行，如 Table 1所示，InstructNav 成功率超过所有零样本的物体目标导航方法，甚至接近训练方法 OVRL。

视觉语言导航任务评测基于 Habitat 仿真器中的 MP3D 场景和 VLN-CE 指令进行，如 Table 2所示，InstructNav 首次实现零样本视觉语言导航，且成功率与相同设定的训练方法接近。

需求驱动的导航任务评测基于 AI2Thor 仿真器的 ProcThor 场景和 DDN 指令进行，如 Table 3所示，InstructNav 成功率大幅度超过现有的训练方法和零样本方法。

为验证动态导航链路和不同价值地图对于 InstructNav 方法的决策影响，本文在以上三种指令导航任务上各随机选取100条数据进行消融实验。如 Table 4所示，动态导航链路对于不同类型的指令导航任务规划都有不可或缺的重要作用，不同种类的价值地图对于提升通用指令导航的性能都有贡献，由此证明本文设计的动态导航链路和多源价值地图为实现通用指令导航提供了有效的解决方案。

此外，本文还完成关于全景图方向数量的消融实验以及基于多种开源大模型实现 InstructNav 的效果比较实验以供参考。

得益于大模型零样本推理的鲁棒优势，在多个真实环境中（公寓，图书馆，教学楼，办公室，画廊），InstructNav 成功驱动 Turtlebot 4机器人执行多种类型的导航指令，甚至混合类型的导航，展现出真实应用的强大潜力。

作者：PKU-Agibot Lab
来源：公众号【北京大学前沿计算研究中心】

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650514268&idx=2&sn=9df8d3525200211ac66d621f90532c07

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

ICLR 2024 | BioBridge：通过知识图谱桥接生物医学基础模型

将门月报 | 格灵深瞳携手北京铁路局、文远知行与Uber达成战略合作、帷幄与华为云建立战略合作伙伴关系......

清华、北大等发布Self-Play强化学习最新综述

ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

Talk预告｜慕尼黑工业大学翟光耀：SG-Bot - 基于场景图生成式模型的机械臂操作和物体重排

300篇文献！大模型走向物理世界：TeleAI发布大模型驱动的具身智能综述

Talk预告｜北京航空航天大学阮受炜：探索视觉感知的3D视角鲁棒性

ECCV 2024 | EchoScene：通过场景图扩散生成3D室内场景

一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

ACM MM 2024 | 基于二维先验学习的三维人-物交互重建

Talk预告｜南京理工大学陈翔：面向雨天场景的视觉重建算法与基准探索

ECCV 2024 | 具有语义的三维房屋线框生成

ICML 2024 | 直面CLIP内在缺陷，Meta提出全新latent对比预训练框架Llip

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉