加州大学 | 基于视觉语言模型的端到端导航：零样本，无需数据训练！

文摘 2024-11-20 07:10 上海

作者 | 具身智能之心

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

原标题：End-to-End Navigation with Vision-Language Models: Transforming Spatial Reasoning into Question-Answering
论文链接：https://jirl-upenn.github.io/VLMnav/static/VLMnav.pdf
项目链接：https://jirl-upenn.github.io/VLMnav/
作者单位：UC Berkeley 宾夕法尼亚大学

出发点&VLMnav的概览

VLMnav是一种将视觉语言模型（VLM）转化为端到端导航策略的具身框架。与以往研究不同，VLMnav不依赖感知、规划和控制的分离，而是通过VLM一步直接选择动作。令人惊讶的是，我们发现VLM可以作为端到端策略进行零样本导航，即无需任何微调或导航数据的训练。这使得方法具有开放性和广泛的下游导航任务的泛化能力。我们进行了广泛的研究，以评估该方法相较于基线提示方法的性能。此外还进行了设计分析，以理解最具影响力的设计决策。

内容出自国内首个具身智能全栈学习社区：具身智能之心知识星球，这里包含所有你想要的。

VLMnav的设计

在环境中有效导航以实现目标的能力是物理智能的标志。空间记忆以及更高级的空间认知形式，被认为在早期陆生动物和高级脊椎动物的进化历史中开始发展，可能始于4亿至2亿年前。由于这一能力经历了如此漫长的进化历程，因此对于人类而言，这种能力几乎显得本能且理所当然。然而，导航实际上是一个高度复杂的问题。它需要协调低层次的规划以避开障碍，同时还需进行高层次的推理，以理解环境的语义，并探索最有可能让智能体实现其目标的方向。

导航问题的很大一部分似乎涉及与回答长上下文图像和视频问题类似的认知过程，而这是当代视觉语言模型（VLMs）擅长的领域。然而，当这些模型直接应用于导航任务时，却面临明显的局限性。具体而言，当给出任务描述并将其与观察-动作历史拼接后，VLMs 往往难以生成精细的空间输出以避开障碍，且无法有效利用其长上下文推理能力来支持有效的导航。

为了解决这些挑战，先前的研究将VLMs作为模块化系统的组成部分，用于执行高层次的推理和识别任务。此类系统通常包含一个显式的3Dmapping模块和一个规划器，以处理任务中更具具身性的部分，例如运动和探索。尽管模块化设计的优势在于可以将每个组件用于其擅长的子任务，但其缺点在于系统的复杂性增加，并且任务专用性较强。

在本研究中，我们展示了一种现成的VLM可以作为零样本的端到端语言条件导航策略使用。实现这一目标的关键在于将导航问题转化为VLM擅长的任务：回答关于图像的问题。

为此，开发了一种新颖的提示策略，使VLM能够明确考虑探索和避障问题。该提示具有通用性，可用于任何基于视觉的导航任务。

与以往的方法相比，我们不使用特定模态的专家模型，不训练任何特定领域的模型，也不假设可以访问模型生成的概率。

我们在具身导航的既定基准上评估了本文的方法，结果证实，与现有的提示方法相比，本文的方法显著提升了导航性能。最后，本文通过对具身VLM框架的多个组件进行消融实验，得出了设计上的见解。

图1：VLMnav的完整动作提示由三部分组成：系统提示用于描述具身性，动作提示用于描述任务、可能的动作和输出指令，以及图像提示显示当前观察到的场景和标注的动作。

图2：方法：本文的方法由四个关键组件组成：(i) 可导航性，确定智能体可以实际移动的位置，并相应地更新体素地图。地图更新步骤的示例显示新区域标记为已探索（灰色）或未探索（绿色）。(ii) 动作提议器，根据间距和探索情况优化一组最终动作。(iii) 投影，视觉上在图像中标注动作。(iv) 提示，构建详细的思维链提示以选择动作。

VLMnav是一种导航系统，以目标作为输入，目标可以通过语言或图像指定，还包括RGB-D图像、姿态，并输出动作。动作空间由绕偏航轴的旋转和沿机器人框架前轴的位移组成，使得所有动作可以用极坐标表示。由于已知VLM在连续坐标推理上存在困难，本文将导航问题转化为从离散选项集中选择动作。本文的核心思想是选择这些动作选项，以避免碰撞障碍并促进探索。

图2总结了本文的方法。首先，本文通过深度图像估计与障碍物的距离，以确定局部区域的可导航性。本文使用深度图像和位置信息来维护场景的自上而下体素地图，并显著地将体素标记为已探索或未探索。该地图由动作提议器使用，以确定一组避开障碍并促进探索的动作。接着，本文将这一组可能的动作通过投影模块映射到第一人称视角的RGB图像中。最后，VLM将该图像和精心设计的提示作为输入，选择一个动作供智能体执行。为确定回合终止，本文使用一个单独的VLM调用。

图3：可导航性子程序的示例步骤。可导航性掩码显示为蓝色，构成初始动作集的极坐标动作显示为绿色。

图4：用于确定回合终止的独立提示

VLMnav的实验验证

图5：基线方法：在示例图像上比较四种不同方法。本文的方法包含指向可导航位置的箭头，PIVOT方法的箭头从随机二维高斯分布中采样，本文的无导航版本显示均匀分布的箭头（注意箭头3和5指向墙壁），仅提示方法则仅显示原始RGB图像。

图6：传感器视场角（FOV）的影响。本文评估了四种不同视场角传感器的性能，发现更宽的视场角始终带来更高的性能。

表1：ObjectNav结果。本文在ObjectNav基准上评估了四种不同的提示策略，结果显示本文的方法在准确性（SR）和效率（SPL）方面均达到了最高性能。消融“允许滑动”参数表明本文的方法依赖于滑过障碍物的能力。

表2：GOAT结果。在更具挑战性的导航任务GOAT基准上对提示策略进行比较。在三种不同的目标模态下，本文的方法均显著优于基线方法。

表3：直接与其他方法对比，本文发现专用系统仍然具有更高的性能。本文还注意到，这些其他方法使用了更窄的视场角（FOV）、更低的图像分辨率以及不同的动作空间，这可能解释了部分性能差异。

表4：添加上下文历史的影响。本文将保持过去0、5、10和15个观测和动作的不同方案与本文的方法进行比较。结果显示，添加上下文历史并未提升本文方法的性能。

表5：深度消融实验。本文评估了仅需RGB的两种替代方法。结果显示，语义分割的性能接近于使用真实深度数据，而估计深度值会导致性能显著下降。

总结

在本研究中，我们提出了VLMnav，这是一种新颖的视觉提示工程方法，使现成的VLM能够作为端到端导航策略工作。该方法的核心思想是精心选择动作提议并将其投影到图像上，从而有效地将导航问题转化为问答问题。通过在ObjectNav和GOAT基准上的评估，本文观察到相较于迭代基线PIVOT（之前在视觉导航提示工程中的最新方法）有显著的性能提升。我们的设计研究进一步突出了宽视场的重要性，并展示了使用最小传感的可能性，即仅依赖RGB图像来实现该方法的部署。

本文的方法也存在一些局限性。禁用“允许滑动”参数后性能急剧下降，表明存在多次与障碍物碰撞的情况，这在实际部署中可能会带来问题。此外，本文发现一些专用系统的性能优于本文的方法。然而，随着VLM能力的不断提升，本文推测该方法可以帮助未来的VLM在具身任务上达到或超越专用系统的表现。

引用：

@inproceedings{
      goetting2024endtoend,
      title={End-to-End Navigation with VLMs: Transforming Spatial Reasoning into Question-Answering},
      author={Dylan Goetting and Himanshu Gaurav Singh and Antonio Loquercio},
      booktitle={Workshop on Language and Robot Learning: Language as an Interface},
      year={2024},
    }

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。

http://mp.weixin.qq.com/s?__biz=MzkyMDY0OTc1NA==&mid=2247516931&idx=1&sn=f64e37f912485fe899dd9dc7872d1e42

3D视觉之心

3D视觉与SLAM、点云相关内容分享

最新文章

如何创立一家惯性导航公司

融合神经辐射场和视觉同时定位与地图构建的混合场景表示方法

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

克服LiDAR固定分辨率的限制！LiV-GS：首个大规模室外场景对齐离散点云与高斯地图的方法

MVSplat360：从稀疏视图到360°全景合成的前馈方法

Siggraph Asia 2024 | Adobe发布MagicClay：可通过文字引导对3D模型特定部分进行雕刻！

谷歌2024博士奖学金名单公布

首个基于高斯点云建图的动态SLAM框架！DGS-SLAM：解决动态物体引起的光度和几何不一致

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

ECCV 2024 | PARE-Net：用于鲁棒点云配准的位置感知旋转等变网络

NeurIPS 2024高中赛道开卷！人大附中、北师大实验中学等摘得3篇Spotlight

加州大学 | 基于视觉语言模型的端到端导航：零样本，无需数据训练！

港大DEIO：首个学习与传统非线性图优化结合的单目事件惯性里程计

基于语义似然与高精度地图匹配的智能车辆同时定位与检测

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

超越现有3DGS网格重建方法！DyGASR：速度提高25%、内存使用量减少30%

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

身处相机内外参之间（EG3D/NeRF/3D Gaussian Splatting）

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

突破多场景训练方法限制！ETH开源SplatFormer：首个专门设计用于在3DGS上运行的点变换器模型

【清华大学】RINO：基于非迭代估计的精确、鲁棒雷达惯性里程计

论文分享｜无监督点云语义分割

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

丰田研究院综述「机器人领域中的神经场」

顶刊TGRS | 使用端到端深度神经网络从高分辨率遥感图像和数字表面模型中提取3D建筑实例

让纸片人动起来! DrawingSpinUp：从单个绘图生成高质量3D动画

浙大西湖大学开源MBA-SLAM！解决NeRF、3DGS中的运动模糊问题！

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

ICP还能玩出什么花样？RA-L'24全新GenZ-ICP：根据环境几何特性自适应，解决依赖单一误差度量

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

更高轨迹精度、建图质量！基于NeRF轨迹平滑约束的SLAM优化

15 个改变世界的开源项目：塑造现代技术的先锋力量

多实例点云配准新SOTA！3DFMNet：简单而有效的3D聚焦与匹配网络(NeurIPS'24)

LidaRefer：户外3D视觉定位的创新框架

腾讯发布HunYuan-3D，支持文本到3D和图像到3D，10秒即可生成高分辨率细3D模型

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

新国立联合微软共同打造：3D和4D场景均可生成的GenXD来了！

MVDrag3D：灵活强大的拖拽式多视图3D编辑技术

基于单目视觉惯性的同步定位与地图构建方法综述

实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE：用于驾驶场景的跨模态一致多传感器数据合成

不用encoder也能重建点云？PCP-MAE：基于中心预测的点云MAE自监督新框架（NeurIPS'24 Spotlight）

商汤&浙大SfM新工作！LiVisSfM：利用激光雷达和视觉线索，获得精确鲁棒的三维重建

slam相关开源数据集资源汇总（KITTI、CODD、MAOMaps）

3D激光雷达分辨率对基于图的SLAM方法究竟有何影响？

3DV 2024 | 基于超点图聚类的可扩展三维全视分割

突发！OpenAI七年元老、安全副总裁Lilian Weng官宣离职！北大本科，决定专心写博客

倘若能有一场时空对话，我将告诉曾经的我如何做vslam

2024年图像匹配挑战赛：银牌解决方案！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉