题目:ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments
ETPNav:连续环境中视觉语言导航的进化拓扑规划
作者:Dong An; Hanqing Wang; Wenguan Wang; Zun Wang; Yan Huang; Keji He; Liang Wang
源码链接:https://github.com/MarSaKi/ETPNav
论文创新点
拓扑地图构建:我们提出了一种基于拓扑地图的分层导航框架,该框架通过在线自组织预测的航点来构建环境的拓扑地图,无需事先的环境经验。这种地图构建方式使得智能体能够将导航过程分解为高级规划和低级控制。
跨模态规划器:ETPNav利用基于Transformer的跨模态规划器,根据拓扑地图和指令生成导航计划。
障碍物规避控制:提出了一种基于试错启发式的障碍物规避控制器,以防止导航在障碍物中陷入困境。
摘要
视觉-语言导航是一项要求智能体遵循指令在环境中导航的任务。它在体现人工智能领域变得越来越重要,潜在应用包括自主导航、搜索救援和人-机器人交互。在本文中,我们提出了一个更实际但具有挑战性的设置——连续环境中的视觉-语言导航(VLN-CE)。为了开发一个健壮的VLN-CE智能体,我们提出了一个新的导航框架ETPNav,它专注于两个关键技能:1)抽象环境和生成长距离导航计划的能力;2)在连续环境中避开障碍物的控制能力。ETPNav通过自组织预测的路径点在线进行拓扑映射环境,无需事先的环境经验。它使智能体能够将导航过程分解为高级规划和低级控制。同时,ETPNav利用基于Transformer的跨模态规划器根据拓扑图和指令生成导航计划。然后通过避开障碍物的控制器执行计划,该控制器利用试错启发式防止导航陷入障碍物。实验结果证明了所提出方法的有效性。ETPNav在R2R-CE和RxR-CE数据集上分别比之前的最佳水平提高了10%和20%以上。我们的代码可在GitHub上找到。
关键词
视觉-语言导航,拓扑图,障碍物避让
1 引言
给定自然语言指令,视觉-语言导航(VLN)[1]任务要求智能体解释并遵循指令到达目标位置。这项任务在过去几年得到了很好的研究[2]、[3]、[4]、[5],然而,大多数工作集中在离散的VLN设置上。这种设置通过在环境的预定义图上遍历来简化导航,显著缩小了智能体和目标的可能位置。认识到这不能反映实际环境中部署系统所面临的挑战,Krantz等人[6]引入了连续环境中的VLN(VLN-CE),它放弃了强大的图假设,相反,要求智能体在3D网格上自由导航,并使用低级动作。
到目前为止,VLN-CE已被证明比VLN困难得多,一些发表的工作显示,VLN-CE的剧集成功率不到VLN报告的一半。早期的VLN-CE努力是端到端训练的系统,直接从语言和观察中预测低级动作(或路径点)[6]、[7]、[8]。这种方案可能因长期任务中的导航和语言基础的联合学习而受到挑战,导致性能低于VLN。最近,模块化的基于路径点的方法[9]、[10]、[11]出现了,它将复杂任务分解为路径点生成、子目标规划和导航控制。具体来说,在每个决策循环中,智能体使用预训练的网络预测几个附近的候选路径点,然后执行跨模态基础选择路径点作为子目标。之后,控制器驱动智能体用低级动作到达所选的子目标。总的来说,这种模块化流程简化了策略学习,并缩小了VLN-CE和VLN之间的性能差距。
尽管取得了进展,我们发现这些基于路径点的方法在三个方面仍有缺点。首先,预测的路径点仍然是局部的,局限于智能体附近的区域,不足以捕捉全局环境布局,可能会阻碍智能体的长期规划能力。例如,为了回溯到之前的远程位置以纠正过去的决策,智能体必须运行多个计划-控制流程,这可能会引入不稳定的累积偏差。其次,路径点预测的关键设计选择尚未得到很好的研究。一个代表性的预测器[9]采用RGBD图像作为输入,但是否有效的语义级RGB输入仍然未知,因为它只负责推断空间可访问性。第三,提出了不同类型的控制器(启发式[8]、[9]、基于地图的[10]、[12]、基于学习的[13]、[14])用于路径点到达,但它们对障碍物的鲁棒性仍然未知。结果,一个不容忍障碍物的控制器可能会导致智能体陷入障碍物,导致导航失败。
为了解决上述问题,我们提出了一个分层导航框架供电的拓扑(拓扑)地图,和一个低级别的控制器。拓扑图,部分受到认知科学的启发[15],通常将环境描绘为低维图形表示,其中节点表示位置,边表示可达性。它们可以有效地捕获环境布局和远程导航依赖性,从而简化智能体制定长期目标计划,例如在地图中规划到达远程位置的最短路径。但我们的拓扑地图的新颖之处在于,它们是通过预测的航路点的在线自组织来构建的,这些航路点是简洁的,并且满足真实的环境中的部分可观测性假设。值得注意的是,该方案与之前关于拓扑映射的VLN文献有很大不同,后者需要预定义的图[3],[16],[17]或环境预探索[18]。
为了更好地捕捉环境布局,我们系统地检查我们的拓扑地图的关键设计选择,如路点预测,节点密度和节点表示。特别是,我们发现,只有深度的航点预测艾滋病在新的环境中推广,而RGB信息可能会破坏空间可达性推断。此外,我们明确考虑的避障问题VLN-CE。我们发现这个问题在一个更具挑战性和实际性的场景中尤其重要-沿着沿着障碍物滑动是被禁止的,其中常用的控制器[8],[12],[13]可能导致导航频繁地卡在障碍物中,导致严重的性能下降。因此,我们提出了一个新的控制器,通过试探错误启发式显式地帮助代理摆脱死锁,几乎消除了滑动禁止所造成的性能损失。
总之,我们提出了一个完整的导航系统VLN-CE。对于每一集,我们的代理更新拓扑地图通过在线自组织的航点预测到目前为止。地图将导航问题分解为规划和控制。在每个决策循环中,代理使用跨模态Transformer [19],[20]从指令和拓扑图计算全局导航计划。然后,这个计划是执行一个鲁棒避障控制器与低层次的行动。
实验表明了该方法的有效性。在两个VLN-CE测试平台上,在测试中未观察到的分裂,R2 R-CE数据集为55 SR和48 SPL,RxR-CE数据集为51.21 SR和41.30 SDTW)。基于本文中描述的算法,我们赢得了CVPR 2022 RxR-Habitat挑战赛[11],[21]。总之,这项工作的贡献有四个方面:
提出了一种基于拓扑地图的VLN-CE鲁棒导航规划方法。它能有效地对连续环境进行抽象,便于智能体进行长期目标规划。
我们通过全面的实验研究了构建拓扑地图的基本设计选择,证明了简洁的仅深度设计对于路点预测是最佳的。
我们研究了VLN-CE中一个实际上很重要但很少研究的问题-避障,并提出了一种有效的试错控制器来解决这个问题。
该系统赢得了CVPR 2022 RxR-Habitat Challenge,并将第二个最佳模型的SDTW翻了一番。它可以作为进一步研究这一具有挑战性的任务的强有力的基线。
本文的其余部分组织如下。在§ 2中,我们简要回顾了相关的工作。§ 3描述了连续环境中视觉语言导航的任务设置,然后介绍了我们提出的方法。实验结果见§ 4。最后,我们在§ 5中结束这项工作。
3 方法
任务设置:我们解决的是室内环境中的指令跟随导航任务,要求智能体遵循自然语言指令描述的特定路径到达目标位置。特别是,我们关注一个实际设置——连续环境中的视觉-语言导航(VLN-CE)[6],智能体在环境的3D网格上以低级动作进行导航。动作空间由一组参数化的离散动作组成(例如,向前0.25米,向左/右旋转15°,和停止)。VLN-CE使用Habitat模拟器[61]根据Matterport3D场景数据集[81]渲染环境观察。遵循全景VLN-CE设置[8]、[9]、[10],在每个位置,智能体接收全景RGB观察O = {Irgb, Id},由12个RGB图像和12个深度图像组成,这些图像在12个等间距的水平航向角(即0°、30°、...、330°)的不同视图中捕获。智能体每个剧集还接收一个指令。我们用L个单词的指令嵌入表示为W = {wi}Li=1。
我们的方法概述:我们提出了一个分层导航模型,名为‘ETPNav’,它利用基于高级拓扑图的规划和低级控制器进行VLN-CE任务。如图1所示,ETPNav由三个模块组成:拓扑映射、跨模态规划和控制。映射模块为每个剧集维护一个拓扑图。在每个决策循环中,映射模块首先通过合并当前观察来更新拓扑图。随后,规划模块在地图和指令上进行跨模态推理,制定高级拓扑路径计划。然后,控制模块通过一系列低级动作执行该计划。需要注意的是,在以下技术描述中,我们使用‘步骤t’来表示决策循环步骤,而不是低级动作步骤。
类似于最近的工作[10]、[14]、[63],我们假设智能体可以访问由模拟器提供的真值姿态,以促进映射和控制。注意,这项工作没有解决基于噪声传感器读数的位姿估计挑战。然而,我们建议视觉里程计技术[82]可能适用于我们模型的这一上下文。本文接下来将介绍拓扑映射在§3.1,然后是跨模态规划在§3.2,以及我们的控制策略在§3.3。最后,我们在§3.4提供了模型训练和推理的详细说明。
3.1 拓扑映射
为了促进长期规划,我们的智能体实时构建一个拓扑图。这张图与[78]共享类似的结构,将沿遍历路径访问或观察到的位置抽象为图表示,记为Gt = ⟨Nt, Et⟩在步骤t。每个节点(ni ∈ Nt)包含在其位置观察到的视觉信息以及位置信息。如果它们代表的位置可以直接到达,则两个节点之间通过边(ei,j ∈ Et)连接。每条边还存储两个节点之间的相对欧几里得距离。我们将这些节点分为访问过的节点Node Current Node Ghost (Action Spac和当前节点Node Current Node Ghost (Actio,以及幽灵节点Node Current Node,Ghost (Ac,其中‘幽灵’表示节点已被观察但尚未探索。
与先前的工作[3]、[16]、[17]、[18]不同,我们的方法假设没有环境结构的先验知识,我们提出通过在线自组织预测的路径点来构建拓扑图。如图2所示,在每个步骤t,智能体首先预测几个附近的路径点Node Current Node Ghost (Action Space) Waypoint,代表智能体附近可能可到达的位置。当前节点Node Current Node Ghost (Action Space)也初始化在智能体的当前位置,并连接到最后访问过的节点(如果存在)。预测的路径点和当前节点由当前观察Ot的特征嵌入表示。这些路径点将被组织以更新先前的拓扑图Gt−1并获得当前图Gt。
图像处理。给定当前步骤的RGBD观察Ot = {Irgb t , Id t },使用两个不同的预训练视觉编码器来提取RGB特征向量V rgb t = {vrgb i }12 i=1和深度特征向量V d t = {vd i }12 i=1。为了区分全景图中不同视图捕获的特征,我们还应用方向特征V ori t = {(cos θi, sin θi)}12 i=1,其中θi代表航向角。两个视觉编码器的参数是固定的。预处理的更多细节在§4.1.3中介绍。
路径点预测。我们使用基于Transformer的路径点预测器[9]来生成附近的路径点。预测器采用深度特征向量V d t和方向特征向量V ori t来预测这些路径点的相对姿态。具体来说,V d t和V ori t中的特征向量首先通过线性层融合。得到的向量被送入两层Transformer以进行视图间交互并获取上下文深度嵌入。然后,这些嵌入被送入多层感知机以获得表示空间中附近路径点概率的热图。通过非极大值抑制(NMS)从热图中采样K个路径点△P w = {△pw i }K i=1,其中△pw i表示相对于智能体的相对姿态。预测器在MP3D图数据集[9]上预训练,并且其参数是固定的。
需要注意的是,我们的预测器仅采用深度图像作为输入,而不是[9]中使用的RGBD图像。这种仅深度的设计是基于这样的事实:路径点只代表空间可访问性,而语义级RGB信息可能没有帮助甚至有害。我们在§4.3.1中提供了这种设计的消融分析。
视觉表示路径点和当前节点。我们进行当前观察Ot的特征映射以表示预测的路径点和当前节点。具体来说,RGB特征V rgb t、深度特征V d t和方向特征V ori t通过线性层融合,然后送入全景编码器。全景编码器使用多层Transformer执行视图间交互并输出上下文视觉嵌入Vt = {ˆi}12 i=1。当前节点Node Current Node Ghost (Action Space)可以访问全景观察,因此被表示为Vt的平均值。路径点Node Ghost (Action Space) Waypoint部分观察到,并且由它们可以观察到的视图嵌入表示。例如,如果路径点相对于智能体的相对航向角在0° ∼ 30°内,路径点由第一个视图嵌入ˆv1表示。路径点表示将被合并以更新Node representations of ghost nodes Current Node Ghost (Action Space) Waypoint。
图更新。我们基于预测的路径点的空间关系更新拓扑图。这个过程使用一个路径点定位(FL)函数来在图中定位路径点。FL以路径点的位置作为输入,并计算其与图中所有节点的欧几里得距离。如果最小距离小于阈值γ,FL返回相应的节点作为定位节点。对于每个路径点,我们尝试使用路径点定位函数(FL)在图中定位它。为了更新图,我们将定位结果分为三种情况:1)如果访问过的节点Node Current Node Ghost (Action Space) Waypoint被定位,删除输入路径点并在当前节点和定位的访问过的节点之间添加一条边。2)如果幽灵节点Current Node Ghost (Action Space) Waypoint被定位,累积输入路径点的位置和视觉表示到定位的幽灵节点。定位的幽灵节点的新位置和表示更新为其累积路径点位置和表示的平均值。3)如果没有节点被定位,我们把输入路径点作为一个新的幽灵节点。
3.2 跨模态规划
图3展示了跨模态规划模块。它由一个文本编码器和一个跨模态图编码器组成。当前剧集的指令由文本编码器编码。然后,跨模态图编码器在拓扑图和编码指令上进行推理,以预测拓扑图中的长期目标节点。输出是到目标的计划拓扑路径。
3.2.1 文本编码器
每个单词嵌入wi添加一个对应于单词在句子中位置的位置嵌入[83]和一个文本类型嵌入[84]。我们将具有位置信息的单词嵌入表示为 W = { ˆwi}L i=1。这些嵌入然后被送入多层Transformer以获得上下文单词表示。
3.2.2 跨模态图编码器
该模块采用拓扑图Gt和编码指令 W来预测拓扑图中的长期目标节点。
节点编码。节点ni中的视觉特征添加了姿态编码和导航步骤编码。姿态编码嵌入了节点相对于智能体当前位置的全局相对姿态信息,包括其方向和与当前节点的欧几里得距离。导航步骤编码嵌入了访问过的节点的最新访问时间步和幽灵节点的0。这允许访问过的节点被编码为不同的历史,以捕获导航依赖性并促进与指令的对齐。节点ni的编码表示为ni。为了表示STOP动作,我们在图中添加了一个‘停止’节点,并将其与所有其他节点连接。
跨模态图Transformer。编码的节点和单词嵌入被送入多层Transformer以进行跨模态交互。Transformer架构与LXMERT[84]类似,每层包括一个双向交叉注意力子层、两个自注意力子层和两个前馈子层。对于节点编码,标准自注意力层[19]只考虑节点之间的视觉相似性,可能会忽略比远节点更相关的附近节点。为此,我们设计了一个图感知自注意力(GASA),在计算节点编码的节点间注意力时进一步考虑图拓扑:
其中X代表所有节点编码的堆叠,E是由图边Et获得的所有对最短距离构建的空间矩阵,Wq、Wk、We、Wv是可学习的矩阵。产生的节点的视觉-文本关联表示为[˜n1, ..., ˜n|Nt|] = GASA([n1, ..., n|Nt|])。
长期目标预测。我们按如下方式预测拓扑图Gt中每个节点的导航目标分数:
其中FFN表示前馈网络,˜ni是节点ni的多模态表示。注意s0对应于‘停止’节点,它代表STOP动作的分数。为了避免对已访问节点的不必要重复访问,我们屏蔽了对已访问节点和当前节点的分数。因此,长期目标从幽灵节点或‘停止’节点中选择。最后,智能体根据预测的目标分数选择一个长期目标(例如,选择具有最大分数的节点)。如果选择的目标是‘停止’节点,则当前剧集的导航终止。如果选择的目标是一个幽灵节点,智能体通过在图上执行Dijkstra算法来计算到目标的最短路径。得到的路径计划由一系列子目标节点组成,记为Pt = {pm}M m=1,其中pm代表节点位置。3.3 控制
控制模块负责将拓扑计划Pt转换为一系列低级动作,引导智能体到达目标。控制模块的输入包括Pt中跨越的一系列子目标节点,以及智能体在每个时间步的姿态。输出的动作空间是由VLN-CE任务定义的参数化低级动作集,例如,向前(0.25m)、向左/右旋转(15°)和停止。控制模块产生动作,使智能体从一个节点移动到另一个节点。类似于[8]、[9],我们采用旋转-然后-前进控制器,称为RF。具体来说,为了到达子目标节点pm,RF首先访问智能体的当前姿态,并计算其相对于pm的相对方向和距离(△θ, △ρ)。然后,(△θ, △ρ)被量化并翻译成一系列旋转(15°)动作,随后是向前(0.25m)动作序列。RF依次执行这些翻译的动作。之后,当前子目标被消耗,计划Pt中的下一个节点成为新的子目标。循环重复,直到Pt中没有更多的节点。处理无法到达的目标。可能由于其位置是由预测的路径点估计的,而可能不在导航网格上,预测的长期目标(一个幽灵节点)可能无法到达。在这种情况下,智能体有可能在交替的规划阶段中反复选择同一个无法到达的目标节点,最终导致导航控制没有进展。为了缓解这个问题,我们采用了一个简单的策略——在尝试使用导航控制到达它之前,从图Gt中删除选定的幽灵节点。这种方法不仅避免了重复选择不可行的幽灵节点,还减少了长期目标预测的候选池,从而简化了策略学习。障碍物避让。VLN-CE任务模拟了一个实际的导航场景,其中考虑了与障碍物的碰撞。障碍物避让至关重要,特别是在禁止沿障碍物滑动的情况下,例如RxR-CE数据集[22]。在这种情况下,如果智能体的底盘与障碍物接触,智能体将无法向前移动。这可能导致导航死锁,甚至由于早期剧集终止而导致导航失败。为了解决这个问题,我们设计了一个名为‘Tryout’的试错启发式方法,以防止导航死锁。‘Tryout’在RF控制器执行向前流程时发挥作用,它与‘brute force untrap mode’[85]有相似的精神。具体来说,它通过检查执行向前动作后智能体的位置是否变化来检测死锁。如果识别出死锁,Tryout会迫使智能体以一组预定的方向△Θtry旋转,并尝试用单一向前动作继续前进。如果智能体从先前的位置移开,表明智能体已经退出了死胡同。然后,智能体返回其原始航向,并继续剩余的向前控制流程。然而,如果智能体的位置保持不变,它将尝试△Θtry中的其他航向。在实践中,△Θtry由7个等间距的水平航向角组成,范围从逆时针90°(−90°)到顺时针90°(90°)。3.4 训练和推理
预训练。我们通过代理任务预训练规划模块以提高其泛化能力,遵循基于Transformer的VLN模型的常见实践[4]、[5]、[49]。在这个阶段,输入的拓扑图是离线构建的,源自Matterport3D模拟器[1]中使用的预定义图。具体来说,给定一个专家轨迹,我们首先从预定义的图中提取其对应的子图,然后沿着轨迹标记当前节点、访问过的节点和幽灵节点。进一步,我们将Habitat模拟器[61]中渲染的RGBD图像与预定义图对齐,以进行特征映射图构建过程。我们采用掩码语言建模(MLM)[83]和单动作预测(SAP)[47]代理任务进行预训练。在MLM任务中,输入指令被随机掩码,规划模块通过在图-指令交互后恢复掩码单词进行优化,如§3.2所述。对于SAP任务,我们随机切分输入的专家轨迹,并为其构建相应的拓扑图。这个任务的目标是预测下一个教师动作,即切分轨迹的后续动作节点。微调。然后我们在下游VLN-CE任务上微调我们的模型,以适应Habitat模拟器[61]中的3D网格导航。为了避免过度拟合专家经验,我们使用‘学生强制’[6]来训练模型,其中每一步预测的长期目标是通过预测分数的概率分布进行采样的(方程2)。在每个决策循环中,智能体如§3.1所述更新拓扑图,然后进行跨模态图-指令推理以预测长期目标,如§3.2所述。计划的路径由控制器执行,如§3.3所述。类似于DAgger[86],我们使用交互式示范者∗来确定每个步骤的教师动作节点。∗根据不同的数据集采取不同的策略。在R2R-CE数据集上,教师动作节点a∗t是与最终目标有最短测地线距离的幽灵节点。在没有最短路径先验的RxR-CE数据集上,∗采取类似于[7]的路径保真度策略。具体来说,注释的参考路径被离散化为一系列子目标。∗跟踪访问过的子目标,a∗t是与下一个未访问子目标有最短测地线距离的幽灵节点。总的来说,策略学习目标被制定为:推理。在测试阶段,智能体持续运行映射-规划-控制循环,这与微调阶段类似。两个阶段之间的主要区别在于每个规划步骤采用的长期目标采样策略。在这种情况下,智能体贪婪地选择具有最大预测分数的幽灵节点(方程2)。如果智能体触发了STOP动作或超过了最大目标预测次数,则当前剧集的导航将终止。与[9]一致,R2R-CE数据集的最大预测次数设置为15,RxR-CE数据集为25。4 实验
4.1 实验设置
4.1.1 数据集
我们在R2R-CE和RxR-CE数据集上进行实验,这两个数据集是通过Habitat模拟器[61]将R2R[1]和RxR[22]数据集的离散路径转换为连续环境而创建的。虽然两个数据集都提供了逐步的语言指导,但它们在路径长度、指导粒度和智能体体现等方面有所不同,如表1所总结。R2R-CE数据集总共包含5,611条最短路径轨迹,涵盖训练、验证和测试拆分。每个轨迹对应大约3个英语指令。平均路径长度为9.89米,每个指令平均包含32个单词。我们在几个验证拆分上报告性能。Val-Seen包含具有新路径和指令但在训练中观察到的场景的剧集。Val-Unseen包含新路径、指令和场景。R2R-CE中的智能体底盘半径为0.10米,可以在导航时沿障碍物滑动。RxR-CE比R2R-CE更大且更具挑战性。虽然与R2R-CE有类似的场景拆分,但RxR-CE提供了更多的指令,涵盖英语、印地语和泰卢固语的多语言描述,每个指令平均需要120个单词。此外,RxR-CE中的注释路径比R2R-CE长得多(15.23米对9.89米)。需要注意的是,RxR-CE中的智能体被禁止沿障碍物滑动,更大的底盘半径(0.18米)使其更容易与障碍物发生碰撞。这也使得RxR-CE更具挑战性,因为导航很容易在遇到障碍物时陷入困境,强调了障碍物避让在这一具有挑战性任务中的重要性。4.1.2 评估指标
遵循先前的工作[1]、[87]、[88],我们采用以下导航指标。轨迹长度(TL):平均路径长度(米);导航误差(NE):最终位置与目标位置之间的平均几何距离(米);成功率(SR):NE小于3米的路径比例;Oracle SR(OSR):给定Oracle停止策略的SR;SR惩罚路径长度(SPL);归一化动态时间 warping(NDTW):预测路径与注释路径之间的保真度,以及NDTW惩罚SR(SDTW)。R2R-CE使用SR和SPL作为其主要指标,而RxR-CE更关注路径保真度,使用NDTW和SDTW作为其主要指标。4.1.3 实现细节
模型配置。对于视觉编码,我们使用在CLIP[90]中预训练的ViTB/32[89]来编码RGB图像,以及在点目标导航[13]中预训练的ResNet-50[91]来编码深度图像,遵循[6]。我们设置全景编码器、文本编码器和跨模态图编码器的层数分别为2、9、4。其他超参数与LXMERT[84]相同(例如,隐藏层大小为768)。在预训练阶段,我们在R2R-CE数据集上使用预训练的LXMERT初始化模型,并使用预训练的RoBerta[92]初始化多语言RxR-CE数据集。训练细节。我们的实验使用PyTorch框架[93]执行,并在两个NVIDIA RTX 3090 GPU上运行。我们的模型包括两个可训练模块:用于拓扑映射模块的全景编码器和跨模态规划模块。我们在离线构建的拓扑图上预训练我们的模型100,000次迭代(约20小时),批量大小为64,学习率为5e-5,使用AdamW优化器[94]。在这个阶段,拓扑图是从离散VLN[1]的预定义图中派生出来的。我们利用R2R和RxR数据集中的离散路径进行预训练,并使用Prevalent[47]和RxR-Markey[43]中的合成指令增强数据。预训练后,我们选择产生最佳零样本导航性能的模型权重(例如,R2R-CE上的SPL,RxR-CE上的SDTW)来初始化微调阶段。在微调期间,智能体通过Habitat模拟器[61]与环境在线交互,并由示范者∗生成的教师节点进行监督。我们使用计划抽样[95]来训练模型,从教师强制到学生强制,每3000次迭代衰减频率和衰减比为0.75。微调迭代总计15,000次(约30小时),批量大小为16,学习率为1e-5。最佳迭代由验证未见拆分上的最佳性能确定。4.2 与最新方法的比较
4.2.1 R2R-CE
在表2中,我们将ETPNav与R2R-CE数据集上的当前最新方法进行了比较。结果表明,我们的模型在所有拆分中在NE、OSR、SR和SPL方面都优于现有模型。特别是,在val未见拆分上,ETPNav超过了第二好的模型CWP-RecBERT[9] 13个百分点的SR和10个百分点的SPL。此外,我们的模型在测试未见拆分上也表现出色,超过了Sim2Sim[10] 11个百分点的SR和11个百分点的SPL。Reborn[11]是2022 RxR-Habitat挑战赛的初始版本。它使用局部规划空间,由附近的路径点组成,并使用非结构化记忆库来捕获导航依赖性。Reborn和ETPNav之间的性能差距很大,在测试未见拆分上,ETPNav超过了Reborn 6个百分点的SR和3个百分点的SPL。这突出了全局规划与拓扑图的有效性,使智能体能够编码结构化的环境先验,并允许长期规划,从而实现更健壮的策略。我们还在表3中将ETPNav与几种先进的VLN规划器进行了比较。具体来说,RecBERT[9]、HAMT[5]和DUET[17]被转移到VLN-CE中,我们将它们的控制器和模型配置与ETPNav的对齐(例如,CLIP-ViT-B/32[90]视觉编码器、仅深度路径点和拓扑图)。ETPNav在所有方面都一致地超过了这些替代方案(例如,比DUET高出3.5个百分点的SR和2.72个百分点的SPL)。这进一步证明了ETPNav规划能力的有效性。4.2.2 RxR-CE
表4比较了我们的ETPNav模型与RxR-CE数据集上的当前最新方法。我们的模型在所有评估指标上都优于现有最佳模型CWP-RecBERT[9],在三个拆分上都是如此。例如,在val未见拆分上,ETPNav超过了CWP-RecBERT 27.71个百分点的SR、22.24个百分点的SPL和15.19个百分点的NDTW。ETPNav在测试未见拆分上也表现出色,超过了CWP-RecBERT 26.36个百分点的SR、20.25个百分点的SPL、16.81个百分点的NDTW和22.25个百分点的SDTW。为了公平比较,我们还报告了没有Marky-mT5[43]数据增强的结果,其中ETPNav仍然大幅度超过了CWP-RecBERT,例如,在val未见拆分上SR提高了25.99个百分点,NDTW提高了14.78个百分点。请注意,Reborn[11]是我们在2022 RxR-Habitat挑战赛中获胜的参赛作品,它采用了由附近路径点组成的局部规划空间。虽然Reborn在测试未见拆分上的NDTW略好(例如,55.43对54.11),但其SDTW明显较差(例如,38.43对41.30)。我们将其归因于ETPNav的全局规划空间,它促进了回溯,可能会影响路径保真度。然而,这种全局规划空间使智能体能够制定长期计划,从而实现更好的SR和SDTW。4.3 消融研究
在本节中,我们提供了详细的消融实验,以评估ETPNav的特定组件,包括拓扑映射模块(§4.3.1)和跨模态规划模块(§4.3.2)的关键设计选择。此外,我们比较了所提出的控制器与其他替代方案(§4.3.3)。最后,我们可视化了我们的模型预测的轨迹,并将其与其他变体进行了比较(§4.3.4)。4.3.1 拓扑映射的关键设计选择
路径点预测。表5比较了R2R-CE数据集上三种不同的路径点预测器。在第1行中,RGB和深度特征被用作输入,其中两种特征类型都被线性转换到相同的维度,融合,然后送入变换层以预测路径点。这种方法也是[9]中默认的选择。第2行仅使用RGB特征作为输入,而第3行显示了我们的方法,即使用仅深度特征进行路径点预测。我们应用路径点指标[9]和导航结果来评估预测路径点的质量。这些路径点指标如下:|△|衡量目标路径点和预测路径点数量的差异。%Open衡量位于开放空间(不受任何障碍物阻碍)的路径点的比率。dC和dH分别是Chamfer距离和Hausdorff距离,是常用于测量点云之间距离的指标。如表5所示,第1行在val未见拆分上取得了不错的性能,%Open为82.87%,DC为1.05,SR为56.44%。相反,第2行仅使用RGB预测路径点,表现最差,%Open为65.34%,DC为1.08。没有深度信息,%Open指标严重下降,表明许多路径点被障碍物阻挡或不在导航网格上。因此,导航性能也显著下降,例如,与第1行相比,SR在val未见拆分上下降了4.78%。值得注意的是,仅深度预测器(第3行)表现最佳,%Open为84.05%,DC为1.04。此外,导航性能也是最好的,在val未见拆分上,SR为57.21%,SPL为49.15%,与56.44%的SR和48.53%的SPL相比。这些发现表明RGB信息对路径点预测无效甚至有害。一个可能的解释是,RGB特征中的低级语义可以使预测器过度拟合到已见过的环境中,而这种语义对于推断空间可访问性是不必要的。不同地图构建选项的比较。表6比较了R2R-CE数据集上不同的地图构建选项,包括第3.1节中的定位阈值γ和路径点累积,以及第3.3节中的幽灵节点删除。随着定位阈值γ的增加,节点数Nnode呈下降趋势。这是因为较高的γ鼓励智能体将预测的路径点定位到现有图节点上,从而减少新节点的创建。同时,整体导航性能对节点数Nnode敏感。例如,在val未见拆分上,与(第1至3行)相比,(第10至12行)的SR下降了约12%。原因是,较高的γ导致节点太少,无法很好地描述环境,限制了智能体的准确感知和有效规划。然而,节点数Nnode过大也会影响导航性能,例如,在val未见拆分上,第1行的SR为56.71%,而第4行的SR为57.21%。一个潜在的原因是,候选节点数量的增加增加了规划模块的学习难度。此外,“Acc.”和“Del.”都是有益的。例如,比较第4行和第5行,没有“Acc.”,val未见拆分上的SR和SPL分别下降了1.32和1.23。“Acc.”允许智能体整合多步路径点观察来表示幽灵节点,促进规划模块预测准确的长期目标。类似地,比较第4行和第6行,没有“Del.”,性能显著下降,val未见拆分上的SR和SPL分别下降了4.80和4.13。没有“Del.”,无法到达的幽灵节点可以被智能体无休止地选择,导致导航没有进展。在后续实验中,第4行被用作默认设置。4.3.2 跨模态规划的关键设计选择
不同规划空间的比较。表7比较了R2R-CE数据集上的不同规划空间以及方程1中GASA的效果。局部规划空间仅考虑智能体旁边的幽灵节点作为候选目标,而全局规划空间包括沿遍历路径观察到的所有幽灵节点。全局规划取得了更好的导航性能,例如,在val未见拆分上,第4行达到了57.21%的SR,而第2行为53.92%。这表明全局规划的优越性,因为它允许有效的回溯到先前的位置,提供自我校正策略。相比之下,局部规划需要多个计划-控制流程到达一个远程位置,引入不稳定的累积偏差,难以实现如此智能的行为。GASA也被证明是有效的,因为它将SR提高了约1个百分点(第2行、第4行)与(第1行、第3行)相比,后者没有使用GASA。GASA为节点编码引入了拓扑结构,促进了智能体捕获环境结构先验的能力。我们还注意到,GASA对全局规划的增益比对局部规划的增益更为显著,比较全局规划上升了1.24个百分点的SR,局部规划上升了0.77个百分点的SR。我们怀疑这是因为进行全局规划需要理解房屋结构,而局部规划限制在附近区域,从而减少了对结构先验的需求。预训练任务的效果。表8展示了各种预训练任务对下游R2R-CE任务的影响。第1行显示了从零开始训练的模型的结果,表现最差(例如,在val未见拆分上,SR为37.41%,SPL为30.28%)。第2行展示了使用MLM任务预训练的结果,表明从通用预训练任务中获得了显著的提升(例如,在val未见拆分上,SR上升了10.82个百分点,SPL上升了7.45个百分点)。因为MLM任务使模型能够学习可转移的视觉-语言表示,增强了智能体的泛化能力。第3行显示了SAP任务的效果。与第1行相比,导航性能显著提高,SR上升了14.96个百分点,SPL上升了12.49个百分点。因为SAP可以促进模型学习面向导航的表示,这对导航策略学习至关重要。在第4行中,当结合MLM和SAP任务时,智能体实现了最佳性能,表明两个代理任务是互补的。因此,我们将MLM和SAP作为我们的默认预训练任务。表9展示了使用不同视觉输入进行预训练对下游R2R-CE任务的影响。第1行和第2行在Matterport3D模拟器[1]中捕获的RGB图像上预训练模型,这是现有基于预训练的VLN-CE模型[9]、[10]、[11]的常见做法。相比之下,第3行和第4行在Habitat模拟器[61]中重建的RGB图像上进行预训练。值得注意的是,第3行超过了第1行2.68个百分点的SR和2.88个百分点的SPL,在val未见拆分上,突出了MP3D和Habitat模拟器之间由于视觉域差异导致的性能差距。尽管模型可以使用Habitat图像进行微调,但预训练阶段域差异引起的性能损失无法消除。此外,添加深度信息进行预训练(例如,第4行)比第3行表现更好,在val未见拆分上SR提高了1.29个百分点,SPL提高了2.18个百分点。因此,第4行被用作我们的默认预训练设置。4.3.3 不同控制器的比较
表10比较了R2R-CE和RxR-CE数据集上各种导航控制器的性能。传送控制器作为性能的上限。它将智能体传送到规划模块预测的目标。由于目标(一个幽灵节点)可能不在导航网格上,在实践中,我们首先将智能体传送到目标的相邻节点,然后使用所提出的控制器将其导向目标。其他替代控制器包括PointGoal、Fast Marching Method和RF。PointGoal[13]采用预训练的LSTM来预测到达目标定位的低级动作。我们遵循[14]将PointGoal适应到VLN-CE任务。Fast Marching Method(FMM)[12]是一种经典的障碍物感知控制器,它实时构建局部占用地图进行路径规划。该地图通过深度观察的几何投影聚合。我们遵循[10]在VLN-CE任务上配置FMM。我们还考虑了FMM的一个变体(即FMM w/ CMap),以处理由于仿真误差而不可见的障碍物,在这种情况下,障碍物碰撞被记录为碰撞地图(CMap),类似于[85]。然后,CMap与局部占用地图结合用于路径规划。RF是第3.3节中描述的所提出的控制器,当禁止沿障碍物滑动时(即RxR-CE数据集),Tryout处于活动状态。第1行建立了上限,R2R-CE数据集上达到57.97%的SR和49.76%的SPL,RxR-CE数据集上达到64.43%的NDTW和46.04%的SDTW。第2行中,PointGoal显示出令人满意的性能,但与第1行相比有明显的差距,在R2R-CE数据集上SPL下降了5.71个百分点,在RxR-CE数据集上SDTW下降了2.25个百分点。第3行和第4行显示FMM在R2R-CE数据集上可以取得不错的性能,而碰撞图(第4行)的输出略优于第3行。此外,在禁止滑动的RxR-CE数据集上,性能显著下降,没有碰撞图时(例如,第3行的21.73 SDTW对比第4行的41.09)。由于仅靠占用图是不足以避开障碍物的,第3行中的智能体经常会陷入障碍物中。第5行显示我们的RF控制器在R2R-CE数据集上能够缩小与第1行的差距,达到了49.15%的SPL,而第1行是49.76%。然而,在RxR-CE数据集上,RF导致性能显著下降,与第1行相比SDTW下降了27.4个百分点。因为在挑战性的禁止滑动设置下,RF对碰撞一无所知,经常在障碍物中造成死锁,导致导航失败。所提出的Tryout能够令人满意地解决这个问题,几乎消除了因禁止滑动造成性能损失,第6行达到了45.33%的SDTW,而第1行是46.04%。Tryout甚至超过了基于学习的PointGoal控制器,第6行是45.33%对比第2行的43.79%。在表11中,我们使用Oracle规划器评估了不同控制器的性能,该规划器在每个规划步骤中总是选择教师动作节点。考虑了四个额外的指标,即采取的动作数(AT)、采取的旋转数(RT)、子目标导航误差(SG-NE)和碰撞次数(CT)。AT和RT是每个剧集平均采取的动作和旋转(旋转左/右)的数量。SG-NE是控制执行后教师动作节点与智能体位置之间的平均距离。CT表示每个剧集平均的障碍物碰撞次数。我们总结以下发现。首先,与其他控制器相比,RF变体(第4行和第5行)采取的动作更少,路径更短,这有助于它们更高的导航效率(SPL)和路径保真度(NDTW)。这是因为旋转-然后-前进控制流程迫使智能体直线行走,而其他控制器可能会采取不必要的旋转以使智能体远离障碍物。其次,尽管RF控制器简单地直线行走,但它们并没有导致更多的碰撞。我们将其归因于用于训练我们路径点预测器的数据集[9],它使路径点通常位于直线可访问的开放空间中。这也可以解释为什么Tryout可以用几次尝试避免死锁(第4行对比第5行)。第三,基于学习的PointGoal可以隐式地避开障碍物(第1行),而基于经典的FMM未能避开障碍物,导致最高的CT(第2行在RxR-CE数据集上的231.62 CT)。这表明仅依靠占用图进行障碍物避让是困难的,由于视野之外的障碍物、不准确的深度观测和室内空间扫描中的伪影造成的不完美的占用图[6]。第3行通过碰撞信息缓解了这个问题,我们的Tryout也有类似的精神。我们还对智能体的底盘半径如何影响导航性能感兴趣。图4显示了ETPNav在R2R-CE和RxR-CE数据集上使用PointGoal或RF控制器的剧集成功率。对于所有数据集,随着底盘半径的增加,两种控制器的成功率都有所下降,因为更大的底盘可能会导致智能体更频繁地与障碍物发生碰撞,增加了导航失败的风险。所提出的RF控制器对这个问题具有更强的鲁棒性,并且在所有底盘半径上一致地优于PointGoal控制器,特别是在RxR-CE数据集上,通过所有底盘半径,它比PointGoal高出约3个百分点的SR。主要原因是它使用Tryout明确防止智能体陷入障碍物中,这有助于导航策略适应各种底盘尺寸。这进一步验证了所提出的障碍物避让控制器的鲁棒性。4.3.4 定性结果
图5和图6可视化了我们的模型与使用局部规划(在R2R-CE数据集上)和没有Tryout控制(在RxR-CE数据集上)的变体相比预测的轨迹。如图5所示,局部规划空间不足以捕捉全局环境布局,阻碍了智能体的长期规划能力。例如,在步骤7中,智能体似乎意识到它正在错误的方向上导航,并打算回溯。然而,在步骤8完成单步回溯后,它再次决定回到步骤7的错误位置。这种在两个位置之间振荡的行为一直持续到步骤15的导航失败。另一方面,全局规划空间使智能体能够捕捉全局环境布局,并成功纠正先前的错误决策。在步骤4中,智能体也像局部规划变体一样开始朝错误的方向导航。但预测的长期目标有效地引导它在步骤8回到正确的轨道上,并最终成功导航。如图6所示,实际的禁止滑动步骤可能导致智能体陷入障碍物并导致导航失败。例如,在没有Tryout的情况下,智能体在底盘与墙壁碰撞后(在步骤6和7)无法向前移动。这种情况一直持续到步骤14的导航结束,智能体未能摆脱僵局,最终导致导航失败。相反,我们的模型中集成的Tryout控制有效地解决了这个问题。在步骤4中,Tryout在与墙壁碰撞后被触发,使智能体旋转并蹒跚地远离障碍物。这有助于绕过障碍物,并在步骤6成功完成导航。5 结论
总结来说,本文介绍了ETPNav,一个新颖的导航系统,利用拓扑图进行VLN-CE。我们首先提出了一种在线映射方法,通过路径点自组织实现智能体的鲁棒长期规划。该方案不需要任何先前的环境经验,满足实际导航场景的需求。然后,我们系统地检查了我们的拓扑图的关键设计选择,并实证表明简洁的仅深度设计可以是路径点预测的最优选择。此外,我们解决了VLN-CE中经常被忽视的问题——障碍物避让,采用了一个简单而有效的试错控制器。广泛的实验证明了所提出方法的有效性,在R2R-CE和RxR-CE基准测试中分别比之前的最佳水平提高了10%和20%以上。我们希望这项工作可以作为这一具有挑战性任务的强基线,促进未来的研究。未来工作。 ETPNav使用姿态读取传感器来促进拓扑映射。然而,在实际应用中,传感器的驱动噪声可能会给映射过程带来复杂性。我们将把噪声分析和在这样的场景中的鲁棒性研究作为未来的工作计划。声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 PaperEveryday 小编