Code 机器人自主的自监督神经符号框架sairlab系列论文代码落地无人驾驶应用

科技 2024-09-16 09:52 上海

Imperative Learning: A Self-supervised Neural-Symbolic Learning Framework for Robot Autonomy

命令式学习:机器人自主的自监督神经符号学习框架

代码：https://sairlab.org/iseries/ https://github.com/sair-lab/iSeries

简介 Code：用神经符号AI解决机器人强化学习等问题，sairlab系列论文代码

https://arxiv.org/pdf/2406.16087

VAP 任务要求模型同时发现交通规则、识别代理概念及其空间关系，并预测代理的动作

探索如何使 ILP 在高维数据如 RGB 图像中有效工作

摘要

数据驱动的方法，如强化学习和模仿学习，在机器人自主性方面取得了显著的成功。然而，它们的数据中心性质仍然阻碍了它们在不断变化的环境中泛化的能力。此外，为机器人任务收集大型数据集通常是不切实际和昂贵的。为了克服这些挑战，我们引入了一个新的自监督神经符号（NeSy）计算框架，即命令式学习（IL），用于机器人自主性，利用符号推理的泛化能力。IL的框架由三个主要部分组成：一个神经模块、一个推理引擎和一个记忆系统。我们将IL制定为一种特殊的双层优化（BLO），它使得三个模块之间的相互学习成为可能。这克服了与数据驱动方法相关的标签密集障碍，并利用了符号推理在逻辑推理、物理原理、几何分析等方面的优势。我们讨论了IL的几个优化技术，并在五个不同的机器人自主任务中验证了它们的有效性，包括路径规划、规则归纳、最优控制、视觉里程计和多机器人路由。通过各种实验，我们展示了IL可以显著增强机器人自主能力，我们预计它将促进不同领域的进一步研究。

关键词：神经符号AI，自监督学习，双层优化，命令式学习

1 引言

随着深度学习的快速发展（LeCun 等人，2015），人们对数据驱动方法，如强化学习（Zhu 和 Zhang，2021）和模仿学习（Hussein 等人，2017），在机器人自主性方面的应用越来越感兴趣。然而，尽管取得了这些显著的进步，许多数据驱动的自主系统仍然主要受限于其训练环境，表现出有限的泛化能力（Banino 等人，2018；Albrecht 等人，2022）。

相比之下，人类能够将他们的经验内化为抽象概念或符号知识（Borghi 等人，2017）。例如，我们将“道路”和“路径”这些术语解释为可导航区域的符号或概念，无论是城市中的铺装街道还是森林中的土路（Hockley，2011）。有了这些概念，人类可以运用空间推理来导航新的和复杂的环境（Strader 等人，2024）。这种适应新场景的能力，根植于我们抽象和符号化的能力，是现有数据驱动自主机器人中仍然明显缺失的人类智能的一个基本方面（Garcez 等人，2022；Kautz，2022）。

尽管隐式推理能力在大型语言模型（LLMs）的背景下已经引起了越来越多的关注（Lu 等人，2023；Shah 等人，2023a），但机器人自主系统在实现可解释推理方面仍然面临重大挑战。这在几何、物理和逻辑推理等领域尤为明显（Liu 等人，2023）。克服这些障碍并将可解释的符号推理整合到数据驱动模型中，即所谓的神经-符号（NeSy）推理，可能会显著提高机器人的自主性（Garcez 等人，2022）。

尽管NeSy推理提供了巨大的潜力，但其在机器人领域的具体应用仍处于起步阶段。一个关键原因是NeSy推理领域的新兴性质本身，尚未就严格定义达成共识（Kautz，2022）。一方面，狭义定义将NeSy推理视为神经方法（数据驱动）和符号方法的融合，后者利用形式逻辑和符号进行知识表示和基于规则的推理。另一方面，广义定义扩大了“符号”的范围。在这种观点中，符号不仅是逻辑术语，还包括任何可理解的、人为构想的概念。这可以包括物理属性和语义属性，如涉及具体方程的方法（Duruisseaux 等人，2023）、逻辑编程（Delfosse 等人，2023）和可编程目标（Yonetani 等人，2021a）中所见。因此，这种广义定义涵盖了与物理原理、逻辑推理、几何分析等相关的推理。在这种情况下，许多文献举例说明了NeSy系统，例如基于模型的强化学习（Moerland 等人，2023）、物理信息网络（Karniadakis 等人，2021）和辅助学习任务，如控制（O’Connell 等人，2022）、任务调度（Gondhi 和 Gupta，2017）和几何分析（Heidari 和 Iosifidis，2024）。

在本文中，我们探讨了机器人自主性的广义NeSy推理，并介绍了一个自监督NeSy学习框架，将被称为命令式学习（IL）。它旨在克服现有机器人自主性学习框架的众所周知的问题：（1）泛化能力：许多数据驱动系统，包括强化学习模型（Banino 等人，2018；Albrecht 等人，2022），在很大程度上仍然局限于其训练环境，显示出有限的泛化能力。这种局限性的一个原因是它们无法学习显式的常识规则，这阻碍了它们在新环境中的有效转移。这鼓励我们深入研究符号推理技术。（2）黑箱性质：数据驱动模型背后的因果机制大多未知，而在机器人任务中，一个有问题的决策可能会产生灾难性的副作用（Dulac-Arnold 等人，2021）。因此，这些模型在应用于现实世界情况时经常遇到困难，这进一步鼓励我们深入研究NeSy系统。（3）标签密集性：为机器人任务（如模仿学习）标注数据（Zare 等人，2023）通常比计算机视觉任务的成本更高，因为它们依赖于专业设备而非基本的人类注释（Ebadi 等人，2022）。例如，由于机器人动力学的复杂性，为机器人规划标注准确的地面真实情况极其复杂。这强调了高效自监督学习方法的关键需求。（4）次优性：分别训练神经和符号模块可能会导致由于累积错误而导致的次优集成（Besold 等人，2021）。这激发了对端到端NeSy学习方法的探索。

IL是为了解决上述问题而设计的一个单一框架。它的灵感来自于一个有趣的观察：虽然数据驱动模型主要需要标记数据来优化参数，但符号推理模型通常能够在没有标签的情况下运作。然而，这两种类型的模型都可以使用类似梯度下降的迭代方法进行优化。例如，几何模型如捆绑调整（BA）、物理模型如模型预测控制（MPC），以及离散模型如在图上的A*搜索。它们都可以在不提供标签的情况下进行优化，尽管它们在被表述为优化问题时类似于数据驱动模型。

IL利用这两种方法的这一特性，通过强制每种方法相互纠正对方，从而创造了一种新颖的自监督学习范式。为了优化整个框架，IL被构建为一个特殊的双层优化（BLO）问题，通过将自监督符号模型的错误反向传播到神经模型来解决。“命令式”这个术语被采用以突出和描述这种被动的自监督学习过程。

总结来说，本文的贡献包括：

- 我们探索了一个自监督的NeSy学习框架，被称为命令式学习（IL），用于机器人自主性。IL被构建为一个特殊的BLO问题，以强制网络学习符号概念并通过数据驱动的方法增强符号推理。这导致了一种互惠学习范式，可以避免由于解耦系统的复合错误导致的次优解决方案。

- 我们讨论了几种优化策略来应对IL的技术挑战。我们展示了如何将不同的优化技术整合到我们的IL框架中，包括闭式解、一阶优化、二阶优化、约束优化和离散优化。

- 为了惠及整个社区，我们展示了IL在机器人自主性的几个任务中的有效性，包括路径规划、规则归纳、最优控制、视觉里程计和多机器人路由。我们在 https://sairlab.org/iseries/ 上发布了源代码，以激发更多使用IL的机器人研究。

本文受到我们在机器人自主性不同领域的先前工作的启发，包括局部规划（Yang 等人，2023）、全局规划（Chen 等人，2024）、同时定位与地图构建（SLAM）（Fu 等人，2024）、特征匹配（Zhan 等人，2024）和多智能体路由（Guo 等人，2024）。这些工作在几个不同的领域介绍了IL的原型，但未能为机器人自主性的NeSy学习引入系统化的方法论。本文通过正式定义IL、探索不同机器人自主性任务中IL的各种优化挑战，并引入了规则归纳和最优控制等新应用，填补了这一空白。此外，我们介绍了基于BLO解决IL的理论背景，提出了几种通过在五个不同的机器人自主性应用中进行实验来解决IL的实际解决方案，并展示了IL在其各自领域中优于最新技术（SOTA）方法的优越性。

2 相关工作

2.1 双层优化

双层优化（BLO）最初由Bracken和McGill（1973）提出，几十年来一直受到研究。分类方法将其下层问题替换为其最优性条件作为约束，并将双层规划重新表述为单层约束问题（Hansen等人，1992；Gould等人，2016；Shi等人，2005；Sinha等人，2017）。最近，基于梯度的双层优化由于其在现代机器学习和深度学习问题中的效率和有效性而受到显著关注。由于本文主要关注学习方面，我们将集中讨论基于梯度的双层优化方法，并简要讨论它们在机器人学习问题中的局限性。

从方法论上讲，基于梯度的双层优化通常可以分为近似隐式微分（AID）、迭代微分（ITD）和基于值函数的方法。基于通过AID隐式微分得到的上层目标函数的梯度（或超梯度）的显式形式，AID方法采用了下层问题的广义迭代求解器以及超梯度的Hessian逆向向量积的高效估计（Domke，2012；Pedregosa，2016；Liao等人，2018；Arbel和Mairal，2022a）。

基于ITD的方法通过直接在灵活的内循环优化轨迹上使用自动微分的前向或后向模式进行反向传播，来近似超梯度（Maclaurin等人，2015；Franceschi等人，2017；Finn等人，2017；Shaban等人，2019；Grazzi等人，2020）。

基于值函数的方法将下层问题重新表述为基于值函数的约束，并通过各种约束优化技术解决这个约束问题，如混合梯度聚合、对数障碍正则化、原始-对偶方法和动态障碍（Sabach和Shtern，2017；Liu等人，2020a；Li等人，2020a；Sow等人，2022；Liu等人，2021b；Ye等人，2022）。

最近，大规模随机双层优化在理论和实践上都得到了广泛研究。例如，Chen等人（2021）和Ji等人（2021）提出了基于Neumann级数的超梯度估计器；Yang等人（2021）、Huang和Huang（2021）、Guo和Yang（2021）、Yang等人（2021）以及Dagréou等人（2022）结合了方差缩减和递归动量的策略；Sow等人（2021）开发了一种基于进化策略（ES）的方法，无需计算Hessian或Jacobian。

从理论上讲，基于下层问题是强凸的关键假设，双层优化的收敛性已经得到了广泛分析（Franceschi等人，2018；Shaban等人，2019；Liu等人，2021b；Ghadimi和Wang，2018；Ji等人，2021；Hong等人，2020；Arbel和Mairal，2022a；Dagréou等人，2022；Ji等人，2022a；Huang等人，2022）。其中，Ji和Liang（2021）进一步为具有（强）凸上层函数的确定性双层优化提供了较低的复杂性界限。Guo和Yang（2021）、Chen等人（2021）、Yang等人（2021）以及Khanduri等人（2021）实现了具有二阶导数的近最优样本复杂性。Kwon等人（2023）；Yang等人（2024）分析了一阶随机双层优化算法的收敛性。最近的工作研究了一个更具挑战性的设置，其中下层问题是凸的或满足Polyak-Lojasiewicz（PL）或Morse-Bott条件（Liu等人，2020a；Li等人，2020a；Sow等人，2022；Liu等人，2021b；Ye等人，2022；Arbel和Mairal，2022b；Chen等人，2023；Liu等人，2021c）。关于双层优化及其分析的更多结果可以在调查中找到（Liu等人，2021a；Chen等人，2022）。

双层优化已经被整合到机器学习应用中。例如，研究人员已经将可微分优化层（Amos和Kolter，2017）、凸层（Agrawal等人，2019）和声明式层（Gould等人，2021）引入到深度神经网络中。它们已经被应用于诸如光流（Jiang等人，2020）、枢轴操纵（Shirai等人，2022）、控制（Landry，2021）和轨迹生成（Han等人，2024）等几个应用。然而，对于机器人自主性的NeSy学习的方法和方法论仍然未被充分探索。此外，机器人问题通常是高度非凸的，导致许多局部最小值和鞍点（Jadbabaie等人，2019），增加了优化难度。我们将探索具有保证收敛性的方法以及通过各种机器人自主性任务经验验证的方法。

2.2 机器人学习框架

我们总结了机器人领域的主要学习框架，包括模仿学习、强化学习和元学习。其他将简要提及。

模仿学习是一种技术，机器人通过观察和模仿专家的行为来学习任务。在没有显式建模复杂行为的情况下，机器人可以执行各种任务，如灵巧操作（McAleer等人，2018）、导航（Triest等人，2023）和环境交互（Chi等人，2023）。当前的研究包括利用历史数据、建模多模态行为、使用特权教师（Kaufmann等人，2020；Chen等人，2020a；Lee等人，2020）以及利用生成模型生成数据，如生成对抗网络（Ho和Ermon，2016）、变分自编码器（Zhao等人，2023）和扩散模型（Chi等人，2023）。这些进步突出了模仿学习的活跃和持续探索。

模仿学习与常规监督学习不同，因为它不假设收集的数据是独立同分布的（iid），并且完全依赖于代表“良好”行为的专家数据。因此，测试期间的任何小错误都可能导致连锁失败。虽然存在诸如引入故意错误进行数据增强（Pomerleau，1988；Tagliabue等人，2022；Codevilla等人，2018）和专家查询进行数据聚合（Ross等人，2011）等技术，但它们仍然面临显著挑战。这些挑战包括数据效率低下，有限或次优的演示会损害性能，以及泛化能力差，机器人难以将学到的行为适应新环境或未见过的变体，这是由于收集高质量数据的劳动密集性质。

强化学习（RL）是一种学习范式，机器人通过与环境互动并接收奖励或惩罚形式的反馈来学习执行任务（Li，2017）。由于其适应性和有效性，RL已在许多领域得到广泛应用，如导航（Zhu和Zhang，2021）、操纵（Gu等人，2016）、运动（Margolis等人，2024）和人-机器人交互（Modares等人，2015）。

然而，RL也面临重大挑战，包括样本效率低下，需要大量的互动数据（Dulac-Arnold等人，2019），以及在物理环境中确保安全探索的难度（Thananjeyan等人，2021）。在数据收集被禁止或危险的复杂任务或环境中，这些问题尤为严重（Pecka和Svoboda，2014）。此外，RL在将学到的行为泛化到新环境和任务方面也常常遇到困难，面临显著的仿真到现实挑战。它也可能计算成本高昂，对超参数选择敏感（Dulac-Arnold等人，2021）。此外，奖励塑形虽然可能加速学习，但通过误导学习过程，可能无意中引入偏差或次优策略。

我们注意到，双层优化（BLO）也已整合到RL中。例如，Stadie等人（2020）将内在奖励表述为一个双层优化问题，导致超参数优化；Hu等人（2024）在双层优化下整合了强化和模仿学习，解决了多机器人协调中的耦合行为和不完全信息等挑战；Zhang等人（2020a）采用了基于双层优化的双层演员-评论家学习方法，并在合作环境中实现了比纳什均衡更好的收敛性。然而，它们仍然在RL框架内，尚未提出系统化的方法。

元学习最近受到了显著关注，特别是它在训练深度神经网络方面的应用（Bengio等人，1991；Thrun和Pratt，2012）。与传统学习方法不同，元学习利用数据集和任务集合的先验知识，能够快速学习新任务，通常只需最少的数据，如在少样本学习中所见。已经开发了许多元学习算法，包括基于度量（Koch等人，2015；Snell等人，2017；Chen等人，2020b；Tang等人，2020；Gharoun等人，2023）、基于模型（Munkhdalai和Yu，2017；Vinyals等人，2016；Liu等人，2020b；Co-Reyes等人，2021）和基于优化的方法（Finn等人，2017；Nichol和Schulman，2018；Simon等人，2020；Singh等人，2021；Bohdal等人，2021；Zhang等人，2024；Choe等人，2024）。其中，基于优化的方法通常更易于实现，并且在多个领域取得了最先进的成果。

双层优化（BLO）为基于优化的元学习提供了一个算法框架。作为最具代表性的基于优化方法，模型无关元学习（MAML）（Finn等人，2017）学习了一个初始化，使得从这个初始模型开始的梯度下降过程能够实现快速适应。在随后的几年中，提出了许多关于各种MAML变体的工作（Grant等人，2018；Finn等人，2019，2018；Jerfel等人，2018；Mi等人，2019；Liu等人，2019；Rothfuss等人，2019；Foerster等人，2018；Baik等人，2020b；Raghu等人，2019；Bohdal等人，2021；Zhou等人，2021；Baik等人，2020a；Abbas等人，2022；Kang等人，2023；Zhang等人，2024；Choe等人，2024）。其中，Raghu等人（2019）提出了一个高效的MAML变体，称为ANIL，它只适应神经网络参数的一个子集。Finn等人（2019）为在线学习应用引入了MAML的跟随元领导者版本。Zhou等人（2021）通过利用任务之间的相似性信息，提高了MAML的泛化性能。Baik等人（2020a）通过自适应学习率和权重衰减系数提出了MAML的改进版本。Kang等人（2023）提出了几何自适应预条件梯度下降，用于高效的元学习。此外，还提出了一组元正则化方法，以改善正则化经验风险最小化问题中的偏差（Denevi等人，2018b，2019，2018a；Rajeswaran等人，2019；Balcan等人，2019；Zhou等人，2019）。此外，少样本学习中存在一个流行的基于嵌入的框架（Bertinetto等人，2018；Lee等人，2019；Ravi和Larochelle，2016；Snell等人，2017；Zhou等人，2018；Goldblum等人，2020；Denevi等人，2022；Qin等人，2023；Jia和Zhang，2024）。这个框架的目标是学习一个适用于所有任务的共享嵌入模型，每个任务的特定参数基于嵌入特征进行学习。

值得注意的是，命令式学习（IL）被提出来是为了缓解上述机器人学习框架的缺点。然而，IL也可以与任何现有的学习框架整合，例如，将强化学习方法表述为IL的上层问题，尽管这超出了本文的范围。

2.3 神经-符号学习

如前所述，NeSy学习领域缺乏对严格定义的共识。一个后果是，关于NeSy学习文献稀缺且缺乏系统化的方法论。因此，我们将简要讨论两个主要类别：逻辑推理和物理注入网络。这将涵盖符号代表离散信号（如逻辑结构）或连续信号（如物理属性）的场景。我们将在各自部分的相关章节中讨论其他相关工作，以及五个机器人自主性示例的背景下。

逻辑推理旨在将可解释和确定性的逻辑规则注入神经网络（Serafini和Garcez，2016；Riegel等人，2020；Xie等人，2019；Ignatiev等人，2018）。一些先前的工作直接从人类专家（Xu等人，2018；Xie等人，2019，2021；Manhaeve等人，2018；Riegel等人，2020；Yang等人，2020）或用于神经网络可控推理的预言机中获得此类知识，称为演绎方法。代表性工作包括DeepProbLog（Manhaeve等人，2018）、逻辑神经网络（Riegel等人，2020）和语义损失（Xu等人，2018）。尽管它们取得了成功，但演绎方法需要人类提供结构化的形式符号知识，这并不总是可用的。此外，它们在扩展到更大和更复杂的问题时仍然面临困难。相比之下，归纳方法为半监督高效网络学习归纳结构化符号表示。一种流行的策略是基于前向搜索算法（Li等人，2020b，2022b；Evans和Grefenstette，2018；Sen等人，2022），这既耗时又难以扩展。其他方法借用基于梯度的神经网络进行规则归纳，如SATNet（Wang等人，2019）、NeuralLP（Yang等人，2017）和神经逻辑机器（NLM）（Dong等人，2019）。特别是，NLM引入了一种受一阶逻辑启发的新网络架构，显示出比普通神经网络更好的组合泛化能力。然而，现有的归纳算法要么在结构化数据上工作，如知识图谱（Yang等人，2017；Yang和Song，2019），要么只与玩具图像数据集（Shindo等人，2023；Wang等人，2019）进行实验。我们将这项研究的极限推向了机器人领域，通过IL提供具有高维图像数据的真实世界应用。

物理注入网络（PINs）将物理定律直接集成到神经网络的架构和训练中（Raissi等人，2019），旨在增强模型解决复杂科学、工程和机器人问题的能力（Karniadakis等人，2021）。PINs将已知的物理原理，如守恒定律和微分方程，嵌入到网络的损失函数（Duruisseaux等人，2023）、约束或结构中，促进更大的可解释性、泛化能力和效率（Lu等人，2021）。例如，在流体动力学中，PINs可以利用纳维-斯托克斯方程引导预测，确保即使在数据稀缺区域也遵守基本流动属性（Sun和Wang，2020）。同样，在结构力学中，变分原理可以用来告知模型应力和变形关系，从而实现更准确的结构分析（Rao等人，2021）。

在机器人自主性领域，物理注入网络（PINs）已被应用于各种任务，包括感知（Guan等人，2024）、规划（Romero等人，2023）、控制（Han等人，2024）等。通过将机器人系统的运动学和动力学直接嵌入到学习过程中，PINs使机器人能够更准确地预测和响应物理交互，从而实现更安全、更高效的操作。这方面的方法包括但不限于将物理定律嵌入网络（Zhao等人，2024）、将初始和边界条件强制到训练过程中（Rao等人，2021）以及设计物理约束损失函数，例如，最小化代表物理系统的能量泛函（Guan等人，2024）。

3 命令式学习

3.1 结构

命令式学习（IL）的框架如图1所示，由三个模块组成，即神经系统、推理引擎和存储模块。具体来说，神经系统从原始传感器数据（如图像、激光雷达点、惯性测量单元测量值及其组合）中提取高级语义属性。这些语义属性随后被发送到推理引擎，这是一个由物理原理、逻辑推理、解析几何等符号过程表示的符号过程。存储模块存储机器人的经验和获取的知识，例如关于物理世界的数据、符号规则和地图，用于长期或短期。此外，推理引擎与存储模块执行一致性检查，这将更新存储或进行必要的自我纠正。直观地说，这种设计有潜力将神经系统的表达性特征提取能力、推理引擎的可解释性和泛化能力以及存储模块的可记忆性结合到一个单一框架中。我们接下来解释实现这一点的数学原理。

3.2 公式化

其中 ξ 是一个通用约束（可以是等式或不等式）；U 和 L 分别是上层（UL）和下层（LL）成本函数；ψ 和 ϕ 分别是堆叠的 UL 变量和 LL 变量。U 和 L 也分别被称为神经成本和符号成本。如前所述，“命令式”一词用于表示学习过程的被动性质：一旦优化，UL 成本中的神经系统 f 将被驱动与 LL 推理引擎 g（例如逻辑、物理或几何推理过程）对齐，满足约束 ξ，从而学习生成逻辑上、物理上或几何上可行的语义属性或谓词。在某些应用中，ψ 和 ϕ 也被称为类神经元参数和类符号参数。

自监督学习 如第1节所述，IL 的构建受到一个重要观察的启发：许多符号推理引擎，包括几何、物理和逻辑推理，可以在不提供标签的情况下进行优化或解决。这在逻辑推理方法如方程发现（Billard 和 Diday 2002）和 A* 搜索（Hart 等人 1968）、几何推理如束调整（BA）（Agarwal 等人 2010）以及物理推理如模型预测控制（Kouvaritakis 和 Cannon 2016）中都很明显。IL 框架利用这一现象，通过 BLO 共同优化这三个模块，强制它们相互纠正。因此，所有三个模块都可以通过观察世界以自监督的方式进行学习和演化。然而，值得注意的是，尽管 IL 旨在用于自监督学习，但它可以通过在 UL 或 LL 成本函数中或两者中涉及标签，轻松适应监督或弱监督学习。

记忆 IL 框架中的记忆系统是一个可以在线保留和检索信息的一般组件。具体而言，它可以是任何与写入和读取操作相关的结构，用于保留和检索数据（Wang 等人 2021a）。记忆可以是一个神经网络，其中信息被“写入”参数中，并通过一系列数学操作或隐式映射“读取”，例如神经辐射场（NeRF）模型（Mildenhall 等人 2021）；它也可以是具有明确物理含义的结构，例如在线创建的地图、在线归纳的一组逻辑规则，甚至是在线收集的数据集；它也可以是 LLM 的文本形式的记忆系统，如检索增强生成（RAG）（Lewis 等人 2020），该系统写入、读取和管理符号知识。

3.3 优化双层优化（BLO）已经在元学习（Finn等人，2017）、超参数优化（Franceschi等人，2018）和强化学习（Hong等人，2020）等框架中进行了探索

然而，大多数理论分析主要集中于它们对数据驱动模型的适用性，其中经常使用一阶梯度下降（GD）方法（Ji等人，2021；Gould等人，2021）。然而，许多推理任务提出了独特的挑战，使得GD效果不佳。例如，像BA这样的几何推理需要二阶优化器（Fu等人，2024），如Levenberg-Marquardt（LM）（Marquardt，1963）；多机器人路由需要在离散变量上进行组合优化（Ren等人，2023a）。在BLO框架内使用此类低级（LL）优化引入了极端的复杂性和挑战，这些仍然未被充分探索（Ji等人，2021）。因此，我们将首先深入研究一般的BLO，然后提供实际示例，涵盖我们IL框架中LL优化的不同挑战。

解决IL（1）的方案主要涉及解决上层（UL）参数 θ 和 γ 以及下层（LL）参数 μ 和 ν。直观地说，通常像神经元权重一样的上层参数可以使用上层成本 U 的梯度进行更新：

3.3.1 展开微分

3.3.2 隐式微分

隐式微分方法直接计算导数。我们接下来介绍隐式微分算法的通用框架，通过解决LL问题的一阶最优性条件的线性系统，而具体解决方案取决于特定任务，将在第4节中使用几个独立示例进行说明。

4 应用和示例

为了展示命令式学习（IL）的有效性，我们将在机器人自主性的不同领域介绍五个不同的例子。这些例子及其各自的低层（LL）问题和优化方法在表1中概述。具体来说，它们被选中以涵盖不同任务，包括路径规划、规则归纳、最优控制、视觉里程计和多智能体路由，以展示LL问题所需的不同优化技术，包括闭式解、一阶优化、约束优化、二阶优化和离散优化。我们将探索第3.2节中提到的几种存储结构。此外，由于IL是一个由三个主要组件组成的自监督学习框架，

我们有三种类型的学习。这包括

（A）给定已知（预训练或人为定义）的推理引擎，如逻辑推理、物理原理和几何分析，机器人可以分别以自监督的方式学习逻辑、物理或几何感知的神经网络系统；

（B）给定神经感知系统，如视觉基础模型（Kirillov等人，2023），机器人可以发现世界规则，例如交通规则，然后将规则应用于未来的事件；以及

（C）给定存储系统（例如经验、世界规则或地图），机器人可以同时更新神经系统和推理引擎，以便它们能够适应具有一套新规则的新环境。这五个例子也将涵盖所有三种学习类型。

4.1 闭式解

我们首先说明LL成本L在（1b）中有闭式解的情况。在这种情况下，人们可以直接通过解决来优化UL成本。

许多符号成本可以通过闭式解有效解决。例如，线性二次调节器（LQR）（Shaiju和Petersen，2008）和迪杰斯特拉算法（Dijkstra，1959）都可以解决确定的最优解。为了展示IL在闭式解方面的有效性，我们接下来将提出两个路径规划的例子，利用神经模型减少符号优化的搜索和采样空间。

示例 1：路径规划路径规划是一种计算过程，用于在环境中从起点到目的地确定一条路径。它通常涉及绕过障碍物，并且可能还会优化某些目标，如最短距离、最小能量使用或最大安全性。路径规划算法通常分为全局规划和局部规划，前者利用环境的全局地图，后者依赖于实时传感器数据。我们将通过命令式学习（IL）增强两种广泛使用的算法：用于全局规划的A*搜索和用于局部规划的三次样条，它们都提供闭式解。

示例 1.B: 局部路径规划

背景端到端的局部规划，结合了感知和规划于一个模型中，最近引起了广泛关注，特别是其通过数据驱动的方法如强化学习（Hoeller et al. 2021；Wijmans et al. 2019；Lee et al. 2024；Ye et al. 2021）和模仿学习（Sadat et al. 2020；Shah et al. 2023b；Loquercio et al. 2021）实现高效推理的潜力。尽管取得了这些进展，仍然存在显著的挑战。基于强化学习的方法常常面临样本效率低下和直接处理原始、密集传感器输入（如深度图像）的困难。在训练过程中缺乏足够的指导时，强化学习难以收敛到一个在各种场景或环境中表现良好的最优策略。另一方面，模仿学习则严重依赖标注轨迹的可用性和质量。获取这些标注轨迹对在多样动态模型下操作的机器人系统尤其具有挑战性，从而限制了其在灵活机器人系统中的广泛应用。

方法为了应对这些挑战，我们将 IL 引入局部规划，并称之为强制局部规划（iPlanner），如图 3 所示。iPlanner 不直接预测连续轨迹，而是使用网络生成稀疏的路标点，然后通过基于三次样条的轨迹优化引擎进行插值。该方法利用了神经和符号模块的优势：神经网络擅长于动态障碍物检测，而符号模块则优化在动态条件下的多步导航策略。通过强制网络输出稀疏的路标点而不是连续轨迹，iPlanner 有效地结合了两者的优势。具体来说，iPlanner 可以被表述为：

4.2 一阶优化

示例 2：归纳逻辑推理

背景逻辑推理旨在根据已知事实推导未知事实的真实性，利用形式逻辑规则 (Iwańska 1993; Overton 2013; Halpern 2013)。不同类型的逻辑已被发明以解决来自不同领域的各种问题，包括命题逻辑 (Wang et al. 2019)、线性时序逻辑 (Xie et al. 2021) 和一阶逻辑 (FOL) (Cropper and Morel 2021)。其中，一阶逻辑将逻辑术语分解为具有量词的提升谓词和变量，具有强大的泛化能力，可以应用于任何组合的任意实体。由于强大的泛化能力，一阶逻辑已被广泛用于知识图谱推理 (Yang and Song 2019) 和机器人任务规划 (Chitnis et al. 2022)。然而，传统的一阶逻辑需要人工专家仔细设计谓词和规则，这非常繁琐。自动总结一阶逻辑的谓词和规则是一个长期存在的问题，被称为归纳逻辑编程 (ILP)。然而，现有工作仅研究了在结构简单的数据如知识图谱上的 ILP。为了将这一研究扩展到机器人领域，我们将探索如何使 ILP 在高维数据如 RGB 图像中有效工作。

背景

在 ILP 的解决方案中，一种方法是基于前向搜索算法 (Cropper and Morel 2021; Shindo et al. 2023; Hocquette et al. 2024)。例如，Popper 基于失败构造答案集程序，这可以显著减少假设空间 (Cropper and Morel 2021)。然而，由于一阶逻辑是一个组合问题，基于搜索的方法在样本规模扩大时可能极其耗时。最近，一些工作引入了神经网络来辅助搜索过程 (Yang et al. 2017; Yang and Song 2019; Yang et al. 2022b) 或直接隐式表示规则 (Dong et al. 2019)。例如，NeurlLP 将 FOL 规则推理重新表述为多跳推理过程，可以表示为一系列矩阵乘法 (Yang et al. 2017)。因此，学习权重矩阵等同于归纳规则。另一方面，神经逻辑机器设计了一种新的受 FOL 启发的网络结构，其中规则隐式存储在网络权重中 (Dong et al. 2019)。尽管这些方法在结构化符号数据集（如 BlocksWorld (Dong et al. 2019) 和知识图谱 (Yang et al. 2017)）中表现出色，但它们处理高维数据如 RGB 图像的能力仍然很少被探索。

方法为了填补这一空白，我们在 LogiCity (Li et al. 2024) 的视觉动作预测 (VAP) 任务中验证 IL 框架。VAP 任务要求模型同时发现交通规则、识别代理概念及其空间关系，并预测代理的动作。如图 4 所示，我们利用一个基础网络 ff 来预测代理概念和空间关系，该网络以图像等观测值作为模型输入。然后，将预测的代理概念及其关系发送到推理模块进行规则归纳和动作预测。推理过程中的学习规则存储在内存中，并在必要时进行检索。例如，基础网络可能输出概念“IsTiro(A1)”，“IsPedestrian(A2)”及其关系“NextTo(A1, A2)”。然后，推理引擎应用存储在内存模块中的学习规则“Slow(X)←(∃ Y IsTiro(X) ∧ IsPedestrian(Y) ∧ NextTo(X, Y)) ∨ ...”来推断下一步动作“Slow(A1)”或“Normal(A2)”，如图 5 所示。最后，使用预测的动作和从基础网络观察到的动作来计算损失。总之，我们将这一流程公式化为 (33)，并将其称为“命令逻辑推理 (iLogic)”。

优化由于梯度下降算法可以更新基础网络和 NLM，我们可以应用一阶优化来解决 iLogic。任务级别的动作损失使得自监督训练更加高效，消除了对明确概念标签的需求。此外，与单级优化相比，BLO 帮助模型更有效地集中于学习概念基础和规则归纳，这提高了优化的稳定性并减少了次优结果的发生。因此，模型能够更准确地学习规则，并以更高的精度预测动作。

4.3 受约束优化

接下来，我们将说明 LL 成本L在 (1b) 中受到 (1c) 中一般约束的情形。我们分别讨论带有等式约束和不等式约束的两种情况。受约束优化是一个经过充分探索的领域，相关研究见于 (Dontchev et al. 2009) 并在 (Gould et al. 2021) 中进行了总结。本研究将重点介绍如何将受约束优化集成到我们特定形式的 BLO (1) 中，基于 IL 框架。

等式约束 在这种情况下，(1c) 中的约束是

例 3：模型预测控制

精确建模和控制非线性动态对于机器人应用至关重要，例如空中操作（He et al. 2023; Geng and Langelaan 2020）和越野导航（Triest et al. 2023）。尽管基于物理的经典方法具有优秀的泛化能力，但它们在问题特定的参数调优上依赖性较强。像状态反馈（Mellinger and Kumar 2011）和最优控制（Garcia et al. 1989; Ji et al. 2022b）的方法需要精确的系统建模来有效预测和控制动态。然而，准确建模不可预测因素如风突、边界层效应、不平整地形或混沌非线性效应的隐藏动态是具有挑战性的。

背景

近年来，研究人员致力于将物理建模与数据驱动的方法相结合，并在系统控制领域取得了显著成功（O’Connell et al. 2022; Hu et al. 2023）。例如，Amos 等人（2018）开发了可微分的模型预测控制（MPC），将基于物理的建模与数据驱动的方法结合起来，实现了动态模型和控制策略的端到端学习（Jin et al. 2020）。然而，许多先前的研究依赖于专家演示或标记数据进行监督学习（Jin et al. 2022; Song and Scaramuzza 2022）。虽然监督学习在训练数据集上取得了有效结果，但它在面对未知环境和外部干扰等挑战条件时表现不佳。

为了消除对人类示范的依赖，我们将可微分模型预测控制（MPC）纳入命令式学习（IL）框架中，以下简称为命令式MPC（iMPC）。我们提出了一个具体应用示例，即基于惯性测量单元（IMU）的无人机（UAV）姿态控制，其中网络去噪原始IMU测量数据并预测无人机的姿态，然后由MPC用于姿态控制。值得注意的是，尽管iMPC是为姿态控制设计的，但它也可以调整应用于其他控制问题。

这种预测状态与 IMU 网络测量之间的差异反映了模型的不完美，表明网络和 MPC 模块中的可学习参数需要进行调整。具体来说，我们采用 IMU 去噪模型 AirIMU (Qiu et al. 2024) 作为感知网络，这是一种可以在时间范围内传播系统不确定性的神经模型。选择了 PyPose (Wang et al. 2023) 提供的可微分 MPC (Diff-MPC) 作为基于物理的推理模块。

示例 4：SLAM

同时定位与地图构建（SLAM）是计算机视觉和机器人技术中的一个关键技术（Aulinas等人，2008；Cadena等人，2016）。它的目标是同时跟踪机器人的轨迹并构建环境地图。SLAM在多种机器人应用中至关重要，如室内导航（Wang等人，2017a）、水下探索（Suresh等人，2020）和太空任务（Dor等人，2021）。SLAM系统通常遵循前端和后端架构。具体来说，前端通常负责解释传感器数据并提供机器人轨迹和环境地图的初始估计；后端通过执行全局优化来改进初始估计，以提高整体准确性。

背景：SLAM领域的最新进展表明，基于监督学习的前端运动估计方法可以提供显著的性能（Wang等人，2021b；Teed和Deng，2021）。这些方法应用了依赖外部监督的机器学习算法，通常以标记数据集的形式。一旦训练完成，模型可以在没有明确编程的情况下进行估计。与此同时，基于几何的方法对于系统的后端仍然至关重要，主要任务是减少前端漂移（Qin等人，2018）。这些技术采用几何优化，如位姿图优化（PGO）（Labbe和Michaud，2014），以保持全局一致性并最小化轨迹漂移。然而，它们的前端和后端组件独立运行，并且仅在一个方向上连接。这意味着数据驱动的前端模型无法从后端接收反馈以进行联合错误校正。因此，这种解耦方法可能导致次优性能，从而对当前SLAM系统的整体性能产生不利影响。

为了解决解耦方法导致的次优性能问题，我们将命令式学习（IL）引入到SLAM系统中，以联合优化前端和后端组件。具体来说，我们将SLAM重新构建为前端和后端之间的双层优化（BLO）：

前端里程计网络和后端优化在 iSLAM 中是灵活选择的。这里我们举一个例子，使用立体视觉惯性里程计网络作为前端，姿态-速度图优化作为后端（Fu et al. 2024）。具体而言，前端里程计包括两个独立的高效模块，即立体里程计网络和 IMU 网络（Qiu et al. 2024）。立体里程计网络负责姿态估计，而 IMU 网络同时估计姿态和速度。这些估计结果随后被作为约束（边）纳入后端姿态-速度图中，连接姿态和速度节点。这种设置允许优化姿态和速度节点，以减少视觉和惯性测量之间的不一致性。因此，LL 成本 L 可以是图节点之间的任何估计不一致性：

iSLAM 的结构形成了一种自监督学习方法。在后端（低层），通过 PVGO 调整机器人的路径，以确保视觉和惯性运动估计之间的几何一致性；而在前端（高层），模型参数根据从后端获得的知识进行更新，从而提高其在未见环境中的表现和泛化能力。这种在 IL 框架下的公式化方法将前端和后端无缝集成到一个统一的优化问题中，促进了两者之间的互相增强。

优化可以利用方程 (29) 计算隐式梯度。然而，由于 (47) 的独特性，我们可以应用一种高效的近似方法，称为“一步”反向传播策略。该策略利用了驻点的性质，从而避免了展开内部优化迭代的过程。具体而言，根据链式法则，U对的梯度是

其中是S次采样中的一个实例。与对数导数估计器相比，重参数化估计器具有较低的方差，但有时当模型假设与真实数据不完全一致，或者模型中有近似时，会引入偏差（Li等人，2022a）。重参数化技巧也经过了充分研究，并广泛应用于变分自编码器（Doersch，2016）。

控制变量估计器 接下来我们介绍一种简单但有效的基于控制变量的方差减少估计器，如引理2中定义的。它已广泛应用于蒙特卡洛估计方法（Nelson，1990；Geffner和Domke，2018；Richter等人，2020；Leluc等人，2022）。

示例 5：最小-最大 MTSP

多旅行商问题（MTSP）寻求为多个代理找到路径，使得所有城市都被恰好访问一次，同时最小化定义在路径上的一个成本函数。MTSP在许多机器人应用中至关重要，这些应用要求一组机器人共同访问一组目标位置，例如无人机（Sundar和Rathinam，2013；Ma等人，2019）、自动化农业（Carpio等人，2021）、仓库物流（Wurman等人，2008；Ren等人，2023b）。MTSP以其NP难问题而闻名（Bektas，2006）。直观地说，MTSP涉及许多决策变量，包括将城市分配给代理以及确定分配城市的访问顺序。例如，一个有100个城市和10个代理的MTSP涉及可能的解决方案，而可观测宇宙中的原子数量估计为“仅”（Gazta˜naga，2023）。

MTSP可以分为最小-和 MTSP和最小-最大 MTSP。直观地说，最小-和 MTSP旨在最小化所有代理的路径长度之和，而最小-最大 MTSP旨在减少最长路径的长度。尽管最小-和 MTSP已经得到了广泛研究（Bertazzi等人，2015），但最小-最大 MTSP仍然未被充分探索，许多适用于最小-和 MTSP的技术可能不直接适用于最小-最大 MTSP。从基于学习的角度看，最小-最大 MTSP特别具有挑战性，因为最小-最大操作不可微分，这使得使用基于梯度的优化更加困难，并导致寻找全局最优解的过程更加复杂。在这个例子中，我们将专注于最小-最大 MTSP，而我们的方法也可能适用于最小-和 MTSP。为了简洁起见，除非另有说明，我们将使用缩写“MTSP”来指代最小-最大 MTSP。

背景：由于高复杂性，经典的MTSP求解器，如Google的OR-Tools路由库，在处理大规模问题时遇到困难，例如那些有500多个城市的问题（Furnon和Perron，2023）。为了克服这个问题，人们明显转向使用神经网络模型来解决MTSP（Hu等人，2020；Xin等人，2021；Miki等人，2018；Vinyals等人，2015；Kool等人，2018；Nazari等人，2018；Park等人，2021；Ouyang等人，2021；Khalil等人，2017；Costa等人，2020；Wu等人，2021）。然而，这些方法仍然存在根本性的限制，特别是在它们对新情况的泛化能力，以及在为大规模问题持续找到高质量解决方案的能力方面。监督模型在小规模问题上受到有限的监督，并且缺乏对大规模实例的可行监督，导致泛化能力差（Xin等人，2021；Miki等人，2018；Vinyals等人，2015）。基于强化学习（RL）的方法通常利用策略梯度算法的实现，如Reinforce算法（Williams，1992）及其变体。然而，它们经常面临收敛缓慢和高度次优解决方案的问题（Hu等人，2020；Park等人，2021）。其他策略，如训练贪婪策略网络（Ouyang等人，2021；Nazari等人，2018；Kool等人，2018；Khalil等人，2017）和迭代改进解决方案（Costa等人，2020；Wu等人，2021），也被提出，但往往会陷入局部最优。

这通过非可微的TSP求解器和离散决策空间为分配网络提供了低方差的梯度估计。再次强调，L和L'被视为常数，而不是网络参数的函数。

5 实验

接下来，我们将通过评估五个机器人示例来展示IL在机器人自主性中的有效性，这些示例包括自动驾驶中的逻辑推理、移动机器人的路径规划、无人机的模型预测控制、移动机器人的SLAM以及多智能体协作的最小-最大MTSP，并将其性能与各自领域中的最新技术算法进行比较。

5.1 路径规划

在本节中，我们将分别对全局规划的iA*和局部规划的iPlanner进行实验。

示例 A：全局路径规划

为了展示IL在全局规划中的有效性，我们将对iA*进行定性和定量评估。

5.1.1 基线

为了评估所提出的iA*框架的泛化能力，我们选择了经典和数据驱动方法作为基线进行比较。具体来说，我们将iA*与流行的经典方法加权A*（Pohl，1970）以及最新的数据驱动和开源方法进行比较，包括神经A*（Yonetani等人，2021b）、带有路径概率图的焦点搜索（FS + PPM）和带有校正因子的加权A*（WA* + CF）（Kirilenko等人，2023）。

5.1.2 数据集

为了在多样化的环境中评估 iA*，我们选择了路径规划中广泛使用的三个数据集：Motion Planning (MP)（Bhardwaj等人，2017）、Matterport3D（Chang等人，2017）和Maze（Ivanitskiy等人，2023）。具体来说，MP数据集包含了来自八个环境的一组二进制障碍物地图；Matterport3D数据集提供了多样化的室内截断有符号距离函数（TSDF）地图；Maze数据集包含了复杂的迷宫型地图。为了更好地评估泛化能力，我们随机采样起点和目标位置，遵循（Yonetani等人，2021b）以提供更多样的地图。需要注意的是，所有方法仅使用MP数据集进行训练，并使用Matterport3D和Maze进行测试，这是为了展示它们的泛化能力。

5.1.3 指标

为了评估不同算法的性能，我们采用了广泛使用的指标，包括节点探索减少比率（Exp）（Yonetani等人，2021b）和时间减少比率（Rt）。Exp是相对于经典A*减少的搜索区域的比率，可以定义为 Exp = 100 × (S* - S) / S*，其中 S 表示方法的搜索区域，S* 是经典A*的搜索区域。Rt是相对于经典A*节省时间的比率，可以定义为 Rt = 100 × (t* - t) / t*，其中 t 是方法的运行时间，t* 是经典A*的运行时间。直观地说，Exp旨在衡量搜索效率，而Rt旨在衡量运行时间效率。

5.1.4 定量性能

由于经典A*在大型地图上的搜索效率较差，我们将地图调整为不同的大小，包括64×64、128×128和256×256，以进一步展示不同算法的效率。

表2总结了在MP数据集上的性能。可以看出，尽管iA*在64×64地图大小中排名第二，但它在更大尺寸的128×128和256×256地图上表现出色。具体来说，与最新的技术方法Neural A*相比，它在256×256地图大小上提高了23%的运行时间效率Rt。这表明iA*在大型地图上具有优势，证明了上层预测成本函数在减少LL路径规划搜索空间方面的有效性。我们观察到，由于FF+PPM和WA*+CF整合了注意力机制，它们受限于输入实例的固定形状。它们的网络架构包括全连接（FC）层，这要求预定义的输入和输出形状。这些FC层中的参数数量随着不同输入和输出形状的变化而变化。因此，需要进行调整和重新训练程序以适应不同输入实例的形状。

表3总结了在Matterport3D数据集上的路径规划性能，其中iA*在所有指标和地图大小上都优于所有方法。具体来说，iA*在搜索效率Exp和运行时间效率Rt方面比最新技术方法神经A*分别提高了12.7%和37.4%。值得注意的是，FS+PPM是在MP数据集中64×64地图类别排名第一的方法，在Matterport3D数据集上表现最差，这表明FS+PPM过度拟合于MP数据集，无法泛化到其他类型的地图。

表4总结了在Maze数据集上的路径规划性能，该数据集因其复杂的路线而被认为是最困难的地图类型。可以看出，FS+PPM算法表现不佳，甚至比经典A*搜索增加了105%的操作时间和8.9%的搜索区域。此外，iA*在大型地图上显示出最显著的运行时间效率提升，即比神经A*提高了64.2%的Rt性能。这进一步证明了IL框架的泛化能力。

5.1.5 定性性能

接下来，我们在图9中可视化所有方法的定性性能，其中每一行分别展示了来自MP、Matterport3D和Maze数据集的代表性示例。具体来说，绿色区域和红线分别代表每种方法找到的搜索空间和最优路径。对于MP数据集，如图9的第一行所示，观察到所有方法的搜索空间都比经典A*小，我们的iA*有最小的搜索空间，表明iA*实现了最佳的整体效率。还观察到神经A*找到的路径不平滑，所有其他数据驱动方法在路径形状和长度上都略有差异。这进一步表明了我们的iA*框架的有效性。

图9的第二行显示了来自Matterport3D数据集的路径规划结果，主要关注室内场景。可以看出，FS+PPM和WA*+CF的搜索空间比其他方法大。值得注意的是，FS+PPM的搜索空间比经典A*大。此外，不同方法找到的所有最优路径都接近经典A*的最优路径。

在图9的第三行中，我们展示了所有基线方法在Maze数据集中迷宫型地图的性能。从这些示例中可以观察到，所有数据驱动方法都成功地提高了比经典A*的搜索效率。此外，iA*有最小的搜索空间，这意味着它甚至可以大幅提高迷宫级别复杂地图的搜索效率。

示例 B：局部路径规划

5.1.6 基线

为了评估IL在局部路径规划中的鲁棒性和效率，我们将iPlanner与经典和数据驱动方法进行比较。具体来说，我们将与SOTA经典规划器之一，运动原语规划器（MPP）（Zhang等人，2020b；Cao等人，2022）进行比较，该规划器在DARPA地下挑战（SubT）中获得了大多数探索区域的第一名（DARPA）。此外，我们还将与数据驱动方法进行比较，包括基于监督学习（SL）的方法（Loquercio等人，2021）和基于强化学习（RL）的方法（Hoeller等人，2021），分别简称为SL方法和RL方法。

值得注意的是，MPP集成了一个360°激光雷达作为随载传感器，而iPlanner和数据驱动方法仅使用深度相机，其视野更窄（87°），测距测量更嘈杂（15Hz）。特别指出，RL方法针对的是向下倾斜（30°）的相机进行训练，而SL方法使用了面向前方的相机设置。为了公平起见，iPlanner将在两种相机设置下进行评估，即iPlanner和iPlanner（Tilt），尽管它仅针对面向前方的相机进行了训练。

5.1.7 平台

为了全面评估局部规划算法的性能，我们选择了由（Cao等人，2022）设置的四种不同的模拟环境，包括室内、车库、森林和Matterport3D（Chang等人，2017）。在每个环境中，随机选择30对起点和终点位置在可通行区域内进行全面评估。值得注意的是，这些环境中的任何一个在训练期间都未被iPlanner和基线数据驱动方法观察到。具体来说，使用带有2.6 GHz Intel i9 CPU和NVIDIA RTX 3080 GPU的笔记本电脑来运行所有方法。

5.1.8 指标

将使用路径长度加权的成功率（SPL）进行评估（Anderson等人，2018）。它已被各种路径规划系统广泛采用（Yokoyama等人，2021；Ehsani等人，2024）。

5.1.9 定量性能

表5详细列出了iPlanner和所有基线方法的总体性能。值得注意的是，iPlanner在SPL方面比SL方法平均提高了87%，比RL方法提高了26%。此外，iPlanner甚至在大多数环境中的表现超过了使用激光雷达进行感知的MPP。这进一步证明了我们IL框架的鲁棒性和可靠性。

5.1.10 现实世界测试

我们采用了配备NVIDIA Jetson Orin和Intel Realsense D435前置深度相机的ANYmal腿部机器人（Hutter等人，2016）。现实世界实验涉及室内、室外和混合环境中的动态和静态障碍物。机器人由人类操作员给出一系列路径点，如图10所示。具体来说，机器人穿过门道、绕过静态和动态障碍物以及上下楼梯。这些试验旨在测试iPlanner在多变和不可预测的环境条件下的适应性和可靠性。在测试期间，iPlanner能够在线生成可行路径，并引导机器人安全、顺畅地通过所有区域，这展示了我们IL框架的泛化能力。

5.2 逻辑推理

我们进行交通中多智能体的视觉动作预测任务，以评估我们IL框架的有效性。

5.2.1 数据集

LogiCity中的VAP任务（Li等人，2024）整合了概念定位和涉及智能体概念和空间关系的逻辑推理。它比其他具有结构化低维数据的逻辑推理基准测试更具挑战性，例如BlocksWorld（Dong等人，2019）或知识图谱（Cropper和Morel，2021）。主要原因是LogiCity需要从城市环境中变化的智能体分布中学习抽象概念；此外，它还涉及具有多样化视觉外观的高维图像数据，然而，相比之下，BlocksWorld只包含二进制向量。

具体来说，这个基准测试包括受一阶逻辑（FOL）规则约束的多种类型的智能体的2D RGB渲染。训练集包括100个不同的城市环境和12个智能体，验证集包括20个环境和14个智能体，测试集包含20个环境和14个智能体。每个环境包括100个刺激步骤，同一子集中的每个世界内智能体类型保持一致。值得注意的是，验证和测试集中的14个智能体组是不同的，这旨在展示模型的泛化能力。根据难度，任务分为两种模式，即简单和困难。在每个时间步骤中，智能体执行四种动作之一：慢速、正常、快速和停止。简单模式排除了快速动作，而困难模式包括所有四种动作，导致动作受到更复杂规则的约束。VAP任务中的行动是不平衡的；例如，困难模型中的快速动作发生频率大约只有其他动作的1/4到1/9，这使得规则归纳更加复杂。

5.2.2 指标

为了全面评估模型性能，我们使用加权准确率（wAcc）、wAcc的方差和每个动作的预测召回率作为指标。特别是，wAcc更加强调不频繁出现的数据，反映了泛化能力；wAcc的方差意味着算法的优化稳定性；召回率评估模型学习约束每个动作的规则的准确性。

5.2.3 基线与实现细节

由于很少有文献研究RGB图像上的一阶逻辑（FOL）推理，我们没有太多的基线。因此，我们采用了LogiCity（Li等人，2024）中提出的方法，涉及最新的视觉编码器和推理引擎。特别地，我们进行了两种方法的实验：

1. ResNet+NLM：ResNet作为视觉编码器，NLM作为推理引擎；

2. iLogic（我们的）：在IL框架内训练“ResNet+NLM”，其中NLM是低层问题。具体来说，视觉编码器包括一个概念预测器和一个关系预测器。概念预测器包括一个ResNet FPN和一个ROI-Align层，然后是一个4层MLP来预测智能体概念（一元谓词）。关系预测器包括一个3层MLP，将成对的智能体信息编码成智能体关系（二元谓词）。推理引擎涉及一个呼吸为3、深度为4的NLM。视觉编码器和推理引擎分别采用两个AdamW优化器，学习率为0.001。

5.2.4 评估结果

为了公平，我们通过每次实验运行10次并报告它们的平均性能来减轻训练过程中随机性的影响。如表6和表7所示，使用iLogic的大多数动作的预测召回率在简单和困难模式下都高于或等于基线。这证明了我们的iLogic可以更有效地学习约束大多数动作的规则。

鉴于动作数量的不平衡，同时归纳所有受限规则是具有挑战性的。然而，iLogic在wAcc上表现出显著的改进，在简单和困难模式下分别提高了2.2%和10.5%的性能，展示了其更强的泛化能力。此外，wAcc的方差在简单和困难模式下分别降低了31.3%和67.1%，这表明使用IL框架具有更高的优化稳定性。

我们在图11中展示了几个定性示例，展示了如何从学习到的规则中预测动作。由于LogiCity中的动作受到明确规则的约束，模型必须正确学习这些规则才能预测动作。可以看到，iLogic可以归纳出右侧感知到的规则，并在每个示例的左侧获得准确的动作。

5.3 最优控制

为了验证iMPC框架的有效性，我们在四旋翼无人机的姿态控制上对其进行了测试。具体来说，我们将展示它在不同初始条件和阵风影响下稳定（悬停）无人机的能力。

5.3.1 基线

为了展示IL框架联合优化数据驱动的IMU模型和MPC的有效性，我们选择了四个基线，包括（1）IMU+MPC：经典的IMU积分器与常规Diff-MPC；（2）IMU++MPC：数据驱动IMU模型与常规Diff-MPC；（3）IMU+MPC+：具有可学习转动惯量（MOI）的经典IMU积分器与Diff-MPC；以及（4）iMPC（我们的）：使用IL框架训练的IMU+与MPC+。具体来说，“IMU+”是指来自（Qiu等人，2024）的数据驱动IMU去噪和积分模型。

5.3.2 实现细节

由于效率考虑，我们为数据驱动的IMU模型使用了一个轻量级网络，该网络包括一个2层多层感知器（MLP）作为编码器，从加速度计和陀螺仪获取特征嵌入。实现了两个解码器，每个解码器包括两个线性层，以解决加速度计和陀螺仪所需的具体校正。这些解码器专门用于准确预测每种传感器类型所需的调整，从而提高IMU在动态条件下的整体精度。对于编码器和解码器，我们使用GELU作为激活函数，因为它在促进更平滑的非线性转换方面的有效性。

5.3.3 模拟环境

为了准确测量不同控制器的性能，我们为四旋翼无人机构建了一个模拟环境，该环境具有标准的6自由度（DoF）动力学模型，运行频率为1kHz（Gabriel等人，2007；Abdellah和Abdelaziz，2004），以及一个运行频率为200Hz的随载IMU传感器。为了模拟现实世界的影响，如环境干扰、执行器不确定性、传感器噪声和其他未知行为，我们向控制输入注入标准差为1e-4的零均值高斯噪声，以及向无人机姿态注入标准差为8.73e-2的零均值高斯噪声，均以1kHz的频率。此外，我们采用了爱普生G365 IMU记录的传感器噪声模型，包括初始偏差、偏差不稳定性和随机游走，既适用于加速度计也适用于陀螺仪。这产生了与使用视觉-惯性里程计系统（Xu等人，2023）进行姿态估计的典型无人机跟踪系统相同的噪声水平。

5.3.4 指标

为了评估控制器的性能，我们使用三个广泛使用的指标，包括稳定时间（ST）、均方根误差（RMSE）和稳态误差（SSE）。具体来说，ST是无人机进入并保持在最终稳定姿态±1.5°内的时间，衡量系统稳定的速度；RMSE是估计姿态与期望姿态之间差异的均方根；SSE是稳定姿态与期望姿态之间的绝对差异，评估控制精度。

5.3.5 对初始条件的鲁棒性

我们首先评估无人机姿态控制在不同初始条件下的性能。表8显示了在所有三个欧拉角（横滚、俯仰和偏航）的初始姿态为10°至20°时不同控制器的性能。每个实验重复了10次，以确保结果的准确性和可靠性。显然，我们的iMPC可以在测试范围内的所有初始条件下稳定无人机。同样值得注意的是，所有方法都显示出稳定的性能，标准差较小，因此我们在表格中省略了这些数字。与基线方法相比，iMPC最终具有更小的SSE、RMSE和ST。图12显示了一个例子，即使初始条件为20°，无人机姿态也能迅速返回到使用我们的iMPC的稳定（零）状态。

为了研究低层MPC如何帮助上层IMU学习，我们在表8的最后一列显示了IMU姿态估计性能。我们可以看到，由于动力学的物理知识以及低层MPC，IMU模块的去噪和预测性能与单独训练的情况相比得到了显著提升。因此，命令式学习框架强制提高了IMU网络和最终控制性能。

由于无人机的转动惯量（MOI）是在iMPC中学习的，展示IL学习过程后最终估计的MOI接近真实值是很重要的。为了说明这一点，我们设定了一个初始MOI，其偏移量为其真实值的50%，并在表9中显示了使用iMPC最终估计的MOI误差。可以看到，iMPC可以学习MOI，最终误差小于3.5%。此外，如果我们联合考虑表8和表9中的性能，并将iMPC与IMU++MPC进行比较，以及将IMU+MPC+与IMU+MPC进行比较，其中“MPC+”表示学习到的MOI在控制回路中，我们可以得出结论，更好的学习到的MOI可以带来更好的姿态控制性能，具有更小的SSE和稳定时间。

5.3.6 对风扰动的鲁棒性

5.4 SLAM

接下来，我们将全面评估iSLAM框架在估计精度和运行时间方面的表现。我们还将提供对IL带来的独特能力的评估，包括SLAM系统前端和后端之间的相互增强，以及其对新环境的自监督适应能力。

5.4.1 数据集

为确保全面评估，我们采用了三个广泛使用的数据集，包括KITTI（Geiger等人，2013）、EuRoC（Burri等人，2016）和TartanAir（Wang等人，2020）。它们具有多样的环境和运动模式：KITTI包含驾驶场景中的高速长距离运动，EuRoC具有室内环境中的激烈运动，TartanAir提供了具有各种照明和移动物体的具有挑战性的环境。

5.4.2 指标

遵循先前的工作（Qiu等人，2022），我们使用广泛使用的绝对轨迹误差（ATE）、相对运动误差（RME）以及旋转和平移漂移的均方根误差（RMSE）作为评估指标。

5.4.3 精度评估

我们首先在KITTI数据集上评估iSLAM的定位精度，该数据集已在各种传感器设置的先前工作中广泛使用。为了便于公平比较，在表12中，我们将我们的独立视觉里程计（VO）组件与现有的VO网络进行评估，包括DeepVO（Wang等人，2017b）、UnDeepVO（Li等人，2018）、TartanVO（Wang等人，2021b）和DROID-SLAM（Teed和Deng，2021），并将完整的iSLAM与其他基于学习的视觉-惯性方法进行比较，这些方法是Wei等人（2021）、Yang等人（2022a）和DeepVIO（Han等人，2019）。在我们的实验中省略了序列00和03，因为它们缺乏完整的IMU数据。值得注意的是，一些方法如DeepVO和（Yang等人，2022a）在KITTI上接受了监督训练，而我们的iSLAM是自监督的。尽管如此，iSLAM仍然超越了所有竞争对手。此外，值得注意的是，我们的基础模型TartanVO并没有展现出最高的性能，这归因于其轻量级设计。尽管如此，通过命令式学习，我们在类似的模型架构上实现了更低的误差。图14显示了序列05上的轨迹和重建结果。

我们还在EuRoC基准上测试了iSLAM，其中激烈运动的存在、显著的IMU漂移和显著的照明变化对SLAM算法构成了显著挑战（Qin等人，2018）。然而，我们独立的视觉里程计和完整的iSLAM都能很好地泛化到EuRoC。如表13所示，iSLAM的平均ATE比DeepV2D（Teed和Deng，2018）低62%，比DeepFactors（Czarnowski等人，2020）低76%，比TartanVO（Wang等人，2021b）低42%。

5.4.4 鲁棒性评估

在本节中，我们评估iSLAM与其他竞争对手的鲁棒性，包括广泛使用的ORB-SLAM2（Mur-Artal和Tardós，2017）、ORB-SLAM3（Campos等人，2021）和一种新的混合方法AirVO（Xu等人，2023）。在TartanAir（Wang等人，2020）中使用了两个“Hard”级别的测试环境，即Ocean和Soulcity。Ocean环境有动态物体，如鱼和气泡，而Soulcity具有复杂的照明，包括降雨和闪光效果。它们的挑战性导致其他方法多次失败。如表14所示，在18个测试序列中，ORB-SLAM2在11个序列上失败，ORB-SLAM3在7个序列上失败，AirVO在6个序列上失败。相比之下，iSLAM准确地跟踪了所有序列，显示出最佳的鲁棒性。

5.4.5 效率分析

效率是现实世界机器人应用中SLAM系统的关键因素。在这里，我们在RTX4090 GPU上对iSLAM进行了效率评估。我们的立体视觉里程计可以达到29-31帧每秒（FPS）的实时速度。尺度校正器仅使用大约11%的推理时间，因此对整体效率影响很小。IMU模块平均速度为260 FPS，而后端独立评估时达到64 FPS。整个系统运行速度约为20 FPS。值得注意的是，命令式学习框架在不同的前端和后端设计之间提供了广泛的适用性，允许在准确性和效率之间进行极大的灵活性。接下来，我们测量了我们在梯度计算期间“一步”反向传播策略与传统展开方法（Tang和Tan，2018；Teed和Deng，2021）的运行时间。观察到显著的运行时间差距：我们的“一步”策略平均比展开方法快1.5倍。

5.4.6 有效性验证

接下来，我们验证了命令式学习在促进iSLAM中前端和后端组件之间相互改进方面的有效性。图15描述了ATE的减少和相对于命令式迭代的误差百分比。一个命令式迭代指的是在整个轨迹上前端和后端之间的一个前向-反向循环。如图15a所示，VO和PVGO的ATE在整个学习过程中都在减少。此外，它们之间的性能差距正在缩小，表明VO模型已经通过BLO有效地从后端学习了几何知识。图15b进一步证明，经过50次迭代后，命令式学习使我们的VO网络平均误差减少了22%，IMU模块减少了4%。同时，前端的性能提升也使PVGO结果平均提高了约10%。这一结果证实了前端和后端组件之间的相互校正在提高整体准确性方面的有效性。

估计的轨迹在图16中可视化。如观察到的，通过更新的VO模型估计的轨迹更接近真实值，这进一步表明了IL框架在SLAM中的有效性。

5.4.7 适应新环境

由于iSLAM是一个自监督学习框架，我们可以实现在线学习：由于不需要标签，网络可以在执行任务的同时学习适应新环境。为了验证这一假设，我们进行了一个实验，其中VO模型在KITTI数据集中几个随机的一半序列上进行训练，然后在剩余的一半上进行测试。结果如表15所示。可以看到，与预训练模型相比，自监督训练后ATE减少了14%-43%。值得注意的是，预训练模型之前从未在KITTI上训练过。这表明命令式学习使VO网络能够通过从后端获取几何知识来适应新环境。

5.5 最小-最大MTSP

接下来，我们将展示我们的iMTSP在泛化能力、计算效率和收敛速度方面的性能。

5.5.1 基线

为了全面评估不同方法在MTSP中的性能，我们将我们的iMTSP与经典方法和基于学习的学习方法进行比较。这包括由Google OR-Tools路由库实现的众所周知的元启发式方法（Furnon和Perron，2023）和基于强化学习的方法（Hu等人，2020），分别简称为Google OR-Tools和RL基线。具体来说，Google OR-Tools可以为只有几百个城市的MTSP提供接近最优的解决方案，而RL基线可以解决更大规模的MTSP，例如有一千个城市。我们无法与其他方法（如Liang等人，2023；Gao等人，2023；Park等人，2021）进行比较，因为它们要么没有提供源代码，要么不能应用于我们的设置。

5.5.2 数据集

大多数现有方法可以处理大约150个城市的MTSP，但当城市数量达到400个或更多时，它们的性能将显著下降。为了展示iMTSP的泛化能力和处理大规模问题的能力，我们在50到100个城市的训练集上进行实验，但在400到1000个城市的问题上测试模型。我们认为这种具有挑战性的设置可以反映所提出模型的泛化能力。由于MTSP的独特性，我们无法在如此大规模的机器人团队上部署MTSP算法，因此我们构建了一个模拟进行比较。具体来说，所有数据实例都是通过在单位矩形中均匀采样点生成的，使得x和y坐标的范围都在0到1之间。测试集由独立同分布的样本组成，但如前所述，城市数量更多（400到1000个）。

5.5.3 实现细节

我们的分配网络结构与（Hu等人，2020）中类似，其中城市和代理被嵌入到64维向量中。

替代网络是一个三层的多层感知器（MLP），其隐藏层维度为256，激活函数为“tanh”。此外，Google OR-Tools为我们的iMTSP提供了TSP求解器。它使用“全局最便宜弧”策略生成初始解，并使用“引导式局部搜索”进行局部改进。我们在所有实验中使用了Google OR Tools中最佳推荐的设置。所有测试都是在同一台桌面级计算机上本地进行的。

5.5.4 定量性能

接下来，我们提供iMTSP在解决方案质量方面的定量证据，特别是在最大路线长度方面，详细见表16。可以看出，iMTSP实现的最大路线长度比Google OR-Tools短达80%，后者在给定的300秒时间预算内无法收敛到局部最小值。

另一方面，iMTSP在大多数情况下比RL基线提供了更好的解决方案。平均来说，iMTSP的最大路线长度比RL基线短3.2 ± 0.01%。当模型用100个城市进行训练时，随着代理数量从10个增加到15个，路线长度的差异从0.4%单调增加到8.0%，从3.4%增加到8.9%。这些结果表明，通过我们基于控制变量的优化算法提供的低方差梯度，iMTSP在大规模实例上训练时通常能够收敛到更好的解决方案。

5.5.5 效率分析

由于iMTSP包含数据驱动的分配网络和经典的TSP求解器，因此确定架构的瓶颈对于未来的改进至关重要。如表17所示，对于5、10和15个代理，我们的模型分别需要4.85秒、1.98秒和1.35秒来解决一个有1000个城市的实例。值得注意的是，随着代理数量的增加，计算时间减少。这一结果表明，主要的计算瓶颈是TSP求解器而不是分配网络，因为更多的代理意味着分配网络中更多的参数，但每个代理平均城市数量更少。进一步减少iMTSP计算时间的一个可能方向是创建多个线程以并行运行TSP求解器，因为iMSTP低层优化中的TSP是独立的。

5.5.6 定性性能

接下来，我们对MTSP求解器进行定性分析，并在图17中展示了两个代表性实例，不同的颜色表示不同的路线。可以观察到两个基线都存在次优模式，但在iMTSP中很少存在。例如，我们可以观察到Google OR-Tools的循环部分路线，如实例#1中的绿色和紫色路线，通过简单地在重叠点解循环可以减少路线长度。同样，在RL基线的实例#2中，蓝色和紫色存在长直线部分路线，这表明那些代理旅行了很长的距离，但只访问了2个城市，例如部分路线的起始城市和终端城市。这些观察为iMTSP的优势提供了进一步的直观理解。

5.5.7 梯度方差

如第4.5节所示，我们基于控制变量的iMTSP框架预期比RL基线具有更小的梯度方差。我们通过在训练过程中明确记录小批量梯度方差来验证这一假设。实验分别用10个代理访问50个城市和100个城市进行了两次。训练数据的批量大小为512，被分成几个包含32个实例的小批量。我们计算并存储每个小批量的梯度，然后计算整个批量的方差。分配网络的参数仍然使用整个批量的平均梯度进行更新。图18显示了梯度方差与训练过程的关系，其中水平轴表示训练迭代次数，垂直轴表示平均对数梯度方差。值得注意的是，我们的iMTSP的梯度比RL基线（Hu等人，2020）快约20倍收敛，这验证了我们基于控制变量的双层优化过程的有效性。

6 结论与讨论

我们介绍了命令式学习，这是一种自监督的神经-符号学习框架，旨在增强机器人自主性。命令式学习通过整合神经方法的表现力和符号方法的泛化能力，为开发神经-符号系统提供了系统化的方法。我们展示了五个不同的机器人自主性应用：路径规划、规则归纳、最优控制、视觉里程计和多智能体路由。每个应用分别示例了解决低层问题的不同优化技术，即闭式解、一阶优化、二阶优化、约束优化和离散优化。这些示例展示了命令式学习的多功能性，我们期望它们能激发机器人自主性领域的进一步研究。

与其他机器人学习框架类似，命令式学习也有其缺点并面临许多未解决的挑战。机器人学通常涉及高度非线性的现实世界问题，双层优化的理论假设并不总是成立，尽管在许多任务中实际上很有效，但缺乏收敛和稳定性的理论保证。此外，与数据驱动模型不同，双层优化的训练过程需要仔细实施。此外，将命令式学习应用于新问题并不直接。研究人员需要深入理解问题，以确定将任务适当分配给各个模块（神经、符号或存储），基于每个模块的优势。例如，神经模型可能在涉及动态障碍物检测和分类的任务中表现出色，而符号模块可能更适合基于规则和逻辑约束推导和优化多步导航策略。

我们相信，命令式学习的理论挑战也将激发双层优化基础研究的新方向和主题。例如，由于时间和内存限制，机器学习中的二阶双层优化仍然未被充分探索。然而，它在机器人学中的重要性日益增加，因为在复杂任务中实现所需精度的二阶优化至关重要。此外，在一般双层优化设置中处理低层约束提出了重大挑战，并且仍然是一个发展不足的领域。最近的进展，如基于近拉格朗日价值函数的进展（Yao等人，2024，2023），为约束机器人学习问题提供了潜在的解决方案。我们打算调查稳健的方法，并将这些技术应用于增强命令式学习的实验结果。此外，我们计划为涉及离散变量的双层优化开发启发式但实用的解决方案，我们旨在利用控制变量估计的最新进展，为这些离散场景完善理论框架，减少假设。

为了提高命令式学习在机器人自主性中的可用性，我们将扩展PyPose（Wang等人，2023；Zhan等人，2023），这是一个用于机器人学习的开源Python库，以纳入双层优化框架。此外，我们将提供使用PyPose在各个领域进行命令式学习的确切示例，从而加速机器人自主性的进展。

http://mp.weixin.qq.com/s?__biz=MzA5MDMwMTIyNQ==&mid=2649401257&idx=1&sn=085003e77c7c1012b5d8f25d6518d414

CreateAMind

ALLinCreateAMind.AGI.top ，前沿AGI技术探索，论文跟进，复现验证，落地实验。鼓励新思想的探讨及验证等。探索比大模型更优的智能模型。