Code:用神经符号AI解决机器人强化学习等问题,sairlab系列论文代码

科技   2024-09-15 09:42   上海  

代码:https://sairlab.org/iseries/

命令式学习(IL)是一种用于机器人自主的自监督神经符号学习框架。

IL的原型首先在iSLAM论文中提到,然后在这篇长文中正式定义它:

  1. 命令式学习:机器人自主的自监督神经符号学习框架

    王晨、季凯一、耿俊义、任中强、付泰萌、杨范、郭一凡、何浩楠、陈翔宇、詹子潼、杜其伟、苏少书、李博文、邱宇恒、杜一、李启航、杨一凡、晓琳、赵志鹏。

    arXiv 预印本 arXiv:2406.16087,2024年。

系列收集了SAIR实验室的文章,以“命令式学习”中的主角“i”命名。在iSeries系列中,IL已应用于各种任务,包括路径规划、特征匹配和多机器人路由等。

iSeries 文章列表

  1. iMatching:命令式对应学习

    詹子潼,高大松,林云柔,夏友杰,王晨。

    欧洲计算机视觉会议 (ECCV) ,2024 年。

  2. iMTSP:用命令式学习解决最小-最大多个旅行商问题

    郭一凡,任忠强,王晨。

    IEEE/RSJ 智能机器人与系统国际会议 (IROS) ,2024 年。


  3. iSLAM:命令式SLAM 。

    付太孟,苏少树,卢毅仁,王晨。

    IEEE 机器人与自动化快报 (RA-L) ,2024 年。

  4. iA*:基于命令式学习的 A* 寻路搜索

    陈翔宇、杨范、王陈。

    arXiv 预印本 arXiv:2403.15870,2024年。



  5. iPlanner:命令式路径规划

    范阳、王晨、塞萨尔·卡德纳、马可·哈特。

    机器人技术:科学与系统 (RSS) ,2023。




本博客将从高层次的角度简要解释IL,读者可以在论文中找到更深入的解释。

读者还可以在此链接中找到一张幻灯片,它提供了更具交互性的格式。

IL是为了缓解强化学习模仿学习等机器人学习框架的挑战。

为什么我们需要神经符号人工智能?

  • 结合神经方法和符号方法的优点。

  • 克服现有机器人学习框架的挑战。

什么是神经符号人工智能?

  • 关于神经符号(NeSy)人工智能尚未达成共识。

  • 我们有狭义和广义的定义,区别主要在于“符号”的范围。

现有神经符号人工智能的例子?

  • 尽管许多方法没有明确说明这一点,但它们可以被视为神经符号人工智能。

为什么我们需要命令式学习?

  • 命令式学习是一种自我监督的神经符号学习框架

  • 它旨在通过基于双层优化的单一设计来克服这四个挑战

    • 泛化能力有限、黑盒性质、标签密集、次优。

什么是命令式学习?

  • 命令式学习(IL)的框架由三个主要模块组成,包括神经感知网络符号推理引擎通用记忆系统

  • IL被制定为特殊的双层优化,实现三个模块之间的相互学习和相互修正。

 自我监督的本质
  • 由于许多符号推理引擎(包括几何、物理和逻辑推理)可以在不提供标签的情况下进行优化或解决。

    • 例如,A  搜索、几何推理(例如束调整(BA))和物理推理(例如模型预测控制(MPC))可以在不提供标签的情况下进行优化。

  • IL框架利用这一现象,通过双层优化的方式对三个模块进行联合优化,强制三个模块相互纠正。

  • 因此,所有三个模块都可以通过观察世界以自我监督的方式学习和进化。

  • 尽管 IL 是为自监督学习而设计的,但它可以通过在 UL 或 LL 成本函数或两者中涉及标签来轻松适应监督或弱监督学习。

克服其他挑战。
  • 由于其可解释的设计,符号模块提供了更好的可解释性泛化能力

  • 与单独训练神经模块和符号模块相比,最优性是由双层优化带来的。

 优化挑战
  • IL的求解主要涉及UL参数的求解 θ 和 γ 和 LL 参数 μ 和 ν 。

  • 直观上,通常是类神经元权重的 UL 参数可以用 UL 成本 $U$ 的梯度进行更新:

应用和示例

  • 本文提供了五个不同的示例,涵盖了 LL 任务的不同情况。


 路径规划

在 LL 任务具有封闭式解决方案的情况下,我们提供了全局和局部路径规划的示例。

 全局路径规划
  • 一个  由于其最优性而被广泛使用,但由于其搜索空间大而常常效率低下。

  • 因此,我们可以利用神经模块来预测有限的搜索空间,从而提高整体效率。

  • 我们取A  作为符号推理引擎,基于IL以自监督的方式训练神经模块。

  • 这产生了一个新的框架,称为iA  。

 局部路径规划
  • 端到端本地路径规划最近引起了相当大的兴趣,特别是因为它具有实现高效推理的潜力。

  • 基于强化学习的方法常常面临样本效率低下以及直接处理深度图像的困难。

  • 基于模仿学习的方法在很大程度上依赖于标记轨迹的可用性和质量。

  • 为了解决这些问题,我们利用神经模块来预测稀疏航路点,从而提高整体效率。

  • 然后使用基于三次样条的轨迹优化引擎对航路点进行插值。

  • 我们使用 IL 来训练这个新框架,称为iPlanner 。

 逻辑推理

  • 在LL任务需要一阶优化的情况下,我们提供了归纳逻辑推理的例子。

  • 现有作品仅关注玩具示例,例如 Visual Sudoku 和 BlocksWorld 中的二进制向量表示。

  • 他们无法同时执行基础(高维数据)和规则归纳。

  • 基于IL,我们使用神经网络进行概念和关系预测,并使用神经逻辑机(NLM)进行规则归纳。

  • 我们将这个新框架称为iLogic 。

最优控制

  • 针对LL任务需要约束优化的情况,我们提供了一个基于IMU的无人机姿态控制的例子。

  • 可微模型预测控制(MPC)将基于物理的建模与数据驱动的方法相结合,从而能够以端到端的方式学习动态模型和控制策略。

  • 然而,许多先前的研究依赖于专家演示或标记数据来进行监督学习。

  • 他们经常遭受充满挑战的条件,例如看不见的环境和外部干扰。

  • 基于IL,我们使用神经网络进行IMU去噪并预测MPC的超参数。

  • 我们将这个新框架表示为iMPC 。

 视觉里程计

  • 在LL任务需要二阶优化的情况下,我们提供了同步定位与建图(SLAM)的例子。

  • 现有的 SLAM 系统在前端里程计和后端位姿图优化之间只有单一连接。

  • 由于没有从后端到前端的反馈,这会导致解决方案次优。

  • 我们提出基于IL来优化整个SLAM系统,主导前端和后端之间的自监督相互修正。

  • 我们将这个新框架称为 iSLAM。

多代理路由

  • 在LL任务需要离散优化的情况下,我们提供了一个多旅行商问题(MTSP)的例子。

  • 传统的MTSP方法需要组合优化,这是一个非常大的空间中的离散优化。

  • 经典的 MTSP 求解器(例如 Google 的 OR-Tools 路由库)在处理大规模问题(>500 个城市)时遇到困难。

  • 我们引入 IL 并使用神经网络将城市分配给代理,然后使用单个 TSP 求解器来解决较小的问题。

  • 为了计算离散空间中的微分,我们引入了代理网络来根据控制变量估计梯度。

  • 我们将这个新框架称为iMTSP 。



CreateAMind
ALLinCreateAMind.AGI.top , 前沿AGI技术探索,论文跟进,复现验证,落地实验。 鼓励新思想的探讨及验证等。 探索比大模型更优的智能模型。
 最新文章