Code：用神经符号AI解决机器人强化学习等问题，sairlab系列论文代码

科技 2024-09-15 09:42 上海

代码：https://sairlab.org/iseries/

命令式学习（IL）是一种用于机器人自主的自监督神经符号学习框架。

IL的原型首先在iSLAM论文中提到，然后在这篇长文中正式定义它：

命令式学习：机器人自主的自监督神经符号学习框架。
王晨、季凯一、耿俊义、任中强、付泰萌、杨范、郭一凡、何浩楠、陈翔宇、詹子潼、杜其伟、苏少书、李博文、邱宇恒、杜一、李启航、杨一凡、晓琳、赵志鹏。
arXiv 预印本 arXiv:2406.16087，2024年。

本系列收集了SAIR实验室的文章，以“命令式学习”中的主角“i”命名。在iSeries系列中，IL已应用于各种任务，包括路径规划、特征匹配和多机器人路由等。

iSeries 文章列表

iMatching：命令式对应学习。
詹子潼，高大松，林云柔，夏友杰，王晨。
欧洲计算机视觉会议 (ECCV) ，2024 年。
iMTSP：用命令式学习解决最小-最大多个旅行商问题。
郭一凡，任忠强，王晨。
IEEE/RSJ 智能机器人与系统国际会议 (IROS) ，2024 年。
iSLAM：命令式SLAM 。
付太孟，苏少树，卢毅仁，王晨。
IEEE 机器人与自动化快报 (RA-L) ，2024 年。
iA*：基于命令式学习的 A* 寻路搜索。
陈翔宇、杨范、王陈。
arXiv 预印本 arXiv:2403.15870，2024年。
iPlanner：命令式路径规划。
范阳、王晨、塞萨尔·卡德纳、马可·哈特。
机器人技术：科学与系统 (RSS) ，2023。

本博客将从高层次的角度简要解释IL，读者可以在论文中找到更深入的解释。

读者还可以在此链接中找到一张幻灯片，它提供了更具交互性的格式。

IL是为了缓解强化学习和模仿学习等机器人学习框架的挑战。

为什么我们需要神经符号人工智能？

结合神经方法和符号方法的优点。
克服现有机器人学习框架的挑战。

什么是神经符号人工智能？

关于神经符号（NeSy）人工智能尚未达成共识。
我们有狭义和广义的定义，区别主要在于“符号”的范围。

现有神经符号人工智能的例子？

尽管许多方法没有明确说明这一点，但它们可以被视为神经符号人工智能。

为什么我们需要命令式学习？

命令式学习是一种自我监督的神经符号学习框架。
它旨在通过基于双层优化的单一设计来克服这四个挑战。

泛化能力有限、黑盒性质、标签密集、次优。

什么是命令式学习？

命令式学习（IL）的框架由三个主要模块组成，包括神经感知网络、符号推理引擎和通用记忆系统。
IL被制定为特殊的双层优化，实现三个模块之间的相互学习和相互修正。

自我监督的本质

由于许多符号推理引擎（包括几何、物理和逻辑推理）可以在不提供标签的情况下进行优化或解决。

例如，A $*$ 搜索、几何推理（例如束调整（BA））和物理推理（例如模型预测控制（MPC））可以在不提供标签的情况下进行优化。

IL框架利用这一现象，通过双层优化的方式对三个模块进行联合优化，强制三个模块相互纠正。
因此，所有三个模块都可以通过观察世界以自我监督的方式学习和进化。
尽管 IL 是为自监督学习而设计的，但它可以通过在 UL 或 LL 成本函数或两者中涉及标签来轻松适应监督或弱监督学习。

克服其他挑战。

由于其可解释的设计，符号模块提供了更好的可解释性和泛化能力。
与单独训练神经模块和符号模块相比，最优性是由双层优化带来的。

优化挑战

IL的求解主要涉及UL参数的求解 $θ$ 和 $γ$ 和 LL 参数 $μ$ 和 $ν$ 。
直观上，通常是类神经元权重的 UL 参数可以用 UL 成本 $U$ 的梯度进行更新：

应用和示例

本文提供了五个不同的示例，涵盖了 LL 任务的不同情况。

路径规划

在 LL 任务具有封闭式解决方案的情况下，我们提供了全局和局部路径规划的示例。

全局路径规划

一个 $*$ 由于其最优性而被广泛使用，但由于其搜索空间大而常常效率低下。
因此，我们可以利用神经模块来预测有限的搜索空间，从而提高整体效率。
我们取A $*$ 作为符号推理引擎，基于IL以自监督的方式训练神经模块。
这产生了一个新的框架，称为iA $*$ 。

局部路径规划

端到端本地路径规划最近引起了相当大的兴趣，特别是因为它具有实现高效推理的潜力。
基于强化学习的方法常常面临样本效率低下以及直接处理深度图像的困难。
基于模仿学习的方法在很大程度上依赖于标记轨迹的可用性和质量。
为了解决这些问题，我们利用神经模块来预测稀疏航路点，从而提高整体效率。
然后使用基于三次样条的轨迹优化引擎对航路点进行插值。
我们使用 IL 来训练这个新框架，称为iPlanner 。

逻辑推理

在LL任务需要一阶优化的情况下，我们提供了归纳逻辑推理的例子。
现有作品仅关注玩具示例，例如 Visual Sudoku 和 BlocksWorld 中的二进制向量表示。
他们无法同时执行基础（高维数据）和规则归纳。
基于IL，我们使用神经网络进行概念和关系预测，并使用神经逻辑机（NLM）进行规则归纳。
我们将这个新框架称为iLogic 。

最优控制

针对LL任务需要约束优化的情况，我们提供了一个基于IMU的无人机姿态控制的例子。
可微模型预测控制（MPC）将基于物理的建模与数据驱动的方法相结合，从而能够以端到端的方式学习动态模型和控制策略。
然而，许多先前的研究依赖于专家演示或标记数据来进行监督学习。
他们经常遭受充满挑战的条件，例如看不见的环境和外部干扰。
基于IL，我们使用神经网络进行IMU去噪并预测MPC的超参数。
我们将这个新框架表示为iMPC 。

视觉里程计

在LL任务需要二阶优化的情况下，我们提供了同步定位与建图（SLAM）的例子。
现有的 SLAM 系统在前端里程计和后端位姿图优化之间只有单一连接。
由于没有从后端到前端的反馈，这会导致解决方案次优。
我们提出基于IL来优化整个SLAM系统，主导前端和后端之间的自监督相互修正。
我们将这个新框架称为 iSLAM。

多代理路由

在LL任务需要离散优化的情况下，我们提供了一个多旅行商问题（MTSP）的例子。
传统的MTSP方法需要组合优化，这是一个非常大的空间中的离散优化。
经典的 MTSP 求解器（例如 Google 的 OR-Tools 路由库）在处理大规模问题（>500 个城市）时遇到困难。
我们引入 IL 并使用神经网络将城市分配给代理，然后使用单个 TSP 求解器来解决较小的问题。
为了计算离散空间中的微分，我们引入了代理网络来根据控制变量估计梯度。
我们将这个新框架称为iMTSP 。

http://mp.weixin.qq.com/s?__biz=MzA5MDMwMTIyNQ==&mid=2649401115&idx=1&sn=9ea613919cc1f2a2bdc859ff44a88509

CreateAMind

ALLinCreateAMind.AGI.top ，前沿AGI技术探索，论文跟进，复现验证，落地实验。鼓励新思想的探讨及验证等。探索比大模型更优的智能模型。

最新文章

RC2：高效 MaxSAT 求解器 2018

机器人自监督NeSy神经符号框架，5大应用落地无人驾驶

基于数值推理的关系程序综合

LogiCity：用抽象城市模拟推进NeSy人工智能，首个可定制一阶逻辑（FOL）的模拟器

重磅：比较 NeSy和StarAI系统的7个维度

OpenAI o1到底有多弱？

Code 机器人自主的自监督神经符号框架sairlab系列论文代码落地无人驾驶应用

Code：用神经符号AI解决机器人强化学习等问题，sairlab系列论文代码

反统一与泛化:综述

1000万美元AIMO挑战的启发：有趣的符号计算

寻找最小不可满足子程序学习逻辑程序，学习时间减少99%

Code：从提出假设、验证假设、假设失败中学习最优方案

高阶相互作用在超图和单纯复形中以不同的方式塑造集体动力学

高阶网络的简单性（度量标准）

通过连接小规则来学习大逻辑规则AI程序

ULLER：神经符号AI，学习和推理的统一语言

统一的代数视角看待概率逻辑编程

AI雏形,系统1+系统2，Scallop2：神经符号编程语言: 符号、概率、可解释等强化学习等

Scallop1：从概率演绎数据库到可扩展的可微分推理

如何训练你的HiPPO：具有广义正交基投影的状态空间模型

AI集大成！Scallop：神经符号编程语言: 符号、概率、可解释等强化学习等

王培教授AGI相关论文列表

重磅！感觉的含义：形式化了'“理解”感觉数据流的含义'(意识)

超图挖掘综述:模式、工具和生成器

简单逻辑Prolog--智能推理例子(在线互动版）

第一个自动发现跨领域泛化的高阶抽象,在程序合成领域发现抽象map、filter和fold，并在国际象棋领域使用它们

一个高效的精确算法，用于执行涉及3个和4个节点的高阶模体分析

在网络微观尺度上提取超图中的高阶指纹方法

第一个展示自动发现跨领域泛化的高阶抽象

从失败中学习高阶逻辑程序

自下而上的IDG模型更好地解释了人类的推理 2018

复杂超图上相位振荡器的同步化，复杂系统中最具标志性的问题之一，它在生物学、物理学和工程学等领域都有应用

ILP Code：指数级降低搜索空间：通过组合程序来学习逻辑程序

ILP Code：从假设、验证、失败中学习

Code：ARC_AGI比赛的图形、约束和搜索 V2 超图表示及代码展示一点

儿童黑客：构建更多具有人类特征的学习模型 1 理论(1-2章两万字)

解决终身学习迁移学习：30年ILP介绍，四万字

Code：最有前途的ARC-AGI比赛方法：关系分解，关系型表示胜过函数型表示

重磅：人类大脑进化和认知的协同核心：大脑组织如何产生人类独特的认知能力

Code：最有前途的ARC-AGI比赛方法：关系分解，关系型表示胜过函数型表示

地球是模拟的？如何逃脱，存在的目的？

重磅理论基础：贝叶斯力学的几何和分析，自由能的复杂系统理论四万字

超维计算(向量符号体系结构)综述，第一部分:模型和数据转换

Code：Reticula: 原生处理有向和无向静态网络、时间网络、超图和时间超图的软件库

分割-对齐-征服策略之程序合成for ARC-AGI

EasyGraph：多功能、跨平台、高效的跨学科网络分析库

概率分布通用逼近器 universal distribution approximation v3

Code：关系型表示胜过函数型表示，程序合成中的关系分解

ARC挑战指南2023：由于ARC训练集的规模非常小，需要强烈的归纳偏差和先验知识

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉