卡耐基梅隆大学!多智能体协作以实现长时四足机器人操作

科技   2024-11-28 07:03   江苏  

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:具身智能之心

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

写在前面&出发点

近年来,四足行走技术取得了显著成功,但其在处理大型物体方面的操作能力仍然有限,这限制了它们在搜索与救援、建筑、工业自动化和室内布置等要求苛刻的现实世界应用场景中的实用性。我们致力于解决多四足机器人在面对障碍物时进行长距离推动的问题。这里提出了一种分层的多智能体强化学习框架,该框架包含三个控制层级。高层控制器整合了快速随机搜索树(Rapidly-exploring Random Tree,RRT)规划器和集中式自适应策略来生成子目标,而中层控制器则采用分散式目标条件策略来引导机器人向这些子目标移动。一个预训练的低层行走策略负责执行运动指令。我们在仿真环境中将提出的方法与几个基线方法进行了对比评估,结果显示,我们的方法在成功率上比最佳基线方法高出36.0%,完成时间减少了24.5%,取得了显著改进。我们的框架成功地在现实世界中实现了Go1机器人执行的长距离、避障操纵任务,如Push-Cuboid(推立方体)和Push-T(推T形物体)。

内容出自国内首个具身智能全栈学习社区:具身智能之心知识星球,这里包含所有你想要的。

一些介绍

近年来,四足机器人在技术方面取得了显著进步,极大地提升了它们穿越复杂地形的能力。尽管许多研究都集中在提高机器人的移动性和行走稳定性上,但这些机器人的操作能力仍然相对有限。研究人员已经尝试通过在机器人上安装抓手或机械臂来改善其在抓握操作方面的四足能力,同时也尝试使用腿或头部作为末端执行器来进行非抓握操作。尽管这些进步使得四足机器人能够处理一些日常任务,但它们在操纵大型和重型物体方面的能力有限,这仍然限制了它们在搜救、建筑、工业自动化和室内布置等要求苛刻的领域中的实用性,因为这些领域既需要灵活性也需要力量。为了应对这些挑战,研究人员已经探索了为机器人增加支撑结构,协调全身运动,以及使用多个机器人来增强接触力并扩展操作维度。然而,在杂乱环境中实现大型物体的长距离操纵对于四足机器人来说仍然是一个在很大程度上未被探索且充满挑战的任务。

本研究专注于通过协调多个四足机器人的全身运动来解决障碍物感知和长距离推动的挑战。研究建立在近期关于四足推动的令人印象深刻的研究成果之上。如表I所示,尽管许多方法都利用多个机器人来增强操作能力,但很少有方法关注长距离推动和避障,而这两者对于现实世界中的任务都至关重要。此外,全身运动的有限使用(例如,仅依赖头部进行推动)限制了机器人与物体之间的接触模式,使得机器人难以执行多样化的动作并避免与障碍物发生碰撞。

为了实现通过全身运动进行的协同、障碍物感知和长距离四足推动,提出了一个具有三级控制器的分层多智能体强化学习(MARL)框架。高级控制器集成了快速探索随机树(RRT)规划器和集中式自适应策略,该策略处理参考轨迹、环境信息和智能体信息,为物体生成子目标。中级控制器学习一个共享的分散式目标条件策略,使多个机器人能够协调并将物体推向高级控制器提出的连续子目标。低级控制器是一个预训练的运动策略,执行来自中级控制器的指令。

通过在Go1机器人上进行的一系列模拟和真实世界测试验证了我们的方法,其中一些测试结果如图1所示。结果表明,与模拟中的最佳基线方法相比,所提出的方法成功率提高了36.0%,完成时间减少了24.5%。此外,我们的方法可以在真实机器人上部署,成功完成障碍物感知和长距离的Push-Cuboid和Push-T任务。本文的主要贡献可以概括为以下几点:

  • 提出了一个具有三个层次的分层MARL框架,该框架能够处理具有障碍物的环境中的长距离协同四足推动。
  • 在IsaacGym中针对涉及障碍物的各种长距离推动任务,将所提出的方法与基线方法进行了比较,证明了我们的方法显著优于基线方法。
  • 将训练好的分层策略部署在真实机器人上,通过协调的全身运动成功完成了协同长距离的Push-Cuboid和Push-T任务。

相关工作

1)足式机器人的行走与操作

研究人员已经为抓取式行走操作(prehensile loco-manipulation)提出了多种基于优化的方法。这些方法通常使用层次结构来协调行走和抓手运动,分解跟踪目标,或为规划抽象目标信息。基于优化的方法也被应用于单机器人的非抓取式操作任务,其中许多方法依赖于与物体或地面的接触建模和优化。Murooka等人展示了人形机器人如何通过接触姿态规划来推动大型重物,而Polverini等人则为半人马型人形机器人引入了一种多接触控制器来处理类似任务。Rigo等人介绍了一种用于优化四足行走操作中接触的分层模型预测控制(MPC)框架,在该框架中,机器人被限制使用其头部进行推动。最近,基于学习的方法在腿式机器人的行走操作中的有效性得到了验证。强化学习(RL)已被用于训练短距离四足推动技能,以及其他非抓取式行走操作技能,如踢足球、操控瑜伽球、按按钮、开门和搬运箱子。Jeon等人提出了一种用于四足机器人大型物体全身操作的分层强化学习框架,该框架能够通过交互历史推断与操作相关的特权信息。此外,还训练了基于学习的全身控制器,用于需要抓取各种物体。我们的工作专注于四足推动,使用经RL训练的策略协调全身运动,而不显式地对接触进行建模。

2)多智能体协同操作

基于优化的方法已在各种机器人形态的多智能体协同操作中证明了其有效性,这些机器人形态包括移动机器人、机械臂、四旋翼无人机和六足机器人。一些研究探索了利用模型预测控制(MPC)来实现多个四足机器人之间的协同行走,这些机器人在全向约束下相互关联,或者实现将物体刚性连接在每个机械手上进行协同行走操作。然而,由于这些方法依赖于特定的机器人间连接,它们可能无法推广到更典型的场景。有些工作采用了分层自适应控制方法,使多个四足机器人能够沿着预定路径协同推动未知属性的物体,尽管这些机器人被限制使用头部来推动物体。此外,多智能体强化学习(MARL)被应用于机械臂的协同双手操作和灵巧手操作,以及四足机器人、蛇形机器人和双足机器人的协同行走操作。Nachum等人提出了一种两级分层策略,其中高层策略为每个机器人生成子目标,以指引其导航方向。Xiong等人在合作和竞争任务中采用了两级分层结构的MARL进行基准测试,但该方法在简单的推箱场景中表现不佳。An等人介绍了一种置换不变的网络架构,该架构使轮腿式四足机器人能够进行短距离的多物体推动。然而,这些方法主要侧重于为行走控制器生成有效的以机器人为中心的指令,因此在较长距离的操纵任务中受到限制。我们的方法解决了这些限制,使多个机器人能够在有障碍物的环境中协调全身运动,完成长距离的推动任务。

3)分层强化学习

分层强化学习(HRL)通常被用于解决具有挑战性的长时域决策制定问题。在分层强化学习方法中,高层策略通常学习如何为低层设定子目标,或者学习如何组合和串联基本行为。在多智能体环境中,分层多智能体强化学习(MARL)中的高层策略以分布式方式或通过集中式控制器生成目标或命令。同时,许多基于学习的腿式机器人控制器遵循分层结构,其中高层强化学习策略为低层控制器提供中间命令,如躯干速度、足部落点位置、目标姿态、步态时序或它们的组合。在我们的方法中,使用一个集中式高层控制器为所有机器人提出一个共享的以物体为中心的目标,而分布式中层控制器则向每个机器人的低层策略发送躯干速度命令。

方法说明

1)面向长距离多机器人协同操作的分层强化学习

为了使四足机器人在有障碍物的环境中能够协同执行长距离推物任务,我们提出了一个分层强化学习框架,如图2所示。该框架包含三层控制器。在最高层,快速随机探索树(Rapidly-exploring Random Tree,RRT)规划器生成一条几何上可行的轨迹,但不考虑机器人的推物能力或多机器人与物体的动力学。然后,基于环境、物体和机器人的动态状态,高级自适应策略使用这条轨迹作为参考,为目标物体分配一个子目标。基于这个共同的子目标,每个机器人的中级推物策略为其对应的低级策略提供速度指令。由于RRT规划器的计算需求较高,它只在每个场景开始时执行一次。高级自适应策略和中级控制器均以50赫兹的频率运行,在我们的设置中,高级策略的高频率对于实现更自适应的行为是有益的。低级运动策略也以50赫兹运行,而比例微分(Proportional-Derivative,PD)控制器在模拟中以200赫兹运行,在实体机器人上以2000赫兹运行。

2)Low-Level Controller

低级控制器分别控制每个机器人以跟踪中级速度指令。更具体地说,每个低级控制器计算电机指令以跟踪中级速度指令。尽管最近在学习型低级控制器方面取得了进展,但我们发现这些控制器存在较大的模拟到现实的差距,无法准确跟踪速度指令,尤其是在机器人推动重物时。因此,我们使用了Unitree的内置低级控制器,它在现实世界中能更稳健地跟踪速度指令。为了在模拟中实现高效的策略训练,我们训练了一个学习型低级策略来模仿Unitree内置控制器的行为。

我们基于Walk-These-Ways(WTW)创建了模拟的低级控制器。作为低级运动控制的强化学习框架,WTW能够学习具有可配置身体姿态、步态时序和参考速度的行走行为。在内置控制器上测量这些参数,并在WTW中重现它们以学习相似的行为。在高级策略训练期间,并行地在GPU上调用低级的WTW策略,这显著减少了训练时间。

3)Mid-Level Controller

中级控制器是智能体i的分布式策略,其中代表机器人i的中级局部观测空间,是智能体i的中级策略的动作空间。这个分布式策略以高级动作和机器人i的局部观测作为输入,,包括目标物体状态、障碍物状态以及其他机器人状态的局部观测,所有这些都是在机器人i的局部躯干坐标系中计算的。

在实践中,我们训练了一个由所有机器人共享的中级策略,记为。遵循集中训练、分散执行的方案,使用MAPPO 算法对其进行训练,以优化目标函数。在训练过程中,随机采样物体的子目标作为,并冻结低级策略。同时针对摩擦力进行了专门的领域随机化处理,以减少推送任务中的模拟到现实差距。

4)High-Level Controller

高级控制器由两个元素组成:一个RRT规划器和一个集中式自适应策略,其中M代表地图信息空间,G代表目标物体的目标空间,T代表RRT规划器的轨迹空间,表示物体状态空间,是机器人i的状态空间,是高级自适应策略的动作空间。

5)Reward Design

中级奖励:我们的中级奖励函数由(任务奖励)、(惩罚项)和(启发式奖励)组成。中级任务奖励鼓励将物体移向并到达目标点的行为,而惩罚项则对机器人靠得太近以及出现机器人翻倒和超时等异常情况进行惩罚。

在推动过程中,鉴于广阔的动作空间以及推动过程中固有的不确定性和复杂性,中级启发式奖励发挥着至关重要的作用。它定义为,其中中级接近奖励鼓励机器人接近物体,速度奖励在物体速度超过预定阈值时奖励机器人,从而促进多样化的推动行为,同时防止在物体附近振荡。

重要的是,我们引入了一个基于遮挡(OCB)的奖励,以引导机器人朝向在机器人视线被子目标遮挡的区域中更有利的接触点。具体而言,机器人i的OCB奖励计算为,其vi是机器人i到物体凸包最近点的单位法向量,vtarget是从物体指向子目标的单位向量,如图3所示。基于对机器人进行奖励或惩罚,这在识别最佳接触点具有挑战性的推动任务中至关重要。此奖励鼓励机器人瞄准被遮挡的表面,从而实现更有效的推动行为。

高级奖励:高级奖励函数由两项组成:。高级任务奖励为到达最终目标提供稀疏奖励,并提供两项密集奖励:一项用于最小化子目标与RRT轨迹上最近点之间的距离,另一项用于减少物体与最终目标之间的距离。这引导机器人遵循RRT轨迹,同时允许在处理推动复杂性时进行轻微偏离。高级惩罚包括对靠近障碍物的惩罚,以及对机器人翻倒、碰撞、物体倾斜和超时等异常情况的严厉惩罚。

实验对比分析

1)Simulation Setups

环境与任务:在IsaacGym中构建了我们的模拟环境。考虑了一个杂乱的环境,其中随机放置了1.0米×1.0米×1.0米的障碍物,在这个环境中,多个四足机器人需要将目标物体推送到指定的目标位置。为了与实体机器人相匹配,在模拟中使用了Unitree Go1机器人,每个机器人的近似有效载荷能力为5公斤。对三种形状和质量不同的物体进行了测试:一个4公斤的长方体、一个3公斤的T形块,以及一个半径为1.5米、重10公斤的圆柱体。每个物体在尺寸上都大于机器人,且接近或超过机器人的有效载荷能力。在不同任务中评估了不同数量的代理,其中长方体和T形块任务使用两个agent,而圆柱体任务则使用多达四个agent。agent和目标物体的初始位置和姿态在房间一侧的一个区域内随机设置,而物体的目标位置则在房间的另一侧生成。如果物体的中心位于目标位置1米范围内,则任务视为成功。

2)Baselines

基线方法:将所提出的方法与以下基线方法进行了比较。

单agent(SA)保留了策略的三个层次和奖励函数设计,但每个任务仅使用一个四足机器人。

高层+低层(H+L)同时利用了高层和低层策略,其中高层策略为机器人提出子目标,而低层策略则帮助机器人导航至这些子目标。

中层+低层(M+L)保留了中层和低层策略,但不使用高层策略来提供子目标,即机器人直接由遥远的最终目标引导。

高层+低层(带微调奖励,H+L FT)使用与H+L相同的策略架构,并融入了我们的微调奖励函数。

中层+低层(带微调奖励,M+L FT)遵循与M+L相同的策略架构,并融入了我们的微调奖励函数。

3)Simulation Results and Analysis

参考

[1] Learning Multi-Agent Collaborative Manipulation for Long-Horizon Quadrupedal Pushing

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉最前沿工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型、视频/图片生成等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉知识星球

3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

具身智能、扩散模型、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

计算机视觉科技前沿进展日日相见 ~ 

计算机视觉工坊
专注于计算机视觉、SLAM、三维重建、自动驾驶、具身智能、Mamba、目标检测、语义分割、深度学习、AI芯片、产品落地等最前沿科技。官网:www.3dcver.com 佳v:cv3d001 或 tel:13451707958
 最新文章