​教机器人"倒水"是融入生活的第一步!AR收集和生成演示(ARCADE)框架发布

文摘   2024-10-29 00:03   上海  
    点击下方卡片,关注“AI生成未来

后台回复“GAI”,免费获取最新AI相关行业报告和资料!

作者:Yue Yang

解读:AI生成未来 

文章链接:https://arxiv.org/pdf/2410.15994
项目链接:https://yy-gx.github.io/ARCADE/

亮点直击

  • 引入了一个从单一增强现实(AR)捕获的演示生成大规模演示的新框架。
  • 在此框架内,开发了两项创新技术:关键姿势检测器和自动验证,旨在通过用户提供的一个AR演示生成高质量的演示。
  • 在一个物理的Fetch机器人上对ARCADE进行了三项操作任务的评估。通过ARCADE生成的演示训练出的BC策略在所有任务中表现出色。在更复杂的倒水任务中的进一步验证显示机器人达到了80%的成功率,突显了ARCADE在家庭环境中实现现实机器人辅助的潜力。

总结速览

解决的问题:
机器人模仿学习面临两个主要的可扩展性挑战:非用户友好的演示收集方式大量时间积累足够的演示样本以进行有效训练

提出的方案:
引入了ARCADE框架,结合增强现实(AR)和自动生成合成演示的能力,简化了演示收集并减少用户的努力和时间。

应用的技术:

  • 利用AR技术,使用户可以像执行日常任务一样自然地收集演示数据。
  • 从单个人类演示中自动生成额外的合成演示,减少了用户手动收集演示的需求。

达到的效果:
在 Fetch 机器人上的三项任务(3-Waypoints-Reach、推送和抓取-放置)中,使用经典的模仿学习算法行为克隆(BC)快速训练政策并取得良好表现。此外,在实际的倒水任务中,ARCADE达到了80%的成功率。

方法

框架概述

ARCADE框架,以一种用户友好且可扩展的方式生成演示,如下图1所示。后面详细说明了基于AR的初始用户演示(图1A)。接下来,描述了生成演示的方法(图1B)。然后详细说明了用户验证生成的演示的方法(图1C)。最后,介绍了一种自动验证方法,用于快速扩展演示集的规模(图1D)。

本框架集成了三项基本技术:马尔可夫决策过程(MDP)、动态时间规整(DTW)和行为克隆(BC)。使用MDP来建模环境,表示为。其中,代表状态空间,使用机器人手臂的关节值来表示;表示动作空间,定义为手臂关节的变化。奖励函数由给出,为确定性的转换函数,表示初始状态概率分布。使用DTW作为自动验证中的关键工具,这是一种用于量化时间序列相似性的算法,即使这些序列的时间或速度不同。采用BC作为模仿学习(IL)算法,训练策略来模仿演示,其中每个演示是状态-动作对的列表,

AR辅助演示收集

为了收集用户的机器人手臂轨迹演示,使用了Microsoft HoloLens 2,这是一种增强现实头戴显示器(ARHMD)。在演示收集过程中(下图2),用户佩戴ARHMD,该设备在用户上方叠加了机器人的数字孪生体,并提供了从机器人视角的自我中心视图。该设置为用户提供了机器人物体运动的实时视觉反馈。对于本文的任务和学习算法,机器人的末端执行器必须与用户的手对齐并跟踪其动作。通过当前的逆运动学(IK)算法来实现这一目标,该算法根据演示者的手位置计算机器人的关节角度。用户食指和拇指之间的距离用于指示夹具的开/合状态,以执行拾取或放置物体的操作。当在演示过程中计算关节角度、末端执行器位置以及拾取或放置动作时,这些信息会被记录在另一台机器上,并通过Unity Robotics Hub的ROS-TCP-Endpoint和ROS-TCP-Connector从HoloLens传输。

在此设置下,从用户那里记录一个单一的演示,其形式如公式1所示。每个演示包含个数据点,每个时间步的形式为末端执行器的位姿、对应的机器人手臂关节以及二进制夹爪状态

演示生成

通过用户友好的增强现实(AR)方法成功收集到单个高质量演示,解决了§I中提到的复杂演示收集过程的挑战之一。然而,如何在最小化用户努力的前提下收集足够数量的演示仍然是一个难题。基于用户最初提供的自动生成额外的演示。这些生成的演示必须满足有效行为克隆(BC)的两个条件:1)它们应涵盖比中的状态更广泛的状态空间,同时确保任务的完成;2)它们必须与保持相似,因为模仿学习(IL)算法在处理异质演示时效果较差。

为满足第一个条件,使用了一种基于航点的跟随方法。在航点采样方面,采用了随机间隔长度方法从中选择位姿。考虑到从中提取的位姿,每隔个时间步选择一个位姿,其中在范围内随机确定。通过导航这些随机确定的航点,机器人手臂可以探索更广泛的关节或末端执行器状态,而不依赖于状态空间的特定定义。

然而,为了确保任务完成所需的关键航点不会在采样过程中被错误地筛选掉,引入了一个自动关键位姿检测器。本文的方法假设关键位姿出现在抓取和释放动作期间,或用户手部轨迹的显著角度变化伴随着缓慢移动(即接近零速度)的时刻。下面算法1详细描述了关键位姿检测器的伪代码。对于抓取和释放动作(第1行),收集的演示本身就提供了所需的信息。在涉及角度变化的情况下,函数ComputeAngle(·)通过使用窗口的起始和结束位置来计算当前位置的角度,以帮助识别急转弯(第5-6行)。尽管收集的演示仅记录基于位置的数据而没有速度,使用ComputeDensity(·)通过计算邻近位姿的平均成对距离(第7行)来估算邻近位姿的密度,作为检测缓慢运动的代理(第8-9行)。

采样航点和检测到的关键航点的组合集构成了航点集,记为。为了到达中的这些航点,使用MoveIt的内置运动规划器和逆运动学(IK),这通常会产生多样化的轨迹,从而涵盖更广的状态空间。

用户验证

保留关键位姿有助于满足第二个条件:保持与新生成的演示之间的相似性。然而,仅靠这一策略不足以完全解决异质性演示的问题,因为在中可能出现三种潜在的场景(如下图3所示):

  • 由逆运动学(IK)不稳定性引发的不自然运动;
  • 潜在的危险行为(如机器人手臂过于靠近桌面);
  • 用户可能认为不理想的行为(例如一些用户可能偏好较短的轨迹,而另一些用户可能更看重人类化的运动)。

因此,必须验证生成演示中的行为。首先创建一组候选生成演示,记为。随后,通过AR向用户展示中的每个候选演示进行验证。在AR中查看演示,使用户能够识别中的任何问题,并决定保留或删除演示。最终的结果是用户接受的演示集,记为。这种交互式方法,通过用户观察并筛选少量自动生成的演示,与传统方法相比,在效率上具有优势,因为用户不需要手动生成大量额外的演示。

自我验证

行为克隆(BC)的有效训练通常需要大量的演示,通常以数百计。即使用户角色转变为验证生成的演示,BC所需的演示数量仍可能令人望而生畏。因此,设计了一种自动方法,用于扩展生成演示的验证规模,用户只需观察并批准一小部分(例如10到15个候选演示),系统即可基于用户批准的特征集自动生成并自我验证候选演示。

如下面算法2所示,利用构建一个相似度数组,使用动态时间规整算法(DTW(·))。中的每个元素量化了用户接受的每对演示之间的相似性。随后,将每个新生成的候选演示进行比较,随机排除一个以确保公平比较,使用DTW(·)(第3-4行)。只有当时,才会接受新生成的演示(第5-6行)。参数是一个标量(例如0.95),决定了可接受的相似度水平:较高的相似度要求(即较小的)会导致生成的演示更加相似,但状态空间覆盖率较小,反之亦然。这一自动过滤机制确保只保留符合用户偏好的演示。该过程消除了对用户的持续监督需求(即,在最初的交互中,用户提供自己的单个演示并筛选出10到15个已批准的候选演示集后,不再需要用户输入),从而增强了BC演示生成的可扩展性。在大规模自动生成演示之后,BC模型可以像往常一样使用大量的演示集进行训练。

系统验证

本文使用真实的Fetch机器人对框架进行了评估。首先,在三个典型任务上测试了性能:三点到达推动抓取与放置(如下图4所示)。选择这些任务是因为它们代表了基本的操作行为,结合起来可以完成各种复杂的家务活动。在第四个更复杂的倒水任务中提供了这一点的示例。

三点到达任务中,机器人的手臂目标是到达三个预定的路径点:。对于推动任务,机器人手臂必须将桌上的物体从其起始位置推到预定的目标点。抓取与放置任务则要求机器人手臂抓住一个物体,将其移动到另一个位置,并释放它。对于三点到达推动任务,状态空间包括7个手臂关节,动作空间包括对应每个关节运动的7个增量关节动作。对于抓取与放置任务,将状态空间扩展到8个维度,包含抓手的角度,动作空间也增加到8个维度,包括抓手的增量变化。

引入了任务完成误差(TCE)度量标准,以米为单位,用来评估BC(行为克隆)在三个典型任务中的表现。对于三点到达任务,通过评估过程中到三个路径点的最小距离的平均值来计算此指标。对于推动抓取与放置任务,它衡量物体最终位置与目标点的距离。

为了评估 ARCADE 框架在三个典型任务上的性能,比较了四种不同的策略:


  1. ARCADE (): 使用通过增强现实(AR)收集的初始演示仅训练的策略。

    1. ARCADE (): 使用完整的 ARCADE 系统训练的策略,该系统包括基于初始 AR 演示生成的 100 个演示。

    1. BL (): 基于单个通过动觉教学收集的演示训练的基线策略,其中用户物理操纵机器人的手臂。

    1. BL (): 采用与 ARCADE 的 相似的方法生成的 100 个演示训练的基线策略,但基于动觉教学演示而不是 AR 演示。

    评估方法

    对于每个任务,执行这四种基于行为克隆(BC)学习的策略十次,报告每种策略的任务完成误差(TCE)的均值和标准差。以下是具体的评估方法:

    • 任务完成误差 (TCE): 该指标以米为单位,用于评估在三个典型任务上的 BC 性能。对于 3-Waypoints-Reach 任务,TCE 通过在评估过程中对三个预定义的路标的最小距离进行平均来计算。对于 Push 和 Pick-And-Place 任务,TCE 测量物体最终位置与目标位置之间的距离。

    通过这种比较,能够评估 ARCADE 框架在不同策略下的表现及其有效性。

    下图 5 展示了在三个典型任务中四种基于行为克隆(BC)策略的结果。进行了双向方差分析(ANOVA),以测试演示收集类型(动觉教学基线与ARCADE 框架)和演示集大小(|Ξ|= 1 或 |Ξ|= 100)是否影响 BC 策略的任务完成误差(TCE)。结果发现这两个因素及其交互作用对 TCE 具有显著的主效应,所有三个任务的 p 值均小于 .001。

    使用 Tukey 的诚实显著性差异(HSD)测试来比较所有四种 BC 策略的性能,结果显示四种策略的表现存在显著差异(每次比较的 p 值均小于 .0001),其中表现从最好到最差依次为 ARCADE ()(最佳)、BL ()、ARCADE () 和 BL ()(最差),适用于 3-Waypoint-Reach 和 Pick-and-Place 任务。在 Push 任务中,Tukey 的 HSD 测试未能显示 ARCADE () 和 BL () 之间的性能显著差异(p = .976),但它们都明显优于 BL ()(p < .0001),而 BL () 的表现又优于 ARCADE ()(p < .0001)。这些发现表明,ARCADE 框架生成的演示在 BC 策略性能上能够与传统的动觉教学相匹配或超越。此外,结果还表明,通过本文的方法生成的两组演示 都能够有效促进 BC 训练。

    真实家庭任务 - 倒水

    为了展示 ARCADE 在处理更复杂家庭任务方面的能力及其在家庭机器人广泛部署中的潜力,本文引入了一个额外的任务:倒水。在此任务中,目标是让机器人学习从用户给出的单个演示中抓取瓶子并将水倒入杯子。该任务利用与 Pick-And-Place 任务相同的状态和动作空间,当水成功倒入杯子时,任务被视为成功。测试使用从 ARCADE 的 Ξscale 训练得到的 BC 策略,实现了 80% 的成功率(10 次试验中有 8 次成功),失败主要归因于塑料瓶形状的改变。下图 6 捕捉到了机器人成功执行倒水动作的实例。

    结论

    ARCADE,这是一个可扩展的框架,能够通过增强现实(AR)从单个用户收集的演示中收集大量高质量的演示。这种方法为演示收集提供了一种用户友好且高效的方式。在三个典型机器人任务上的实证评估证明了 ARCADE 在生成适用于有效训练逆向学习(IL)算法的高质量演示方面的有效性。将 ARCADE 应用到真实家庭任务(倒水)中,展示了该框架促进机器人广泛融入日常生活的潜力。

    参考文献

    [1] ARCADE: Scalable Demonstration Collection and Generation via Augmented Reality for Imitation Learning

    致谢

    如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!


    技术交流

    加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!


    往期推荐

    2024年了,Diffusion模型还有什么可做的?
    文本引导I2I迈向统一!北大王选所提出FCDiffusion:端到端适用于各种图像转换任务

    大语言模型的前世今生:万字长文完整梳理所有里程碑式大语言模型(LLMs)

    绝地归来!英伟达等提出JeDi:无需微调,个性化图像生成新SOTA![CVPR 2024]

    AI生成未来
    领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等AI领域前沿技术
     最新文章