WoCoCo「使用序列接触学习全身类人控制」论文苏黎世联邦理工大学等

文摘 2024-11-25 21:00 北京

（本文素材源于论文2406.06005v2）涉及序列接触的类人活动对于复杂的机器人交互和现实世界中的操作至关重要，传统上通过基于模型的运动规划来解决，但这种方法耗时且通常依赖于简化的动力学模型。尽管无模型的强化学习（RL）已成为一种强大的工具，用于多功能且鲁棒的全身类人控制，但它仍然需要繁琐的任务特定调优和状态机设计，并且在涉及接触序列的任务中存在长时间跨度的探索问题。在本工作中，我们提出了WoCoCo（具有序列接触的全身控制），这是一个统一的框架，通过自然地将任务分解为不同的接触阶段，来学习具有序列接触的全身类人控制。这种分解方法通过任务无关的奖励和仿真到现实的设计，促进了简单且通用的策略学习流程，只需要为每个任务指定一到两个任务相关的项。我们展示了，基于WoCoCo训练的端到端强化学习控制器能够在现实世界中完成四个具有挑战性的全身类人任务，这些任务涉及多样的接触序列，且无需任何运动先验：1）多功能跑酷跳跃，2）箱体运动操控，3）动态拍手与拍打舞蹈，4）悬崖攀爬。我们进一步展示了，WoCoCo作为一个通用框架，不仅适用于类人机器人，还可以应用于22自由度的恐龙机器人运动操控任务。网站：https://lecar-lab.github.io/wococo/ 翻译而来供参考，亦可阅读英文原版、中文版本（见文末）。

关键词：全身类人控制，多个接触控制，强化学习

1 引言

类人机器人被设计用来像人类一样在环境中操作和交互，这通常需要在任务执行过程中完成序列接触[1]。在给定特定接触计划的情况下，典型的解决方案是采用基于模型的运动规划或轨迹优化来生成全身参考进行跟踪[2, 3, 4]。尽管运动规划在运动合成方面非常强大，但它通常耗时且依赖于简化的降阶动力学模型，这可能影响运动质量和现实世界中的表现[5, 6, 7, 8, 9, 10]。

图1：WoCoCo框架及任务概述 (A) 我们将任务分解为独立的接触阶段，每个接触阶段由接触目标和任务目标定义。(B)-(E)：我们将WoCoCo框架应用于各种具有挑战性的任务。接触目标以蓝色可视化，涉及部分或全部末端执行器（即手和脚）。

无模型强化学习（RL）已展示出在模型不匹配和不确定性方面的显著鲁棒性，并使得四足机器人能够实现实时灵活运动[11, 12, 13, 14, 15]。然而，这些工作主要集中在标准的运动任务（如行走），而不需要完成特定的接触序列。尽管一些近期的研究已经实现了带有约束的脚掌接触的RL基础运动[16, 17, 18, 19, 20]，但它们通常针对特定场景进行了大量调优。类似地，在展示了现实世界类人机器人任务感知接触序列的现有工作中，例如踢足球[21]和运动操控[22, 23, 24]，每个RL策略都是针对特定任务或状态机中的过渡进行专门调优的。不同的策略需要不同的表述和奖励，这限制了它们在长时间跨度任务中的实际应用。Sferrazza等人[25]训练了多个动态操控任务的策略，使用了共享的分层RL架构，但他们没有解决仿真到现实的转移问题，也没有提出统一的与接触相关的奖励。Xiao等人[26]使得类人机器人能够追踪与物体的期望接触，但该控制器仅限于动画目的，并且需要人类运动参考。总的来说，现有的RL工作在鲁棒性和多功能性方面展现了潜力，但缺乏一个系统化且通用的方法，能够在现实世界中使用RL控制类人机器人，满足期望的接触序列。

相比之下，像Crocoddyl[5]这样的单一基于模型的求解器可以解决多个具有不同接触序列的任务，仅需对代价进行微调（少量直观的任务相关项）。问题是：如何在RL框架中实现如此简单且具有适应性的控制方法？此外，在有效的策略学习方面，我们还识别出了三个挑战：（1）接触是稀疏的，尤其是当与其他全身运动目标（如平衡和姿势维护）结合时；（2）由于复合风险，机器人可能避免探索整个长时间跨度；（3）仿真到现实的转移并非易事，通常通过领域随机化[27]和与任务无关的正则化奖励来实现，这可能会阻碍探索。

在本工作中，我们通过提出WoCoCo，一个用于具有序列接触的全身类人控制的通用RL框架，来解决这个问题。在WoCoCo中，我们将问题重新表述为多个接触阶段的序列完成（详见第2节），这也将探索的负担分解为多个独立的阶段。这将每个挑战转化为以下问题：

Q1：如何在每个阶段内到达期望的接触状态？

Q2：如何在多个接触阶段之间简化探索？

Q3：如何开发一个兼容的仿真到现实的流程？

我们通过简洁而有效的WoCoCo奖励设计（详见第3.1节）共同解决了Q1和Q2，这是由密集的接触奖励、阶段计数奖励和好奇奖励的组合。密集的接触奖励通过计算每个正确和错误的接触，优于标准的0-1奖励[24]，从而更有效地引导策略。此外，基于已完成接触阶段的数量，我们提出了阶段计数奖励。这驱使机器人探索更多阶段，以最大化累计奖励，从而减轻了RL策略通过在当前阶段停留以避免潜在失败所带来的短视行为。为了更好地促进探索，我们提出了一个与任务无关的好奇奖励项。通过详细的消融分析，我们展示了WoCoCo奖励设计在第5节中既有效又简洁。

在解决Q3时，我们还提出了一个通用的仿真到现实（sim-to-real）流程，结合了领域随机化和正则化奖励（第3.2节）。受到[28]的启发，我们设计了一个包含三个训练阶段的教学计划：最初不使用领域随机化进行训练，然后使用领域随机化进行训练，最后增加正则化奖励的权重。这个教学计划减少了训练中由仿真到现实模块引入的探索负担。总结我们的贡献：

1. 我们提出了WoCoCo，一个用于基于RL的全身类人控制的通用框架，适用于序列接触计划，并基于接触阶段进行自然的任务分解。

2. 我们展示了WoCoCo的任务无关设计如何使端到端RL能够解决四个具有挑战性的类人任务和一个22自由度恐龙机器人任务，展示了它的多功能性和普遍性。

3. 我们验证了在现实世界中学到的RL策略，应用于上述四个类人任务，如图1和视频所示。据我们所知，这些任务是首次通过单一的端到端RL策略解决的。

2 概述：通过序列接触和任务分解学习

考虑到需要进行环境交互的广泛机器人任务，如跑酷跳跃和运动操控，我们将这些任务根据期望的接触序列分解为多个接触阶段，如图1所示。机器人需要顺序地完成这些阶段，其中每个阶段的完成被定义为同时实现接触目标（定义某些末端执行器应达到的接触状态）和任务目标（定义额外的任务特定要求）。在本文中，我们研究了接触阶段已预定义（例如启发式设计）的任务，我们的方法可以与高级接触规划器（例如[29]）无缝集成。

例如，在跑酷跳跃任务（第4.1节和图1(B)）中，每个跳石对应一个接触阶段，在该阶段，正确的脚部接触定义了接触目标，而保持上半身姿势则形成任务目标。在完成一个阶段后，通过传感器或人工观察进行检查，机器人将在预定的任意时间段后进入下一个阶段。

我们采用了近端策略优化（PPO）[30]，结合对称增强[31]（详见附录D），在Isaac Gym[32]仿真环境中基于并行RL框架[33]优化策略。本工作中训练的所有策略都是端到端的多层感知机（MLP）策略，但我们的框架并不限制策略架构。策略观察可以包括本体感知、外部感知（可选）和与目标相关的观察，具体内容见附录H。策略输出是由低级PD控制器跟踪的关节目标位置，以驱动电机。

本文的其余部分组织如下：在第3节中，我们详细介绍了任务无关的奖励项和仿真到现实设计。在第4节中，我们展示了我们的框架WoCoCo如何应用于多种具有挑战性的动态任务，这些任务具有灵活的接触和任务目标的定义和表示。在第5节中，我们进行了进一步的分析和消融研究，并在第6节讨论了局限性和未来的工作。

3 WoCoCo奖励与仿真到现实转移

本节介绍了我们为克服第1节中讨论的挑战以及仿真到现实管道所设计的创新奖励。

3.1 WoCoCo奖励

我们提出了WoCoCo奖励，它包含三个任务无关的奖励项：

更密集的接触奖励：每次接触都很重要。

阶段计数奖励：做得更多，得到更多。

探索新的接触阶段可能会带来失败和惩罚，而停留在当前阶段可能会获得正向奖励。因此，必须通过奖励来驱动代理向新的阶段前进。为此，我们将阶段计数奖励定义为：

好奇奖励：驱动探索

好奇奖励已被用来鼓励RL中的探索[34, 35]。对于高维观察，随机网络蒸馏（RND）[36]被提出作为一种灵活且有效的好奇驱动探索方法。在机器人控制中，Schwarke等人[24]成功地将RND应用于现实世界中的全身运动操控问题，同时好奇观察是基于专家见解的任务特定的。

在本工作中，我们旨在定义具有任务无关观察的好奇奖励，这些观察可能是冗余的并且维度较高。我们发现，RND可能会过度探索那些不会产生有意义行为的状态，这与RND工作中的第3.7节[36]所报告的情况类似。相反，我们提议通过基于随机神经网络（NN）哈希的计数式好奇奖励，灵感来自于Tang等人[37]和Charikar[38]的工作。

其中，BIN2DEC 将布尔值数组解释为二进制数字，并将其转换为十进制格式，好奇奖励基于机器人访问过的状态被哈希到同一桶中的次数：

我们发现，即使在不同的具有挑战性的全身任务中，使用任务无关的好奇观察，基于我们的好奇奖励也能够有效且稳定地促进探索。基于哈希机制，随着访问次数的增加，随机网络的过拟合可以通过数值衰减得到抑制。

3.2 仿真到现实转移

沿用现有的工作[39]，我们使用领域随机化[27]和正则化奖励来实现仿真到现实的转移，具体细节见附录。值得注意的是，我们的领域随机化设置和正则化奖励在所有类人任务中是共享的。

我们还应用了一个教学计划，以减少领域随机化和正则化奖励所带来的探索负担，灵感来自Li等人[28]。具体来说，1. 我们首先在没有领域随机化的情况下训练策略，直到其收敛；2. 然后恢复训练，使用领域随机化，直到收敛；3. 之后，在每2000次迭代中将正则化项的权重增加20%，直到它们翻倍，从而引导更保守的行为。好奇奖励仅在第1步中激活。

按照Li等人[28, 40]的方法，我们将之前3个控制步骤的关节状态和动作堆叠起来，并将其附加到策略观察中，以通过时间记忆增强鲁棒性。

4 案例研究

在本节中，我们展示了如何将我们的框架WoCoCo应用于不同接触序列的各种挑战性任务。如前所述，我们对不同任务使用相同的和奖励项，唯一的任务特定调整是非常直观的任务奖励（在每个子节中介绍）。为了简洁起见，我们在此展示任务定义、奖励直觉和结果，详细的观察和奖励设计见附录。

4.1 案例 I：多功能跑酷跳跃

类人机器人的跑酷跳跃是一项极具挑战性的动态任务，展示了高水平的灵活性和精确的着陆，正如波士顿动力公司（BD）展示的那样[41]。然而，BD的跑酷动作来自一个行为库，通过离线轨迹优化[42]实现，这在部署到实际环境中或需要额外上半身动作的特定任务时，可能会限制其多功能性。Li等人[43]基于在线基于模型的优化实现了连续的双足跳跃，但仅支持没有上半身任务的双脚前跳。Li等人[44]使用强化学习（RL）学习了三维空间中的双脚跳跃，但他们的方法不支持连续跳跃，依赖于运动参考，并且没有考虑带有上半身动作的类人机器人。

与此不同，我们展示了WoCoCo能够通过端到端的强化学习实现多功能的跑酷跳跃，具有以下特点：1. 单/双脚接触切换，2. 在三维空间中的受控着陆，3. 上半身姿势跟踪，且无需任何运动参考。

图2：在模拟环境和真实世界中学习到的多功能跳跃动作上排：类人机器人执行连续跳跃，具有不同的脚部接触序列和上半身姿势目标，展示了对未见过的碎石的鲁棒性。下排：我们将策略转移到真实世界，测试具有双脚接触的跳跃，涵盖不同的高度和“拥抱”姿势。

任务定义：如图2所示，我们训练类人机器人跳过不同的石头，每个石头构成一个接触阶段。接触目标是使正确的脚（左/右/双脚）接触到石头，任务目标是保持指定的上半身姿势（“拥抱”/“放松”）。这一设置挑战机器人在高度动态且耦合的运动中，准确执行脚部接触的同时调整上半身姿势。

奖励：只有一个任务相关奖励项，鼓励跟踪肘部位置和方向，以完成任务目标。

结果：结果如图2所示，展示了类人机器人在跟踪上半身姿势的同时，执行多功能的连续跳跃，并且对未见过的障碍物（如石子）具有较强的鲁棒性。在现实世界中，由于设施限制，我们仅测试了双接触序列，并进行了一个或两个连续跳跃。然而，机器人展现了高度动态和适应性的行为，能够应对不同的石头高度和距离。

4.2 案例 II：任意位置到任意位置的箱子运动操控

箱子运动操控是类人机器人的一个重要应用，已经通过基于模型的控制器得到了充分研究[45]。然而，模型不匹配和扰动（如不平坦的地形）给这些控制器带来了显著挑战，而强化学习（RL）可以是一个有前景的解决方案[13, 22]。然而，现有的基于RL的工作要么依赖有限状态机，并为每个状态转换训练不同的策略，使用不同的表述、奖励和姿势先验（如站姿宽度）[22, 23]，要么仅限于短距离运动[24]。在本文中，我们展示了，通过提供箱子的当前和目标位置，端到端的RL策略可以控制类人机器人，首先接近箱子，然后将其运输到目的地，而无需任何姿势先验。学到的全身协调动作还可以提高运动效率，正如现有的四足机器人研究[46, 47, 48, 49]所观察到的那样。

任务定义：我们定义了两个接触阶段。在第一个阶段，接触目标是将双手放在箱子两侧，同时任务目标始终完成。在第二个阶段，接触目标是保持双手与箱子两侧的接触，任务目标是将箱子运输到接近目的地的位置。通过将接触目标修改为虚拟目标，也可以实现将箱子放置在目的地。通过仅在双手上定义接触序列，我们利用RL实现了鲁棒的运动控制，同时简化了整个任务。

奖励：有两个任务相关奖励项，分别激励最小化双手与箱子之间的距离，以及箱子与目的地之间的距离。

图3：在真实世界中学习到的全身箱体运动操控行为

结果：如图3所示，类人机器人能够高效地转弯，在行走和拾取之间无缝过渡，同时在拾取箱子的同时接近目的地。它还能够在踩到绑在自己身上的皮带后恢复，展示了其鲁棒性。

4.3 案例 III：动态拍手与拍打舞蹈

类人机器人也可以展示具有动态跳舞技巧的娱乐性。波士顿动力公司（BD）通过基于模型的控制和离线轨迹优化实现了令人印象深刻的舞蹈[50]。现有的基于RL的方法可以跟踪人类的参考动作[39, 51]，但无法确保在地面上准确地拍打。在这里，我们展示了WoCoCo如何通过RL实现动态跳舞，并保证准确的拍打动作和可选的拍手。

图4：在模拟环境和真实世界中学习到的舞蹈动作黑色边界框表示脚部接触目标和手部任务目标。

任务定义：在这个任务中，接触阶段分配给双脚和双手。如图4所示，有三个动作组成不同的接触序列，其中“左”和“中”可以互相转换，“右”和“中”也可以互相转换。在每个接触阶段，任务目标是将双手定位到黑色边框内（在基坐标系中预定义）。接触目标要求双脚在相应的边框内接触地面（在世界坐标系中预定义），如果动作是“左”或“右”，则还需要避免手部自碰撞。

奖励：有两个任务相关的奖励项，第一个奖励鼓励展开双臂，第二个奖励鼓励最小化双脚与目标接触区域中心之间的距离。

结果：如图4所示，我们成功地学习了策略并进行了实际部署。

4.4 案例 IV：双向悬崖攀爬

悬崖攀爬是一个代表性的任务，需要精确地移动所有肢体来支撑类人机器人。尽管基于模型的控制器[9, 52, 53, 54]在这种问题上取得了成功，我们证明RL也是一种有效且有前景的解决方案，能够实现快速且有韧性的多接触运动。

图5：在模拟环境和真实世界中学习到的悬崖攀爬行为类人机器人展示了对扰动的抗性以及在与未见过的碎石接触时的顺应性。

任务定义：在这个任务中，接触序列被跟踪以使类人机器人沿着悬崖侧移动，如图5所示。在每个接触阶段，任务目标始终完成。接触目标要求双手接触墙上的目标区域，同时双脚需要站在地面上的目标区域内。每个末端执行器的目标区域由一个二维正方形边界限制。

奖励：有两个任务相关奖励项，第一个奖励鼓励类人机器人面向墙壁，第二个奖励通过最小化末端执行器与目标接触区域中心之间的距离，鼓励末端执行器精确运动。

结果：如图5所示，学习到的悬崖攀爬行为展示了策略对推力和仿真中的未见过的石子的鲁棒性。在现实世界中，悬崖被一个由人类持有的板子所替代，类人机器人能够适应与手部接触的变化的接触力。

4.5 超越类人机器人：恐龙运动操控

为了展示WoCoCo能够推广到其他形式的机器人，我们训练了一只22自由度的恐龙机器人（改编自[55]），使其执行一个球体运动操控任务。该任务涉及使用其六个末端执行器（头、尾和四个脚）中的一个将球推向指定目标。

图6：我们训练恐龙机器人使用不同的末端执行器将球推向目标位置。通过改变目标位置，我们使机器人生成形成“WoCoCo”的球体轨迹。

任务定义与箱体运动操控任务相似，不同之处在于，所需的接触点是通过球体中心投影到其表面的目标点，帮助球体向目标移动。末端执行器与球体在该点附近的接触即视为完成接触目标。结果如图6所示。

5 分析与消融研究

由于多功能跑酷跳跃无疑是最具挑战性的任务，并且在相同设置下训练每个任务成本较高，我们基于跳跃任务进行分析和消融研究。基准模型的学习行为可见于附录B的图8。

消融密集接触奖励

消融阶段计数奖励

如果没有阶段计数奖励，类人机器人会故意不完成接触目标，以避免进入更远的接触阶段，但仍然获得其他奖励。这验证了我们提出的阶段计数奖励的有效性。

消融好奇奖励

如果没有好奇奖励，类人机器人无法跳过石头，并且仅在不移动的情况下跟踪上半身姿势，这意味着探索不足。使用基于RND的好奇奖励时，类人机器人学会以一种危险的方式向后倾斜，这与Burda等人[36]的观察一致：代理可能会在保持生命的同时过度探索危险的行为模式，因为这些状态在代理的经验中比安全状态更为稀有。相比之下，我们的好奇奖励能够实现有效的探索，而不会过拟合特定的行为。

WoCoCo的经验性优势

使用WoCoCo，类人机器人展示了高敏捷性和运动效率。这些运动不受简化模型和运动先验的限制。此外，通过在多样化的任务配置中进行训练，学到的RL策略能够完成多功能的接触目标。这些策略还展示了对扰动（如未见过的石子）的鲁棒性。

训练稳定性

尽管如[24]所示，好奇驱动的探索存在随机性，但我们的方法在随机网络初始化和探索过程中保持稳定性。这一点在附录C的图10中有所展示，我们绘制了五个不同随机种子的学习曲线。

6 局限性与未来工作

我们工作的一个局限性是缺乏关于控制器何时会失败的知识。相比之下，基于模型的方法可以明确地告诉我们是否能够找到可行的解决方案。因此，我们未来可能会探索失败预测器[56]和其他安全评估方法[57]。此外，如果接触序列的长度事先未知，我们可能需要启发式奖励夹持（reward clamping）来避免机器人利用阶段计数奖励。

目前，我们依赖于运动捕捉作为原型，未来将尝试结合车载传感器。我们还将探索基于采样的[53]或基于大语言模型（LLM）的[26]高层次规划器，而目前我们是基于启发式方法预定义接触序列。另一个局限性是需要显式的接触反馈（通过接触传感器或人工观察者）来切换接触阶段，这一过程在未来可能会由策略隐式管理。

8 致谢

我们感谢Arthur Allshire和Jason Liu在仿真方面的帮助，Milad Shafiee在恐龙机器人方面的帮助，Guanqi He在硬件方面的帮助，以及Justin Macey和Jessica Hodgins对设施的支持。我们还感谢波士顿动力公司（Boston Dynamics）为我们提供了启发性的优秀工作。

参考文献

[1] O. Khatib, L. Sentis, 和 J.-H. Park. 一种统一的框架用于具有多个约束和接触的全身类人机器人控制。在2008年欧洲机器人研讨会，页面303-312。Springer，2008。

[2] I. Kumagai. 类人机器人的多接触活动。当前机器人报告，4(4):117–125，2023。

[3] I. Kumagai, M. Murooka, M. Morisawa, 和 F. Kanehiro. 考虑运动学和静力学的多接触行走规划，处理接触过渡中的双边接触力。IEEE机器人与自动化快报，6(4):6654–6661，2021。

[4] R. Shigematsu, M. Murooka, Y. Kakiuchi, K. Okada, 和 M. Inaba. 基于运动学和静力学优化生成一个关键姿态序列，用于类人机器人操控重物。在2019 IEEE/RSJ智能机器人与系统国际会议（IROS），页面3852–3859。IEEE，2019。

[5] C. Mastalli, R. Budhiraja, W. Merkt, G. Saurel, B. Hammoud, M. Naveau, J. Carpentier, L. Righetti, S. Vijayakumar, 和 N. Mansard. Crocoddyl：一个高效且多功能的多接触最优控制框架。在2020 IEEE国际机器人与自动化会议（ICRA），页面2536–2542。IEEE，2020。

[6] C. Mastalli, W. Merkt, J. Marti-Saumell, H. Ferrolho, J. Sola, N. Mansard, 和 S. Vijayakumar. 基于可行性驱动的控制有限的ddp方法。自主机器人，46(8):985–1005，2022。

[7] A. W. Winkler, C. D. Bellicoso, M. Hutter, 和 J. Buchli. 通过基于相位的末端执行器参数化为四足系统进行步态和轨迹优化。IEEE机器人与自动化快报，3(3):1560–1567，2018。

[8] M. Chignoli, D. Kim, E. Stanger-Jones, 和 S. Kim. MIT类人机器人：为杂技行为设计、运动规划和控制。在2020 IEEE-RAS 第20届国际类人机器人会议（Humanoids），页面1–8。IEEE，2021。

[9] P. Ferrari, L. Rossini, F. Ruscelli, A. Laurenzi, G. Oriolo, N. G. Tsagarakis, 和 E. M. Hoffman. 类人机器人多接触规划和控制：完整框架的设计与验证。机器人与自主系统，166:104448，2023。

[10] 波士顿动力公司. 持续加速。https://bostondynamics.com/blog/picking-up-momentum/，2024。访问时间：2024年5月17日。

[11] J. Lee, J. Hwangbo, L. Wellhausen, V. Koltun, 和 M. Hutter. 学习在挑战地形上进行四足运动。科学机器人，5(47):eabc5986，2020。

[12] T. Miki, J. Lee, J. Hwangbo, L. Wellhausen, V. Koltun, 和 M. Hutter. 学习在野外环境下四足机器人进行稳健感知的运动。科学机器人，7(62):eabk2822，2022。

[13] J. Siekmann, K. Green, J. Warila, A. Fern, 和 J. Hurst. 通过仿真到现实的强化学习实现盲目双足楼梯行走。机器人：科学与系统2021，2021。

[14] I. Radosavovic, T. Xiao, B. Zhang, T. Darrell, J. Malik, 和 K. Sreenath. 现实世界类人机器人运动与强化学习。科学机器人，9(89):eadi9579，2024。

[15] D. Hoeller, N. Rudin, D. Sako, 和 M. Hutter. Anymal跑酷：为四足机器人学习灵活导航。科学机器人，9(88):eadi7566，2024。

[16] H. Duan, A. Malik, J. Dao, A. Saxena, K. Green, J. Siekmann, A. Fern, 和 J. Hurst. 学习有限步伐约束下的双足动态行走。2022国际机器人与自动化会议（ICRA），页面10428–10434。IEEE，2022。

[17] F. Jenelten, J. He, F. Farshidian, 和 M. Hutter. DTC：深度跟踪控制。科学机器人，9(86):eadh5401，2024。

[18] C. Zhang, N. Rudin, D. Hoeller, 和 M. Hutter. 学习在危险地形上灵活行走。arXiv预印本arXiv:2311.10484，2023。

[19] Y. Yang, G. Shi, X. Meng, W. Yu, T. Zhang, J. Tan, 和 B. Boots. Cajun：使用学习的质心控制器进行连续适应性跳跃。在机器人学习会议，页面2791–2806。PMLR，2023。

[20] Y. Wang, M. Xu, G. Shi, 和 D. Zhao. 你跌倒时的守护者：用于安全跌落的主动模式转换。arXiv预印本arXiv:2310.04828，2023。

[21] T. Haarnoja, B. Moran, G. Lever, S. H. Huang, D. Tirumala, J. Humplik, M. Wulfmeier, S. Tunyasuvunakool, N. Y. Siegel, R. Hafner, 等。为双足机器人学习灵活的足球技巧。科学机器人，9(89):eadi8022，2024。

[22] J. Dao, H. Duan, 和 A. Fern. 类人机器人箱体运动操控的仿真到现实学习。arXiv预印本arXiv:2310.03191，2023。

[23] Z. Xie, J. Tseng, S. Starke, M. van de Panne, 和 C. K. Liu. 箱体运动操控的层次规划与控制。ACM计算机图形学与互动技术会议论文集，6(3):1–18，2023。

[24] C. Schwarke, V. Klemm, M. Van der Boon, M. Bjelonic, 和 M. Hutter. 基于好奇心驱动的联合运动和操控任务学习。在第7届机器人学习会议，第229卷，页面2594–2610。PMLR，2023。

[25] C. Sferrazza, D.-M. Huang, X. Lin, Y. Lee, 和 P. Abbeel. Humanoidbench：类人机器人全身运动和操控的仿真基准。arXiv预印本arXiv:2403.10506，2024。

[26] Z. Xiao, T. Wang, J. Wang, J. Cao, W. Zhang, B. Dai, D. Lin, 和 J. Pang. 通过提示的接触链实现统一的人类场景交互。第十二届国际学习表征会议，2024。URL: https://openreview.net/forum?id=1vCnDyQkjg。

[27] J. Tobin, R. Fong, A. Ray, J. Schneider, W. Zaremba, 和 P. Abbeel. 领域随机化：将深度神经网络从仿真转移到现实世界。2017 IEEE/RSJ国际智能机器人与系统会议（IROS），页面23–30。IEEE，2017。

[28] Z. Li, X. B. Peng, P. Abbeel, S. Levine, G. Berseth, 和 K. Sreenath. 用于多功能、动态和鲁棒的双足运动控制的强化学习。arXiv预印本arXiv:2401.16889，2024。

[29] Y.-C. Lin, B. Ponton, L. Righetti, 和 D. Berenson. 使用学习的质心动力学预测进行高效的类人接触规划。在2019国际机器人与自动化会议（ICRA），页面5280–5286。IEEE，2019。

[30] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, 和 O. Klimov. 近端策略优化算法。arXiv预印本arXiv:1707.06347，2017。

[31] M. Mittal, N. Rudin, V. Klemm, A. Allshire, 和 M. Hutter. 学习任务对称机器人策略的对称性考虑。arXiv预印本arXiv:2403.04359，2024。

[32] V. Makoviychuk, L. Wawrzyniak, Y. Guo, M. Lu, K. Storey, M. Macklin, D. Hoeller, N. Rudin, A. Allshire, A. Handa, 等。Isaac gym：基于GPU的高性能物理仿真用于机器人学习。在第35届神经信息处理系统大会数据集与基准追踪（第二轮），2021。

[33] N. Rudin, D. Hoeller, P. Reist, 和 M. Hutter. 使用大规模并行深度强化学习在几分钟内学会行走。在机器人学习会议，页面91–100。PMLR，2022。

[34] D. Pathak, P. Agrawal, A. A. Efros, 和 T. Darrell. 通过自监督预测驱动的探索。在国际机器学习会议，页面2778–2787。PMLR，2017。

[35] M. Bellemare, S. Srinivasan, G. Ostrovski, T. Schaul, D. Saxton, 和 R. Munos. 统一的基于计数的探索和内在动机。神经信息处理系统进展，29，2016。

[36] Y. Burda, H. Edwards, A. Storkey, 和 O. Klimov. 通过随机网络蒸馏进行探索。在第七届国际学习表征会议，页面1–17，2019。

[37] H. Tang, R. Houthooft, D. Foote, A. Stooke, O. Xi Chen, Y. Duan, J. Schulman, F. DeTurck, 和 P. Abbeel. #探索：基于计数的深度强化学习探索研究。神经信息处理系统进展，30，2017。

[38] M. S. Charikar. 基于舍入算法的相似度估计技术。在第三十四届ACM理论计算会议，页面380–388，2002。

[39] T. He, Z. Luo, W. Xiao, C. Zhang, K. Kitani, C. Liu, 和 G. Shi. 学习人类到类人机器人实时全身遥操作。在arXiv，2024。

[40] Z. Li, X. Cheng, X. B. Peng, P. Abbeel, S. Levine, G. Berseth, 和 K. Sreenath. 用于双足机器人鲁棒的参数化运动控制的强化学习。在2021 IEEE国际机器人与自动化会议（ICRA），页面2811–2817。IEEE，2021。

[41] 波士顿动力公司. Atlas — 跟跑酷伙伴一起。https://www.youtube.com/watch?v=tF4DML7FIWk，2021。

[42] B. Dynamics. 使用Atlas翻转剧本。https://bostondynamics.com/blog/flipping-the-script-with-atlas/，2021。

[43] J. Li, O. Kolt, 和 Q. Nguyen. 通过自适应模型优化实现连续动态双足跳跃。arXiv预印本arXiv:2404.11807，2024。

[44] Z. Li, X. B. Peng, P. Abbeel, S. Levine, G. Berseth, 和 K. Sreenath. 通过强化学习实现鲁棒且多功能的双足跳跃控制。机器人：科学与系统（RSS），2023。

[45] S. Sato, Y. Kojio, K. Kojima, F. Sugai, Y. Kakiuchi, K. Okada, 和 M. Inaba. 类人机器人携带堆叠箱体的防跌控制。2021 IEEE/RSJ智能机器人与系统国际会议（IROS），页面4118–4125。IEEE，2021。

[46] Y. Ma, F. Farshidian, T. Miki, J. Lee, 和 M. Hutter. 结合基于学习的运动策略和基于模型的操控，用于四足移动操控器。IEEE机器人与自动化快报，7(2):2377–2384，2022。

[47] M. Liu, Z. Chen, X. Cheng, Y. Ji, R. Yang, 和 X. Wang. 基于视觉的四足机器人全身控制。arXiv预印本arXiv:2403.16967，2024。

[48] T. Portela, G. B. Margolis, Y. Ji, 和 P. Agrawal. 学习四足机器人操控中的力控制。arXiv预印本arXiv:2405.01402，2024。

[49] Z. Fu, X. Cheng, 和 D. Pathak. 深度全身控制：为操控和行走学习统一策略。在机器人学习会议（CoRL），2022。

[50] 波士顿动力公司. 你爱我吗？https://www.youtube.com/watch?v=fn3KWM1kuAw，2020。

[51] X. Cheng, Y. Ji, J. Chen, R. Yang, G. Yang, 和 X. Wang. 表现力全身控制用于类人机器人。arXiv预印本arXiv:2402.16796，2024。

[52] Q. Rouxel, K. Yuan, R. Wen, 和 Z. Li. 使用全身优化和顺序力平衡的多接触运动重定向。IEEE/ASME机电学报，27(5):4188–4198，2022。

[53] F. Ruscelli, M. P. Polverini, A. Laurenzi, E. M. Hoffman, 和 N. G. Tsagarakis. 用于物理交互任务的类人机器人多接触运动规划与控制策略。在2020 IEEE/RSJ国际智能机器人与系统会议（IROS），页面3869–3876。IEEE，2020。

[54] Q. Rouxel, S. Ivaldi, 和 J.-B. Mouret. 用于位置控制机器人的多接触全身力控制。IEEE机器人与自动化快报，2024。

[55] M. Shafiee, G. Bellegarda, 和 A. Ijspeert. Manyquadrupeds：为不同四足机器人学习单一运动策略。arXiv预印本arXiv:2310.10486，2023。

[56] T. He, C. Zhang, W. Xiao, G. He, C. Liu, 和 G. Shi. 灵活但安全：学习无碰撞高速四足行走。机器人：科学与系统（RSS），2024。

[57] F. Shi, C. Zhang, T. Miki, J. Lee, M. Hutter, 和 S. Coros. 重新思考鲁棒性评估：对基于学习的四足行走控制器的对抗攻击。机器人：科学与系统（RSS），2024。

[58] L. Campanaro, S. Gangapurwala, W. Merkt, 和 I. Havoutis. 学习并部署鲁棒的运动策略，最小化动力学随机化。arXiv预印本arXiv:2209.12878，2022。

附录

A. 接触奖励符号的示例

在这里，我们通过跑酷跳跃的案例来示范接触奖励的计算。在图7所示的时间步中，接触目标是让右脚踩在石头上，左脚悬空，而任务目标是保持上半身的“拥抱”姿势。我们有：

补充图7：符号示意图，详解见上方。

• 接触序列定义在双脚上：ncon = 2。

• 任务目标已完成，Ftask = 1。

• 接触目标未完成，Fcon = 0。

• 正确接触的数量：ncorr = 1（右脚）。

• 错误接触的数量：nwrong = 1（左脚）。

然后，基于公式（3），当前时间步的接触奖励为：

这意味着如果处于第一个接触阶段，则奖励为1，否则奖励为-1。

B. 消融基线行为

我们在图8中可视化了消融研究中的基线学习行为。我们还展示了它们对应的学习曲线，分别表示平均好奇心值和任务进度（即已完成的接触阶段数除以最大接触阶段数）。

补充图8：基线的学习行为；0-1接触奖励：探索失败；没有阶段计数奖励：故意不完成接触目标；没有好奇奖励：探索失败；基于RND的好奇奖励：以一种危险的方式向后倾斜。

补充图9：基线的学习曲线 WoCoCo的收敛平均进度也以红色可视化，标记出成功的策略学习。

C. 训练稳定性

图10展示了多功能跑酷跳跃任务的平均好奇心值和任务进度（即已完成的接触阶段数除以最大接触阶段数）。

补充图10：跑酷跳跃学习的五个随机种子的学习曲线

D. 对称性增强

E. WoCoCo 奖励权重

补充表1：WoCoCo 奖励权重

F. 正则化奖励

补充表2：正则化奖励

在这里，我们使用以下符号：

如果不希望出现跳跃动作（即除了跑酷跳跃之外的所有任务），则需要两个样式塑形项（“脚部空中停留时间”和“禁止飞行”）。

G. 任务相关奖励

G.1 多功能跑酷跳跃

对于跑酷跳跃任务，仅引入一个任务相关奖励：

G.2 任意位置到任意位置的箱体运动操控

该任务的奖励包括两个项：

对于恐龙球体运动操控，我们去除了方向角的条件。

G.3 动态拍手与踢踏舞

该任务的奖励包括两个项：

G.4 双向悬崖攀爬

该任务的奖励包括两个项：

H. 策略观察与架构

本研究中的策略观察由两部分组成：本体感知和目标表示。这里没有使用相机和激光雷达观察，但我们的框架并不排除它们的使用。目标表示通过运动捕捉系统作为原型提供。

H.1 本体感知

我们使用以下本体感知观察（在所有任务中共享）：关节位置、关节速度、先前的动作、基座线性速度和角速度，以及投影重力。关节位置、关节速度和先前的动作通过3个控制步骤进行堆叠。

H.2 目标表示

对于多功能跑酷跳跃任务，我们将未来两个阶段的目标表示输入到策略网络中，这样机器人就可以为未来的目标调整脚踏位置。对于其他任务，我们仅输入当前阶段的目标表示。这种设计使我们的策略在部署期间能够适应不同的序列长度。

H.2.1 多功能跑酷跳跃

接触目标由每个脚在基准框架中的下两个石块的角点表示，当脚打算悬空时，这些角点的值设置为零。任务目标由期望的肘部方向和基准框架中的位置表示。

H.2.2 任意位置到任意位置的箱体运动操控

接触目标表示为箱子侧面中心点在机器人基准框架中的位置，任务目标表示为目标位置在基准框架中的位置。

H.2.3 动态拍手与踢踏舞

我们使用合并的接触和任务观察：对于左、中、右的情况，使用独热向量表示，同时使用机器人在世界框架中的 x、y 和偏航值。这适用于类人机器人需要在固定区域内跳舞的场景。

H.2.4 双向悬崖攀爬

任务目标始终已完成，因此我们只需要接触目标表示：当前和下一个接触阶段所有目标区域的角位置在基准框架中的位置。

H.3 神经网络架构

演员和评论员均为多层感知器（MLP），隐藏层大小为 [512, 256, 128]。

I. 好奇心细节

I.1 好奇心观察

我们的好奇心观察包括机器人的基座状态和末端执行器状态。基座状态包括世界框架中的位置、方向（四元数）、基座的线性和角速度。末端执行器状态包括所有末端执行器在世界框架中的位置和接触状态。

为了确保数值稳定性和推广能力，我们考虑了以下三种预处理方法：1. 基于最大可能范围将观察值归一化到 [0, 1] 之间。2. 基于最大可能范围将观察值归一化到 [0, π] 之间，并将每个值转换为其正弦和余弦值。3. 在方法（2）的基础上，使用进行重新缩放，使得好奇心变得与阶段相关。

我们发现上述设置对结果没有显著差异，本文报告的结果使用的是方法（2）。然而，我们在这里展示所有这些设置，以启发进一步的研究和讨论。

I.2 神经网络架构

好奇心哈希网络有一个隐藏层，包含32个隐藏单元，并且输出为16维。

J. 域随机化

补充表3：用于模拟到现实转移的域随机化

K. 模拟到现实的课程设计意义

我们的模拟到现实的训练课程包括3个阶段。通过消融实验，我们展示了这一设计的意义。

补充图11：没有模拟到现实课程的最后阶段，真实世界中的行为可能会出现剧烈波动。例如，在悬崖攀爬过程中，由于剧烈的动作，机器人经常会踏出悬崖边缘（白色虚线所示），尽管所有接触目标都设置在边界内。

K.1 将域随机化移至第1阶段

如果我们将域随机化从第2阶段移到第1阶段，即合并前两个阶段，我们发现过度的随机化会妨碍策略学习。例如，在学习跑酷跳跃策略时，这种合并会导致平均进度收敛到低于0.6，而标准WoCoCo中的进度则大于0.75。

K.2 取消第3阶段

在第3阶段，我们逐渐增加正则化项的权重。如果取消这个阶段，我们发现学习到的行为在现实世界中可能变得过于激进，这可能导致即使是在最不动态的任务中（如悬崖攀爬）也会发生失败，如图11所示。

L. 部署细节

L.1 控制

我们的策略以50Hz的频率更新，而PD控制器以200Hz的频率更新力矩命令。我们对PD目标应用4Hz带宽的巴特沃斯低通滤波器，以避免输出出现剧烈波动。

L.2 真实到模拟

我们发现官方的URDF文件中包含了显著偏差的躯干质量和错误的脚部几何形状，因此我们自行对躯干质量进行了加权，并测量了脚部的几何形状。

声明：本文素材来源https://arxiv.org/pdf/2406.06005 致敬原作者。侵权可后台联系删除。

篇幅所限，以上仅摘录部分内容。

如需获取英文原版、中文版本，

请加入知识星球，并搜索编号“A260”获取详细资料。

另在知识星球新增了一篇非公开资料，

《四足机器人的传统运动控制方法（编号S166）》

http://mp.weixin.qq.com/s?__biz=MzIwNTY3MzgwMQ==&mid=2247498736&idx=1&sn=b9365f920b0d4e04acbef7b97d62f260

AI工业

树立大江大海大格局，练基础基层基本功。共同打造落地的、一流的工业智能产品。

WoCoCo「使用序列接触学习全身类人控制」论文 苏黎世联邦理工大学等

WoCoCo「使用序列接触学习全身类人控制」论文苏黎世联邦理工大学等