(本文素材源于论文2405.01792v1)自主轮腿机器人具有改变物流系统的潜力,可以提高城市环境中的操作效率和适应性。然而,在城市环境中导航对机器人提出了独特的挑战,需要创新的运动和导航解决方案。这些挑战包括在不同地形上实现自适应运动的需求,以及在复杂动态障碍物周围高效导航的能力。本文介绍了一个完全集成的系统,包括自适应运动控制、移动感知局部导航规划和大规模城市路径规划。通过使用无模型强化学习(RL)技术和特权学习,我们开发了一个多功能的运动控制器。翻译而来供参考,亦可阅读英文原版、中文版本(见文末)。
图 1. 城市环境中的部署场景。我们的轮腿式机器人控制系统在多种室内外环境中进行了广泛验证。实验地点包括瑞士苏黎世和西班牙塞维利亚。(A) 运动挑战;(B) 导航挑战:动态和静态障碍、复杂地形以及狭窄空间;(C) 苏黎世的测试地点;(D) 塞维利亚的测试地点。
该控制器实现了在各种复杂地形上的高效和稳健运动,通过行走和驾驶模式之间的平滑过渡来实现。它通过分层强化学习框架与学习到的导航控制器紧密集成,使机器人能够在挑战性的地形和各种障碍物中高速有效导航。我们的控制器已集成到大规模城市导航系统中,并通过在瑞士苏黎世和西班牙塞维利亚进行的自主千米级导航任务进行验证。这些任务展示了系统的稳健性和适应性,强调了集成控制系统在实现复杂环境中无缝导航中的重要性。我们的研究结果支持了轮腿机器人和分层强化学习在自主导航中的可行性,并对最后一公里配送等应用领域具有重要意义。
引言
城市地区的居民数量占总人口的相当一部分,这对供应链物流,尤其是最后一公里配送,构成了重大挑战。日益增加的交通流量和对更快配送服务的需求给我们的道路带来了额外压力。通过将依赖从个人机动车运输转向智能且多功能的机器人解决方案,我们可以显著提高城市配送的效率。此外,最后一公里配送路线不仅限于街道,还可以包括室内路线,为人力提供了高效的替代方案。为了履行所有这些任务,机器人必须在平坦地面上既要快速又高效,同时能够克服楼梯等障碍物。传统的轮式机器人无法有效地跨越这些障碍物,单纯的腿式系统也不足以实现所需的速度和效率。例如,ANYmal 机器人[1]在最大运行一小时的情况下,其速度仅为普通人步行速度的一半(平均速度为2.2公里/小时[4])。
轮腿机器人提供了一个全面的解决方案,能够满足这些需求[5–8]。我们的研究专注于开发一种轮腿机器人,如图1所示,其具有与腿部集成的驱动轮[6]。与其他物流平台不同,这种设计使得机器人能够在长距离上有效工作,在中等表面上实现高速运动,同时在具有挑战性的地形上保持敏捷性[9, 10]。然而,要在自主的现实世界应用中充分发挥这些机器人的优势,必须解决几个挑战,包括解决混合轮腿运动(混合运动)、实现平稳高效的导航,以及实现一个将运动和导航模块无缝集成到自主应用中的完整系统。
首先,混合运动依然是腿式机器人领域的一个挑战。现有的混合运动方法基于简单的启发式规则来决定何时步行和何时驱动[10],或者依赖于预定义的步态序列[11, 12]。大多数为腿式机器人设计的控制策略都采用了手工制作的步态模式[13, 14]或受自然启发的运动原语[15, 16],但我们无法从生物体的观察中汲取灵感来为轮腿机器人设计步态。为每种情况确定一个有效的轮腿步态并不简单,因为速度和效率在很大程度上取决于运动的方向和选择的步态。例如,减少步态的使用可以降低轮腿机器人的运输成本(COT)[10],但传统的腿式机器人方法通常没有考虑步态切换,因此在应用到轮腿机器人时往往会导致次优结果。一些方法直接优化COT[17, 18]并通过步态适应展示了改进的性能,但这些结果仅限于室内环境或中等地形,且机器人主要是向前移动。为了生成更复杂的结合驾驶和行走的运动,轨迹优化技术已被用来直接优化步态并发现复杂的行为,如感知地形的步态和滑行[9, 19]。然而,这些方法计算开销大,且通常依赖于接近最优的初始化。此外,一些方法为了提高计算效率,牺牲了模型的精确性,例如忽略了轮子的动力学,这导致在实际机器人上表现不佳。
其次,传统的导航规划方法常常忽视了高动态机器人的独特特点,导致了次优的导航规划。城市环境大多由平坦开阔的区域组成,需要高效的高速穿越来覆盖大距离。同时,它也布满了楼梯和不平的地形等障碍物。为了实现速度、效率和障碍物的有效协商,导航算法必须考虑动态混合运动的特点。这一理解对于发布指令至关重要,可以优化平坦地形上的效率,同时在面对障碍物时保持灵活性。许多现有方法[20, 21]基于显式的导航成本,如可通行性[21, 22],而未考虑机器人的全身状态。这些方法专注于通过在估算的成本图上进行基于采样的规划来生成运动学导航规划。因此,这些方法往往无法考虑机器人的各种动态特性,如依赖地形、命令速度或步态的跟踪误差变化。结果,它们可能会导致频繁的转弯和步态动作,从而降低效率。
除了上述问题,轮腿机器人更高的速度能力带来了对更短反应时间的需求,这也引发了安全问题,并要求更加响应迅速的控制系统。为腿式机器人设计的最先进的基于采样的规划方法通常需要几秒钟才能计算出一条路径[20]。然而,当机器人以每秒几米的速度运行时,依赖这些规划方法需要长时间的预见性,并可能在动态环境中导致碰撞。在动态环境或涉及人类存在的情况下,确保安全需要比传统规划方法提供的更快速、更频繁的决策能力。
最后,实现机器人系统的自主性是一个巨大的工程挑战,需要无缝地集成各种子模块。传统上,这些子模块都是孤立开发的,重点关注每个组件的功能。它们的协调往往依赖于启发式方法来进行模块间的通信,而这些工程化的启发式方法通常限制了系统的平稳和稳健运行。例如,Cerberus团队在DARPA地下挑战赛期间开发了一个经典腿式机器人的自主系统[2]。该项目揭示了在实际机器人应用中面临的重大操作挑战。特别是在挑战赛期间观察到的问题包括机器人在路径中途频繁暂停重新规划,或试图遵循预定路线时呈现锯齿形运动。这种不连续或振荡的行为可能会降低效率,妨碍机器人应对复杂动态场景的能力。在某些情况下,当计算的导航路径未能准确遵循时,可能会发生导航失败[20]。
在这项工作中,我们开发了一个大规模的自主导航系统,专为轮腿机器人设计,实现了导航和运动控制之间的无缝协调。我们的方法将混合运动控制与基于模型的强化学习(RL)和特权学习[15, 23, 24]相结合,并通过分层强化学习(HRL)优化了导航控制器。运动和导航控制器均通过模拟数据进行训练。将这些控制器集成到一个全球导航框架中,该框架旨在通过模拟送货任务进行现实世界验证。在该框架内,数字孪生用于实验规划和车载定位。我们在瑞士苏黎世和西班牙塞维利亚的城市区域进行了广泛的测试,证明了系统在复杂环境中的自主性,成功完成了跨越各种地形和障碍物的千米级任务。我们学习到的控制器实现了自适应步态选择、有效的地形协商和响应式导航,能够安全地避开静态和动态障碍物。我们的实际评估强调了轮腿机器人在实际应用中实现高效、稳健自主的潜力。附加的比较研究验证了我们紧密集成的导航控制器相较于传统系统的优势。
结果
系统概述
我们首先详细介绍了构成我们自主导航系统的每个组件。图 2 提供了我们系统的概述。
图2. 系统概览。(A) 我们的轮足四足机器人配备了各种载荷,用于机载地形映射、障碍物检测和定位。(B) 导航系统概览。该系统由两个神经网络策略驱动,分别操作于不同的层次。高层导航策略观察两个路径点(WP 1和WP 2),并生成目标速度指令供运动控制策略使用。低层运动控制策略随后控制关节执行器并跟随速度指令。(C) 我们的训练环境旨在动态生成每个训练回合的新导航路径,从而优化学习过程。通过利用预生成的无障碍路径,我们增强了系统的导航能力。
机器人
本研究中使用的轮腿机器人如图 2A 所示。机器人携带了多个载荷,包括三个激光雷达 (LiDAR) 传感器、前方的 RGB 立体摄像头、一个配送箱、一个 5G 路由器和一个 GPS 天线。它们用于多种目的,如定位、地形映射和人类检测,构建了安全层。我们集成了具有高频物体检测能力的 RGB 摄像头,因为基于点云的地形映射不能很好地捕捉动态障碍物。这使得机器人能够实时跟踪 20 米范围内的人物。在接下来的局部导航中,我们通过在检测到的人的位置周围添加偏移量,在高度图中创建了一个缓冲区。更多的技术细节请参见附录材料。
导航系统
我们的导航系统如图 2B 所示。给定一个全局导航路径,通过一系列图节点表示,我们提取了两个中间点,分别表示为 “WP1” 和 “WP2”。受到纯追踪算法 [25] 启发,我们通过插值的方式在机器人的当前位置和下一个图节点之间设置了两个中间目标点,且具有固定的前瞻距离。
我们的机器人通过低级控制器 (LLC) 跟踪这些中间目标点,LLC 由高级控制器 (HLC) 指令控制,两者都是通过强化学习 (RL) 训练的神经网络。HLC 以目标点为输入,生成 LLC 的速度目标,更新频率为 10 Hz,这与车载高度图更新率 [26] 一致。LLC 则以 50 Hz 的频率生成关节位置和轮速命令。
本研究的主要技术贡献在于我们 HLC 的开发。该控制器将局部导航规划和路径跟踪控制结合在一起,而传统上这需要分开的模块。
运动控制器 (LLC)
我们通过利用无模型强化学习 (RL) 开发了一个强大且多功能的轮腿机器人运动控制器。我们的 LLC 由基于递归神经网络 (RNN) 的策略驱动,并在 Miki 等人[16]提出的感知运动控制器的基础上进行了改进。我们对观察空间和动作空间进行了修改,以提高鲁棒性,并去除了工程化的运动原语([16]中的 CPG)。更多技术细节见《材料与方法》部分。
在最小依赖人类直觉的情况下,我们实现了一个能够做出关于步态决策并在行走和驾驶模式之间平滑过渡的运动控制器。该控制器通过特权学习[15, 23, 24]在模拟环境中训练。在训练过程中,智能体利用仅在训练阶段可用的额外信息来增强模型的性能。我们将机器人运动信息(包括速度、加速度、地形特性和无噪声的外部测量)作为特权信息。在部署阶段,最终的策略仅依赖于惯性测量单元(IMU)、关节编码器和车载地形高度图的原始测量数据。与 Ji 等人[27]提出的方法类似,我们使用原始的 IMU 和编码器测量数据,而不是使用传统的状态估计器。这减少了对启发式噪声过滤的依赖,并消除了对准确状态估计(如方向和速度估算)的需求。此方法在操作困难地形时表现出增强的鲁棒性,在运动控制方面导致更少的故障点。
移动感知导航控制器 (HLC)
HLC 取代了传统的导航设置,包括路径规划、路径跟踪和模块间通信层[2]。我们的方法不再显式地规划未来的姿势和计算参考速度,而是直接计算高频的速度目标。
HLC 处理多个输入模态,包括 LLC 策略的隐藏状态、机器人周围的地形高度值,以及一系列以前访问过的位置及相应的访问时间。与使用标准的本体感知观察不同,HLC 访问 LLC 的信念状态。这个潜在状态捕捉了环境信息,如地形特性和扰动,正如[15, 16]所支持的那样。此外,HLC 处理了记录在 50 厘米间隔的 20 个以前访问过的位置,涵盖的距离可达 10 米,约为通常的目标点间距。通过历史数据,HLC 可以基于机器人之前的导航经验做出有根据的决策。
我们的 HLC 在图 2C 所示的模拟环境中进行了训练。在每一轮训练中,都会生成新的无障碍路径,并在路径上随机间隔采样两个目标点。
训练环境
我们采用了计算机游戏中的“导航图”概念[28, 29],为智能体提供可解但具有挑战性的导航问题(见图 2)。该模拟环境采用了名为 Wave Function Collapse (WFC) [30] 的程序化内容生成算法,构建了一个 outlining 可行路径和安全区域的图。训练环境提供了多样的导航挑战,包括绕行、动态障碍、粗糙地形和狭窄通道。正如《材料与方法》中所述,我们以受控的方式结合了不同的障碍物,并在训练期间奖励 RL 智能体遵循最短路径到达目标点。与随机放置障碍物和目标点训练的策略相比,这种方法提升了性能。
千米级自主部署
完整的任务视频 S1(如下)
我们在不同的城市环境中进行了自主导航任务。这些实验分别在瑞士苏黎世和西班牙塞维利亚进行。我们的系统能力总结在视频 1 中。此外,我们还通过视频 S1 展示了一个完整的任务,以展示每个实验的规模。
图3. 苏黎世Glattpark的大规模自主导航实验。(A) 我们的城市导航工作流程始于离线准备,涉及使用手持激光扫描仪扫描测试区域并构建导航图。(B) 机器人自主导航于城市环境中,成功到达13个预定目标点,这些目标点按任意顺序选择。(B-i, ii) 城市内的路径规划由预生成的导航图支持。(B-iii) 机器人行驶速度与运输机械成本与常规四足机器人(ANYmal-C)相比。
图3 总结了我们在苏黎世 Glattpark 进行的模拟送货任务。我们的机器人在最小人工干预的情况下,成功覆盖了 8.3 公里的总距离。
我们首先展示了图 3A 中的工作流程。为了开始,我们使用手持激光扫描仪捕获了实验区域的密集彩色点云。扫描过程大约花费了 90 分钟,覆盖了一个 245 米 x 345 米的城市区域。随后,我们对点云进行了地理参考,并将数据转换为网格表示,这有助于创建导航图并由人类专家放置目标点(见图 3A-iii 和图 3B-ii)。导航图的目的是提供拓扑指导,并指示社会偏好,如避开绿化带和私人财产。
在机器人的部署过程中,它通过其 LiDAR、IMU 和关节编码器读取与预先扫描的参考点云进行本地化。通过这种设置,机器人可以接收一个单一的 GPS 目标,并自动导航到目标位置。选定的目标点通过移动网络发送到机器人,参考路径通过车载最短路径算法计算[31]。生成的路径通过 LiDAR 本地化转换为机器人相对坐标,并在预扫描的点云地图中用于导航策略。需要注意的是,点云仅用于定位,不用于导航[32]。我们发现这种定位方法在高层建筑之间比基于 GPS 的方法更加鲁棒。
图 3B-i 展示了机器人在多个长时间实验中所经过的路径,每次实验持续超过 30 分钟。在这些实验中,我们手动选择了 13 个远距离的目标点,以最大限度地覆盖实验区域。这一设置要求机器人在成功到达每个目标点的过程中,克服多种障碍物。
图 3B-iii 展示了机器人在运动过程中速度和机械运输成本(COT)的直方图。我们将机械运输成本定义为
其中,τ 表示关节扭矩,θ˙ 是关节速度,mg 是总重量,|vbxy| 是机器人底盘的水平速度。该量表示每单位重量和单位运动速度下,执行器所施加的正机械功率[6, 15]。
我们的机器人达到了平均速度 1.68 m/s,机械运输成本(COT)为 0.16。相比之下,我们提供了一个 ANYmal 机器人在 DARPA 地下挑战赛中,主要穿越平坦和城市地形时的平均速度和 COT 数据[2]。数据来自 [33] 中的 ANYmal 4。我们的机器人展示了三倍的速度,并且 COT 低了 53%。需要注意的是,我们仅比较了输出的机械功率。其他导致能量损失的主要因素,如热损失和执行器传动的机械损失,在持续行走运动中也会影响,从而可能减少整体效率。
这一改进主要归因于驾驶模式,在该模式下,重量均匀分布在四条腿上,使得腿关节保持相对静止。持续的步态导致了负载集中在少数几条腿上,需要更高的关节扭矩和速度。在驾驶模式下,关节执行器几乎不产生机械运输成本(约为 0.01)。与典型的 ANYmal 机器人在运动时相比,我们的机器人在行走时,轮子的机械功率大约是总机械功率的 1.2 倍,同时实现了 3.4 倍更高的平均运动速度。在仅评估腿部关节的平均 ∑ τ² 时,尽管我们的机器人比 ANYmal 机器人更重(约 12 公斤)且速度更快,但其表现出的值低了 16%。该量与热损失直接相关[34, 35]。
图4. 人口密集城市环境中的挑战。(A) 城市环境中存在各种障碍物。一些障碍物需要避开,例如行人或电线杆,其他障碍物则可以穿越,如楼梯或台阶。(B) 在以下三种情况下,我们需要干预并停止任务。
图4 展示了我们的机器人在任务中遇到的主要挑战,包括行人、各种障碍物和不平坦地形。我们的机器人在各种情况下展示了绕过行人的能力,即使是在坡道或楼梯上,如视频 1 和视频 S1 中所示。
此外,我们的机器人能够避开细小的障碍物,例如图 4A-ii 第一张图中显示的杆子,以及各种离散的地形,如台阶和楼梯。
由于 HLC 和 LLC 的训练目标是最小化机械运输成本(COTmech)和 ∑ τ²,机器人通常在平坦地形上以驾驶模式行驶。然而,当遇到不平坦的地面时,机器人会切换到步态。值得注意的是,这种步态切换是通过学习获得的,而不是依赖于像中央模式发生器(CPG)或预定义步态序列等手工设计的启发式方法。此外,我们的控制器在处理各种地面(包括草地、沙地或碎石)时表现出了鲁棒性,这归因于 LLC 的特权训练[15]。
在任务中,我们在三种情况下进行了干预,这些情况展示在图 4B 中。首先,机器人在路径上遇到有儿童的情况。尽管我们的导航模块很可能像绕过成人一样安全地绕过儿童,但我们优先考虑安全,主动停止了机器人。
其次,我们遇到了一些情况下,目标点位于无法通行的区域。例如,在创建导航图和机器人部署之间,草长得很高,阻挡了路径。因此,这成了导航使用的局部高度图中的一个障碍物。机器人在高草前安全停车,我们手动触发了全局重新规划,以绕过这个障碍物。
最后,我们在几何退化环境中遇到了定位挑战,如长走廊。这意味着参考路径变得无效,提供了不可行的、可能具有危险性的目标点。我们的机器人控制器通过依赖车载本地地形映射安全地操作,但在定位恢复之前,机器人无法到达目标点。
局部导航
图5. 障碍物协商。(A) 我们的机器人通过主动探索区域并寻找替代路径,绕过被堵塞的路线。(B) 安全穿越狭窄空间。(C) 我们的机器人展示了两种不同的穿越复杂障碍的方式。(C, D) 我们的机器人展现了不对称的可通过性理解,在下坡时能够穿越更高的台阶。(D) 通过结合额外的人体检测和覆盖高度扫描值,我们确保在人的周围保持安全。
在图 5 中,我们展示了几个最能体现我们系统局部导航能力的示例场景。这些场景的序列可以在视频 S2 中查看。
视频 S2(如下)
在第一个案例中(图 5A),我们展示了当机器人遇到堵塞路径时的探索行为。机器人倒退并沿墙壁移动,寻找开口,直到找到通向最终目标点的楼梯。机器人的显式位置记忆使其能够推理出以前访问过的位置,并通过复杂的障碍进行导航。
图 5B 展示了我们的机器人在狭窄走廊中的导航能力。它成功地通过了两扇门,中间有一个人站着,门缝宽度与机器人的宽度相同。即使在此次部署中未启用人类检测,机器人也能够在不发生碰撞的情况下通过狭窄空间。这一例子展示了我们的导航控制器的精确性和实时轨迹调整,使其适用于空间有限和通道狭窄的环境。
我们进行了一个复杂障碍物的测试,如图 5C-1 所示。该障碍物一侧有一个小楼梯,另一侧有一个高度可变的台阶,高度范围从 0 到 50 厘米。当提供一个目标点在台阶上方时,我们的机器人展示了两种不同的应对方式。
最初,当面对被阻挡的路径时,机器人倒退并开始探索。在这一阶段,它可以找到楼梯向上爬,或者继续探索以找到更低的台阶高度。第二种情况是,机器人沿台阶行驶后,发现了一个可行的高度,大约为 20 厘米。这个例子展示了我们分层控制器的有效性,能够根据地形无缝适应步态,并在复杂路径中展示了高度的多样性。
我们观察到 HLC 在上台阶和下台阶时对通行能力的理解是不对称的(图 5D)。具体来说,机器人在下台阶时能够通过较高的台阶,这表明它对地形的理解比基于成本图的通行性估计方法[21, 26]更为先进。传统方法通常使用对称的通行性地图,这些地图与运动方向无关,而我们的方法是基于当前的地形、机器人的状态以及低级控制器的特性来做出决策。
在图 5E 中,我们展示了如何通过动态障碍物增强静态本地高度图的策略。我们采用基于摄像头的人类检测,在个体周围的 50 厘米半径内引入高度偏移。当机器人遇到沿路径移动的人时,经过训练的 HLC 能够与人保持恒定的距离,允许机器人安全地超越。
混合运动
图6. 不同情境下的运动行为。(A) 不同地形上的步态。机器人从左到右移动,跟随摇杆给出的目标速度指令(最高可达2米/秒)。图表展示了每个地形的轮接触序列。(B) 跨越两个极端障碍的运动序列。(i) 机器人在下降过程中经历了完整的飞行阶段,同时保持稳定性。(ii) 在穿越高障碍时,机器人有时会利用其他身体部位,如膝盖。(C) (i) 机器人在给定命令速度下,爬升和下降时的最大台阶高度。(ii) 机器人在给定命令速度下,能够穿越的最大地形坡度。
我们在各种真实世界的地形上评估了 LLC,观察了其产生的步态并评估了其鲁棒性。我们在视频 S3 中提供了我们的运动实验亮点。LLC 根据指令速度和地形自适应步态。我们在图 6 中展示了该策略在不同地形上的测试结果。我们的前期基于模型预测控制(MPC)的方法[10]缺乏鲁棒性,无法在图 6 所示的环境中操作。此外,我们的控制器在平坦地形上达到了最大速度 5.0 m/s,硬件限制允许的最大速度为 6.3 m/s,这是由最大关节速度 45 rad/s 乘以轮子半径 0.14 m 确定的。
视频 S3(如下)
图 6A 展示了不同地形下的行为。当穿越一个大离散障碍物(图 6-i)时,机器人展示了结合爬行[36]和驾驶的非对称步态。当爬楼梯或陡坡时,机器人像普通的点足四足机器人一样小跑[16](图 6-ii 和图 6-iii)。相反,机器人在起伏地形上行驶,其中的高度偏差与轮子的半径相当(图 6-iv)。策略调整每条腿的伸展范围,以保持主车体稳定,并保持轮子与地面的接触,起到主动悬挂的作用。步态模式根据地形条件,如坡度或摩擦力进行调整。此外,策略还根据情况调整主车体的高度。例如,在下坡时,策略降低了车体高度以增强稳定性,防止翻倒(图 6-v)。
在图 6B 中,我们展示了两种涉及高离散障碍物的场景。在图 6B-i 中,我们指令 LLC 驶下约 60 厘米高的桌子。随着前腿下降,机器人伸展前腿并蹲下后腿以保持主车体水平。一旦前腿接触到地面,前轮继续滚动以恢复平衡。在图 6B-ii 中,我们展示了机器人穿越一个约 40 厘米高的块。在块的中部(ii-2),所有轮子都离开了地面。然后,机器人用膝盖向前爬,直到其中一个轮子重新接触地面。这个例子展示了使用无模型 RL 的优势[37]。
图 6C 提供了运动性能的定量评估。在图 6C-i 中,我们展示了步态的最大可通过高度与指令速度之间的关系。我们的机器人在下坡时能够穿越更高的台阶,这一观察结果与图 5CD 中的结果一致,其中我们的 HLC 避免了高台阶以防止膝盖碰撞并确保安全。在图 6C-ii 中,我们在模拟环境中测试了 LLC 在摩擦系数为 0.7 的坡道上的表现。机器人被指令以固定的线性速度向坡道上爬升,成功的标准是它能爬升 2 米。我们观察到,只有在坡度较陡且指令速度超过 0.5 m/s 时,步态行为才会出现,如图 6A-iii 所示。通过步态,机器人能够爬升更陡的坡道。此分析展示了我们的 LLC 在步态模式和通行能力方面的复杂特性。传统的基于模型的规划和路径跟踪方法将难以识别和适应这些复杂性。
与传统导航方法的比较
我们将我们的方案与 Wellhausen 等人[4]提出的传统基于采样的导航规划器进行了比较。该局部导航规划器由 Cerberus 团队在地下挑战赛中使用[2],是为传统腿式机器人设计的。对于这两种方法,我们使用了相同的 LLC。
图7. 与传统方法在点目标导航设置中的比较。(A) 实验设置。给定一个目标点,目标点位于包括楼梯和墙壁的复杂障碍物中。机器人初始化时,偏航角在-π/4到π/4之间均匀采样,朝向目标点。(B) 我们的方法与基线的视野。(C) 两种方法的轨迹。我们的方法显示出根据初始探索方向的两条不同轨迹。(D) 失败案例。(D-i) 当探索路径超过了内存容量时,我们的控制器卡住了。(D-ii) 没有内存时,我们的方法经常陷入局部最小值。(D-iii) 基线方法因过度自信于遮挡区域和重新规划延迟而出现问题。(D-iv) 基线的路径跟踪控制器存在高位姿跟踪误差,导致频繁碰撞。(E) 性能的定量评估。每种方法的实验重复10次。(E-i, ii) 10次试验中的失败率和碰撞率。(E-iii) 规划时间对比。误差条表示标准差。加号表示异常值。(E-iv) 实验中的跟踪误差直方图。基线方法显示出两个高峰。
我们在点目标导航设置中进行了实验,如图 5A 所示。该区域使用激光扫描仪进行扫描,以创建一个模拟环境,如图 7A 所示,固定起始点和目标点。
图 7B 展示了我们 HLC 和基准方法的视场。为了适应物理部署中的限制,我们将地图范围限制为 x 和 y 方向各 3.5 米。这个决定在机器人以高达 2 m/s 的速度移动时尤为重要。使用更大的地图会减慢高度图更新速度,并导致较高的延迟和未更新的区域。
图 7C 展示了两种方法成功到达目标时的轨迹。我们的方案探索了环境,直到发现楼梯。基准方法也能解决这个问题,但在假设遮挡区域可通行时,基准方法由于延迟问题持续发生碰撞,下面将解释这一点。
图 7D 展示了失败的案例。我们的方案有时会在探索完开阔区域后卡住(图 7D-i)。位置记忆变得满载,智能体无法进一步探索。此外,我们没有记忆地训练了我们的方案,以验证位置记忆的重要性。没有记忆的策略表现出重复行为,难以摆脱局部最小值(图 7D-ii)。
基准方法面临两个挑战:遮挡处理和运动控制器的跟踪误差。尽管一些启发式方法可以帮助缓解遮挡问题,但基准方法由于重新规划的延迟,其应对变化情况的能力有限。关于第二个问题,大多数现有方法假设跟踪是完美的,然而,实际的运动控制器存在延迟和跟踪误差。图 7D-iv 说明了这个问题,在远距离的姿态目标下,导致高速度命令和超调。机器人无法准确地跟踪下一个目标点并发生碰撞。这一问题在处理高速机器人和粗糙地形时尤为突出。
在图 7E-i 中的定量分析中,我们的方案在完全记忆情况下表现出了最低的失败率。没有记忆的方案表现出了最高的失败率。失败率的比较突出了在部分可观测场景中探索行为的优势。与基于采样的基准方法只能在提供的地图内进行探索不同,我们的方法使机器人能够动态探索新的区域,从而提高了成功率。此外,‘没有记忆’的结果强调了记忆机制在静态环境中促进有效探索的重要性。值得注意的是,只有我们的方法实现了无碰撞轨迹(图 7E-ii)。这归功于我们 HLC 的精确转向能力,它尊重运动策略的能力。
我们方法的另一个优点是其计算效率(图 7E-iii)。从更新观察到推断神经网络,我们的高层控制器平均用了 0.34 毫秒。相比之下,基准方法根据环境复杂度的不同,有时需要超过一秒钟来更新桌面计算机上的导航计划(AMD Ryzen 9 3950X,GeForce RTX 2080)。
基准方法的高失败率也可以归因于不完美的路径跟踪。在图 7E-iv 中,直方图展示了两种方法的跟踪误差分布。我们的方案和基准方法的平均跟踪误差分别为 0.24 m/s 和 0.45 m/s。基准方法在直方图中表现出高跟踪误差的峰值,这发生在指令速度有离散变化或机器人指令过于接近障碍物时,导致 LLC 拒绝跟随指令。相比之下,我们的高层控制器在与低层控制器联合训练时,展示了均匀分布的跟踪误差统计数据,且跟踪误差始终较低。
讨论
本文展示的轮腿机器人系统在复杂城市环境中实现自主性和鲁棒性方面取得了显著进展。移动感知导航规划和混合运动的集成使得系统能够在确保高效和快速导航的同时,成功穿越挑战性地形和障碍物。
我们的实验验证了所提出系统在真实场景中的有效性。我们的轮腿机器人完成了城市环境中的千米级自主任务,几乎没有人工干预。它成功穿越了楼梯、不规则台阶、自然地形和行人等各种障碍物。
我们的结果展示了相较于传统导航规划方法的几个显著优势。首先,我们的分层控制器主动探索当前感知之外的区域。与传统的基于采样的方法不同,我们的方法使机器人能够动态探索新区域,从而提高了成功率。记忆的集成使机器人能够推理之前访问过的位置,增强了它在复杂环境中的决策能力。
我们方法的另一个主要优势是其响应能力。控制器能够动态反应未感知的障碍物,并有效地在有行人的城市环境中导航,持续适应变化的情况。实时数据和快速计算的结合使机器人能够利用最新信息,增强其在挑战性地形中导航和避障的能力。
此外,所展示的混合运动控制器在穿越各种粗糙地形时表现出了鲁棒性和多样性。我们实验中观察到的自适应步态,例如针对大离散障碍物的非对称步态、针对颠簸地形的轮式运动和楼梯及陡坡的 trotting 步态,展示了控制器在高效穿越不同地形时的能力。
然而,未来改进中仍有重要方面需要考虑。其中一个方面是将语义信息融入我们的系统。目前,我们的系统主要依赖几何信息进行导航,且语义信息的利用较少(例如调整高度图以保障人类安全)。更先进的场景理解,例如铺路检测或视觉通行性估计[38],将使机器人在导航过程中做出更明智的决策。这在 Sorokin 等人的工作中得到了体现[39],他们建议增强机器人在视觉上区分地形的能力,从而实现更安全的城市导航。
另一个重要要求是快速的感知和广视角。目前我们的 HLC 依赖于机器人前方最多三米的有限视场,这一限制是由使用高度图造成的[26]。虽然我们的系统在所展示的场景中感知能力有效,但在更快速的任务或高不确定性的环境中可能存在限制。我们的机器人硬件能够以最高 6.2 m/s 的速度运动,但由于延迟和有限的映射,我们无法在自主部署中展示最大速度。移除地形高度图并依赖快速的原始传感器流将是未来改进的一个有前景的方向。
总之,所展示的轮腿机器人系统展示了使用数据驱动方法在复杂和动态的城市环境中实现鲁棒自主性的潜力。尽管仍然存在一些挑战,如提高感知能力或减少地图创建中的人工劳动,但我们的研究为轮腿机器人和自主城市应用领域的未来进展铺平了道路。
总的来说,我们的研究为轮腿机器人和城市环境中的自主导航提供了不断增长的知识基础。所展示的系统的鲁棒性、适应性和高效性为改变最后一公里配送并解决城市流动性挑战提供了巨大的潜力。
材料与方法
我们的主要目标,如图 2B 所示,是开发一个强大的控制系统,使机器人能够沿着一个预定义的全局路径导航,该路径由一系列间隔大约 2 米到 20 米的目标点组成。全局路径可以使用图规划器[40]生成,或者手动定义。值得注意的是,尽管全局规划对于整体导航过程至关重要,但本研究的范围不包括此部分内容。
由于篇幅限制,我们对我们方法的全面验证将在补充材料中展示。
方法概述
受现有文献[41, 42]的启发,其中复杂任务的分层分解能够加速学习并提高性能,我们采用了 HRL(分层强化学习)来扩展我们之前的基于学习的速度跟踪控制器[16],实现目标点跟踪导航。在本节中,我们将介绍我们方法的概述,从定义分层结构开始。
定义分层结构
为了应对目标点跟踪导航问题,我们采用了 [43] 提出的二级 HRL 框架。文献中已经探讨了各种分层结构。
最初,我们考虑了像 Rudin 等人[44] 所做的那样,采用一种端到端的策略。该方法训练一个统一的策略,来同时管理运动和导航任务,而不使用任何分层结构。文献中探讨的另一种替代方法是采用二级分层结构,其中高层策略通过在较低的频率下发出潜在子目标来指导低层策略。使用学到的潜在子目标进行 HRL[45, 46] 提供了简洁性和灵活性。无需显式定义中间目标,任务分配在层次结构中是通过学习获得的。
我们的方法则采用了一个明确定义的子目标,位于二级分层结构中。在我们的设置中,低层策略专注于运动任务,而高层策略专注于导航,通过向低层策略发出目标基座速度命令来指导导航。我们选择显式定义子目标是出于实际原因。
尽管前两种方法可能提供了更简单的实现,但我们决定明确分离控制任务,从而实现了控制器的独立开发。这种分离不仅简化了协作开发,使团队能够同时在不同的系统方面工作,而且也符合腿式机器人中的常见实践。因此,这种方法促进了低层策略在各种高层应用中的重用,提高了系统的多功能性和适应性。
尽管我们的高层策略主要输出基座速度命令,我们也探索了类似 Tsounis 等人[47]的步态模式命令。该实验的描述见补充材料。
训练过程
我们顺序地训练了低层策略和高层策略。低层策略的训练涉及两个阶段:教师策略训练和学生策略训练。然后,使用训练好的低层学生策略来训练高层策略。
我们首先训练了低层运动策略的教师策略。教师策略被训练以在粗糙地形上跟随随机的速度目标(以及可选的步态参数),使用近端策略优化(PPO)算法[48]。在这个步骤中,我们利用特权信息,包括机器人运动、地形属性和无噪声的外部测量,来提高运动性能和策略的收敛性。
随后,部署的学生策略进行了训练。与教师策略不同,学生策略接收一系列噪声和偏置的 IMU 测量、关节状态和噪声高度扫描作为输入,而不是直接访问特权信息。通过模仿学习教师策略并利用 RNN 编码器[16],学生策略被训练从时间序列数据中提取用于稳健运动的特征。
训练好的学生低层策略随后被视为固定组件,并使用 PPO 算法训练高层导航策略。训练数据是在我们自定义构建的仿真环境中收集的。该方法在下一节中将进一步解释。
除了前述的三个阶段外,还可以进行交替训练的可选阶段,以增强两个策略的协调性并可能改善运动平滑性。然而,我们的实验显示这种方法只带来了边际的改进,因此我们没有进行进一步的微调。
基于图的导航学习
导航图,通常在计算机游戏中用于自动导航角色穿越合成环境[28, 29],在我们的导航学习方法中发挥了关键作用。受游戏开发启发,我们利用预生成的导航图来定义初始状态、分配可行路径,并在高层策略训练过程中设计奖励函数。
世界生成
图8. 导航世界的程序生成。(A) 在低级策略训练过程中筛选的参数化地形。(B-i) 使用波函数塌缩(Wave Function Collapse)算法生成新的瓷砖地图和连通图。(B-ii) 创建的高度图地形,包含筛选过的地面特征和楼梯参数。(B-iii) 在两个节点之间随机生成的导航路径,在训练过程中提供了路径点。动态障碍物(白色框)被随机添加。
我们的自动化地形生成方法,如图 8 所示,建立了不同区域(瓷砖)之间的连通性,从而在训练环境中形成了一个导航图。例如,沿 x 方向的楼梯瓷砖仅与沿 x 轴的地面瓷砖连接。
为了生成多样且真实的地形布局,我们采用了 WFC 算法。该算法自动结合了楼梯、地板和其他障碍物等多种地形特征。WFC 算法的输出提供了组合地形以及瓷砖之间的连通性信息。
WFC 算法将输入的瓷砖地图(如图 8B 中的“示例”)划分为更小的块,并重新排列它们以创建新的 N x N 图案。这种程序化生成方法使我们能够生成多种风格的导航世界,具有不同样式的走廊、房间和障碍物。
我们定义了三种类型的瓷砖:楼梯、地面 0 和地面 1。我们提供了它们与 WFC 算法的关系以及示例图像。WFC 算法计算每种瓷砖类型的概率,并确定与相邻瓷砖类型的连通性。通过基于这些概率随机生成瓷砖地图,我们组合了现有瓷砖,生成了多样化且真实的训练环境。
楼梯和地面的参数在低层策略训练期间使用 Lee 等人[15]的地形过滤算法进行选择。有关详细信息,请参见补充材料。
使用导航图进行强化学习
我们采用了 Dijkstra 算法[31]来寻找图中两个随机选择的节点之间的路径。在图的边上,我们通过在机器人的当前位置与后续图节点之间进行插值,采样了两个目标点,并设置了固定的前瞻距离。每一轮训练中,这个距离在[5.0, 20.0] 米之间均匀采样。在每条路径的末尾,我们将最后一个节点重复两次作为两个目标点。这种方法确保了智能体在期望的轨迹和终点上有明确的指示。
在初始训练阶段,当智能体沿图上规划的路径移动时,给予正奖励。奖励逐渐减少,随后让策略在最后通过稀疏奖励进行训练。奖励函数定义如下。
该奖励机制鼓励智能体在导航图上选择最短路径,最小化到最终目标的测地距离。路径包含绕行,而不是简单地直接朝着目标点前进。这种方法为智能体设计了包含狭窄缝隙和急转弯的路径,从而挑战了它们的能力。
动态障碍物
除了通过 WFC 算法生成的静态结构外,我们在训练过程中引入了动态障碍物。这些动态障碍物随机放置在环境中,并朝向机器人移动。
图 8B-iii 中的白色框显示了动态障碍物。它们的数量、位置和速度在每一轮训练中都是随机生成的。这些障碍物以 0.1 m/s 到 0.5 m/s 的速度朝向机器人移动。
高层策略详情
本节详细介绍了支配高层策略(πhi)的马尔可夫决策过程(MDP),包括观察和动作。有关奖励函数的详细信息,请参见补充材料 S3。
观察
πhi 的观察空间包含四种不同的模态。
首先,πhi 观察了来自地形映射的外部测量,以进行障碍物避免。外部观察遵循 Miki 等人[16]的定义。我们从机器人中心的高度图[26]中采样了机器人周围的高度值。由于车载内存和计算资源的限制,机器人的视野范围限制为前方 3 米和其他方向 1.5 米。我们优先将扫描模式向前方偏移,因为前向 RGB 摄像头提供了更远的感知范围。此外,外部观察还包括在 0.1 秒和 0.2 秒前获取的两次扫描数据,以便考虑动态环境。
其次,πhi 观察了运动控制器的隐藏状态,而不是估计的机器人状态(如重力向量或旋转向量)。使用 RNN 运动策略的隐藏状态提高了我们系统的鲁棒性。详细内容将在低层策略详情中解释。
为了促进探索,我们使用了额外的位置缓冲区。我们记录了以世界坐标系为基础的访问位置,每隔 0.5 米进行一次采样,并记录了相应的访问时间。时间信息包括机器人在每个位置停留了多少时间步骤。最近的 20 个位置及其相应的时间信息被提供给策略,并且使用机器人坐标系。
最后,观察了两个目标点。πhi 观察了两个先前给定目标点的短历史记录以及三个先前的πhi 输出。这些目标点和动作的历史帮助策略做出更平滑的轨迹调整。
探索奖励
本质上,如果机器人离第一个目标点较远,并且靠近位置缓冲区中保存的位置,则智能体会因其在该位置停留的时间步数而受到相应的惩罚。这种惩罚促使智能体探索新的区域,并优先朝着第一个目标点前进。
有界动作空间
与常用的高斯动作分布不同,我们使用了 Beta 分布来表示 πhi 的有界动作空间,如 Chou 等人[49]所提出的。这带来了几个好处。首先,它使我们能够定义输出的硬限制,从而增强了安全性和可解释性。此外,使用有界动作空间使得规范化运动和控制智能体行为变得更加容易。
网络架构
我们采用了针对特定输入类型定制的架构组合。对于位置历史,我们使用了一维卷积神经网络(CNN)层,后接最大池化层,类似于 PointNet[50],使得空间信息的处理不依赖于排列顺序。机器人的高度扫描使用了3层二维CNN层,后接多层感知器(MLP)层。其他输入和输出通过常见的MLP层处理,这些层通常用于非空间数据。对于Beta分布参数,我们在输出层使用了Sigmoid函数。
低层策略详情
低层教师策略的MDP继承自Miki等人[16],但修改了观察和动作空间。奖励函数和特权训练的详细信息请参见补充材料。
低层策略被训练用于在随机粗糙地形上进行速度跟踪。这些地形由Miki等人[16]设计,见图8A。每种地形类型由两个到三个参数生成。在训练期间,我们应用了Lee等人[15]的参数过滤算法。
低层策略由x和y方向的线性速度以及偏航速率进行指令。线性x速度在[-2.5, 2.5] m/s范围内均匀采样,y速度在[-1.2, 1.2] m/s范围内采样,偏航速率在[-1.5, 1.5] rad/s范围内采样。在每一轮训练中,都会重新采样一个新的命令,并有0.005的概率进行随机重新采样。
观察
观察包括三种类型的信息:外部感知和本体感知测量的序列,以及速度指令。
对于外部感知,我们从一个圆形模式中采样机器人的轮子周围的高度值,方法与Miki等人[16]相同。本体感知包括来自IMU和关节编码器的测量。这些测量传递有关机器人的体加速度、角速度、关节角度和关节速度的信息。
如前所述,我们没有像一些现有工作[16, 34, 51]中那样依赖模型基的状态估计器来估计姿态和旋转,而是直接使用包含线性加速度和角速度的IMU测量。我们之所以做出这一变化,是因为传统的状态估计器在轮滑或离散高度变化情况下往往会产生较大误差。在视频 S4 中,我们展示了由于状态估计误差导致的运动控制器失败的一个案例。
视频 S4(如下)
命令以一个3维向量的形式提供,包括目标基座水平速度和目标基座偏航速率。
特权观察
特权观察仅用于教师策略训练。它包括无噪声的关节状态、脚部接触状态、每个脚部的地形法向量、脚部接触力、机器人速度和机器人基座框架中的重力向量[16]。
动作
低层策略的动作是一个16维向量,包括关节位置命令(12个关节)和轮速命令(4个)。关节位置和速度命令传递给每个执行器的PD控制器。关于执行器仿真的更详细解释,请参阅补充材料。
与我们之前的工作[16]不同,我们摒弃了在动作空间中使用CPG,以去除运动中的任何工程偏差。补充材料中提供了关于不同动作空间的详细对比研究。
网络架构
低层教师策略实现为一个普通的三层MLP,而低层学生策略则基于Miki等人[16]提出的门控递归单元(GRU)架构。
统计分析
统计分析使用Python进行。对于所有结果,我们使用Numpy库计算了全程的均值和标准差。图7中的箱形图是使用Matplotlib库生成的。我们以400Hz的频率收集数据,使用车载状态估计器或从仿真中获得的真实数据。对状态测量应用了一个5Hz的低通滤波器,以减少高频噪声。图3中的热图是通过基于点云定位,每1米计数访问量生成的。对于千米级自主任务中的COT比较,我们只考虑了线速度大于0.2 m/s的数据点。图7中的跟踪误差直方图使用了命令速度大于0.5 m/s的数据点。
参考文献
2. M. Tranzatto, T. Miki, M. Dharmadhikari, L. Bernreiter, M. Kulkarni, F. Mascarich, O. Andersson, S. Khattak, M. Hutter, R. Siegwart 等,DARPA地下挑战中的Cerberus,《科学机器人》p. eabp9742(2022)。
3. F. Bjelonic, J. Lee, P. Arm, D. Sako, D. Tateo, J. Peters, M. Hutter,基于学习的四足机器人设计与控制,使用并联弹性执行器,《IEEE机器人与自动化快报》1611–1618(2023)。
4. L. Wellhausen, M. Hutter,使用可达性规划和模板学习进行粗糙地形上的四足机器人导航,2021年IEEE/RSJ国际智能机器人与系统会议(IROS),6914-6921(IEEE,2021)。
5. N. Kashiri, L. Baccelliere, L. Muratore, A. Laurenzi, Z. Ren, E. M. Hoffman, M. Kamedula, G. F. Rigano, J. Malzahn, S. Cordasco, P. Guria, A. Margan, N. G. Tsagarakis,Centauro:一种混合动力行走和高功率抗扰动操作平台,《IEEE机器人与自动化快报》1595–1602(2019)。
6. M. Bjelonic, C. D. Bellicoso, Y. de Viragh, D. Sako, F. D. Tresoldi, F. Jenelten, M. Hutter,保持滚动——全身运动控制与规划,适用于轮式四足机器人,《IEEE机器人与自动化快报》2116–2123(2019)。
7. V. Klemm, A. Morra, C. Salzmann, F. Tschopp, K. Bodie, L. Gulich, N. Küng, D. Mannhart, C. Pfister, M. Vierneisel 等,Ascento:一种双轮跳跃机器人,ICRA国际机器人与自动化会议(ICRA),7515–7521(2019)。
8. W. Reid, B. Emanuel, B. Chamberlain-Simon, S. Karumanchi, G. Meirion-Griffith,在类欧罗巴地形上冰川冰面的轮式-肢体探测器的运动模式评估,IEEE航空航天会议,1–9(2020)。
9. M. Bjelonic, R. Grandia, M. Geilinger, O. Harley, V. S. Medeiros, V. Pajovic, E. Jelavic, S. Coros, M. Hutter,离线运动库和在线MPC用于高级机动技能,《国际机器人研究杂志》903–924(2022)。
10. M. Bjelonic, R. Grandia, O. Harley, C. Galliard, S. Zimmermann, M. Hutter,全身MPC和在线步态序列生成,适用于轮式四足机器人,2021年IEEE/RSJ国际智能机器人与系统会议(IROS),8388–8395(IEEE,2021)。
11. M. Geilinger, R. Poranne, R. Desai, B. Thomaszewski, S. Coros,Skaterbots:基于优化的设计与运动合成,适用于具有腿部和轮子的机器人,ACM图形学学报(TOG)p.160(2018)。
12. M. Hosseini, D. Rodriguez, S. Behnke,混合运动四足机器人状态估计,2022年第六届IEEE机器人计算国际会议(IRC),103–110(2022)。
13. C. D. Bellicoso, F. Jenelten, C. Gehring, M. Hutter,通过在线非线性运动优化实现四足机器人动态运动,《IEEE机器人与自动化快报》2261–2268(2018)。
14. F. Jenelten, J. Hwangbo, F. Tresoldi, C. D. Bellicoso, M. Hutter,在滑溜地面上的动态运动,《IEEE机器人与自动化快报》4170–4176(2019)。
15. J. Lee, J. Hwangbo, L. Wellhausen, V. Koltun, M. Hutter,在具有挑战性地形上学习四足机器人运动,《科学机器人》5(2020)。
16. T. Miki, J. Lee, J. Hwangbo, L. Wellhausen, V. Koltun, M. Hutter,在自然环境中学习四足机器人稳健的感知运动,《科学机器人》p. eabk2822(2022)。
17. W. Xi, Y. Yesilevskiy, C. D. Remy,为四足机器人选择经济的步态,《国际机器人研究杂志》1140–1154(2016)。
18. Y. Yang, T. Zhang, E. Coumans, J. Tan, B. Boots,通过学习的步态转换实现快速高效的运动,机器人学习会议,773–783(PMLR,2022)。
19. G. Bellegarda, K. Byl,为允许轮滑的动态机动优化轮腿系统的轨迹,2019年第58届IEEE决策与控制大会(CDC),7776–7781(IEEE,2019)。
20. L. Wellhausen, M. Hutter,Artplanner:四足机器人在实际环境中的稳健导航,《领域机器人学》413–434(2023)。
21. J. Frey, D. Hoeller, S. Khattak, M. Hutter,基于运动政策引导的穿越性学习,利用复杂环境的体积表示,2022年IEEE/RSJ国际智能机器人与系统会议(IROS),5722–5729(IEEE,2022)。
22. R. O. Chavez-Garcia, J. Guzzi, L. M. Gambardella, A. Giusti,通过仿真学习地面可穿越性,《IEEE机器人与自动化快报》1695–1702(2018)。
23. V. Vapnik, R. Izmailov,使用特权信息进行学习:相似性控制与知识转移,《机器学习研究期刊》2023–2049(2015)。
24. D. Chen, B. Zhou, V. Koltun, P. Krähenbühl,通过作弊学习,机器人学习会议,66–75(PMLR,2020)。
25. J. M. Snider,自动转向方法用于自主汽车路径跟踪,机器人研究所,匹兹堡,PA,技术报告CMU-RITR-09-08(2009)。
26. T. Miki, L. Wellhausen, R. Grandia, F. Jenelten, T. Homberger, M. Hutter,基于GPU的升降地图,用于运动与导航,2022年IEEE/RSJ国际智能机器人与系统会议(IROS),2273–2280(IEEE,2022)。
27. G. Ji, J. Mun, H. Kim, J. Hwangbo,动态和稳健的四足运动并发控制策略与状态估计的训练,《IEEE机器人与自动化快报》(2022)。
28. CryEngine,AI和导航系统 - CryEngine 5文档,https://docs.cryengine.com/pages/viewpage.action?pageId=26869983,[在线访问;2022年8月]。
29. Unreal Engine,导航系统 - Unreal Engine 5文档,https://docs.unrealengine.com/5.0/en-US/navigation-system-in-unreal-engine/,[在线访问;2022年8月]。
30. M. Gumin,波函数塌缩算法,https://github.com/mxgmn/(2016)。
31. E. DIJKSTRA,关于图的两个问题的笔记,《数值数学》269–271(1959)。
32. E. Jelavic, J. Nubert, M. Hutter,Open3d SLAM:基于点云的教育用途地图构建与定位,机器人感知与地图构建:新兴技术,ICRA 2022研讨会,p.24(ETH Zurich,机器人系统实验室,2022)。
33. 机器人系统实验室,Cerberus团队赢得DARPA地下挑战赛,https://youtu.be/fCHOU-fw2c0?si=LjksAckgpSwfMqTC(2023)。[在线访问;2024年3月]。
34. J. Hwangbo, J. Lee, A. Dosovitskiy, D. Bellicoso, V. Tsounis, V. Koltun, M. Hutter,为四足机器人学习灵活和动态的运动技能,《科学机器人》p. eaau5872(2019)。
35. S. Seok, A. Wang, M. Y. Chuah, D. J. Hyun, J. Lee, D. M. Otten, J. H. Lang, S. Kim,能效四足机器人行走设计原则及MIT猎豹机器人实施,《IEEE/ASME机电学会交易》1117–1129(2014)。
36. R. B. McGhee, A. A. Frank,关于四足爬行步态的稳定性特性,《数学生物学》331–351(1968)。
37. J. Lee, J. Hwangbo, M. Hutter,基于深度强化学习的四足机器人稳健恢复控制器,arXiv预印本arXiv:1901.07517(2019)。
38. L. Wellhausen, R. Ranftl, M. Hutter,通过多模态异常检测进行安全机器人导航,《IEEE机器人与自动化快报》1326–1333(2020)。
39. M. Sorokin, J. Tan, C. K. Liu, S. Ha,学习在户外环境中导航人行道,《IEEE机器人与自动化快报》3906–3913(2022)。
40. M. Kulkarni, M. Dharmadhikari, M. Tranzatto, S. Zimmermann, V. Reijgwart, P. De Petris, H. Nguyen, N. Khedekar, C. Papachristos, L. Ott, 等,利用四足机器人和空中机器人进行地下环境自主探索,2022年国际机器人与自动化会议(ICRA),3306–3313(IEEE,2022)。
41. O. Nachum, H. Tang, X. Lu, S. Gu, H. Lee, S. Levine,为何层次化强化学习有时表现如此好?,arXiv预印本arXiv:1909.10618(2019)。
42. D. Jain, K. Caluwaerts, A. Iscen,从像素到腿:四足运动的层次化学习,2020年机器人学习会议,J. Kober, F. Ramos, C. Tomlin,编,91–102(PMLR,2021)。
43. O. Nachum, S. S. Gu, H. Lee, S. Levine,数据高效的层次化强化学习,《神经信息处理系统》31(2018)。
44. N. Rudin, D. Hoeller, M. Bjelonic, M. Hutter,通过学习本地运动与导航技能,进而实现高水平的技能学习,2022年IEEE/RSJ国际智能机器人与系统会议(IROS),2497–2503(IEEE,2022)。
45. A. S. Vezhnevets, S. Osindero, T. Schaul, N. Heess, M. Jaderberg, D. Silver, K. Kavukcuoglu,层次化强化学习的封建网络,国际机器学习会议,3540–3549(PMLR,2017)。
46. D. Jain, A. Iscen, K. Caluwaerts, 层次化强化学习在四足运动中的应用,2019年IEEE/RSJ国际智能机器人与系统会议(IROS),7551–7557(IEEE,2019)。
47. V. Tsounis, M. Alge, J. Lee, F. Farshidian, M. Hutter,Deepgait:使用深度强化学习进行四足步态的规划与控制,《IEEE机器人与自动化快报》3699–3706(2020)。
48. J. Schulman, F. Wolski, P. Dhariwal, A. Radford, O. Klimov,近端策略优化算法,arXiv预印本arXiv:1707.06347(2017)。
49. P.-W. Chou, D. Maturana, S. Scherer,使用贝塔分布改善连续控制的随机策略梯度,国际机器学习会议,834–843(PMLR,2017)。
50. C. R. Qi, H. Su, K. Mo, L. J. Guibas,Pointnet:基于点云集进行3D分类与分割的深度学习,IEEE计算机视觉与模式识别会议论文集,652–660(2017)。
51. N. Rudin, D. Hoeller, P. Reist, M. Hutter,通过大规模并行深度强化学习在数分钟内学会行走,机器人学习会议,91–100(PMLR,2022)。
52. A. A. Hagberg, D. A. Schult, P. J. Swart,使用networkx探索网络结构、动态和功能,第7届Python科学会议,G. Varoquaux, T. Vaught, J. Millman 编,11–15(加利福尼亚州帕萨迪纳,美国,2008)。
53. M. Mueller, A. Dosovitskiy, B. Ghanem, V. Koltun,通过模块化和抽象的驾驶策略转移,第二届机器人学习会议,A. Billard, A. Dragan, J. Peters, J. Morimoto 编,1–15(PMLR,2018)。
54. A. Agarwal, A. Kumar, J. Malik, D. Pathak,使用自中心视觉进行具有挑战性地形上的四足机器人运动,机器人学习会议,403–415(PMLR,2023)。
55. G. Kahn, P. Abbeel, S. Levine,Badgr:一种基于自监督学习的自主导航系统,《IEEE机器人与自动化快报》1312–1319(2021)。
56. G. Kahn, P. Abbeel, S. Levine,Land:从脱离学习中进行导航学习,《IEEE机器人与自动化快报》1872–1879(2021)。
57. Y. Kim, C. Kim, J. Hwangbo,学习前向动力学模型和知情轨迹采样器,以实现安全的四足导航,机器人科学与系统会议(RSS),机器人:科学与系统基金会,2022。
58. J. Truong, D. Yarats, T. Li, F. Meier, S. Chernova, D. Batra, A. Rai,通过学习机器人的嵌入进行四足机器人导航技能学习,2021年IEEE/RSJ国际智能机器人与系统会议(IROS),484–491(IEEE,2021)。
59. D. Hoeller, L. Wellhausen, F. Farshidian, M. Hutter,在杂乱且动态的环境中学习状态表示与导航,《IEEE机器人与自动化快报》5081–5088(2021)。
60. M. Pfeiffer, S. Shukla, M. Turchetta, C. Cadena, A. Krause, R. Siegwart, J. Nieto,强化模仿:通过利用先前演示进行样本高效深度强化学习,实现无地图导航,《IEEE机器人与自动化快报》4423–4430(2018)。
61. T. Manderson, J. C. G. Higuera, S. Wapnick, J. Tremblay, F. Shkurti, D. Meger, G. Dudek,基于视觉的目标条件政策,适用于在有障碍物的水下导航,机器人科学与系统会议(RSS),机器人:科学与系统基金会,2020。
62. H. Wang, S. Chen, S. Sun,扩散模型增强的行为克隆,CoRR abs/2302.13335(2023)。
63. N. Savinov, A. Dosovitskiy, V. Koltun,半参数拓扑记忆用于导航,国际学习表示会议(2018)。
64. Z. Fu, A. Kumar, A. Agarwal, H. Qi, J. Malik, D. Pathak,结合视觉和本体感知用于四足机器人导航,IEEE/CVF计算机视觉与模式识别会议,17273–17283(2022)。
65. E. Wijmans, A. Kadian, A. S. Morcos, S. Lee, I. Essa, D. Parikh, M. Savva, D. Batra,DD-PPO:从25亿帧中学习接近完美的点目标导航,国际学习表示会议(2019)。
66. J. Choi, K. Park, M. Kim, S. Seok,在有限视场下复杂和拥挤环境中进行导航的深度强化学习,2019年国际机器人与自动化会议(ICRA),5993–6000(IEEE,2019)。
67. E. Wijmans, M. Savva, I. Essa, S. Lee, A. S. Morcos, D. Batra,盲导航代理的记忆中地图的出现,国际学习表示会议(2023)。
68. K. Zhu, T. Zhang,基于深度强化学习的移动机器人导航:综述,《清华科学与技术》674–691(2021)。
69. H. Surmann, C. Jestel, R. Marchel, F. Musberg, H. Elhadj, M. Ardani,用于室内环境中真实自主移动机器人导航的深度强化学习,arXiv预印本arXiv:2005.13857(2020)。
70. R. Yang, M. Zhang, N. Hansen, H. Xu, X. Wang,通过跨模态变换器学习视觉引导的四足机器人运动端到端,深度强化学习研讨会NeurIPS 2021(2021)。
71. P. Anderson, A. Chang, D. S. Chaplot, A. Dosovitskiy, S. Gupta, V. Koltun, J. Kosecka, J. Malik, R. Mottaghi, M. Savva 等,对体现导航代理进行评估,CoRR abs/1807.06757(2018)。
72. S. Gangapurwala, M. Geisert, R. Orsolino, M. Fallon, I. Havoutis,RLOC:基于强化学习与最优控制的地形感知四足运动,《IEEE机器人学报》(2022)。
73. H. Kolvenbach, D. Bellicoso, F. Jenelten, L. Wellhausen, M. Hutter,适用于月球和火星的四足机器人高效步态选择,第14届人工智能、机器人与空间自动化国际研讨会(i-SAIRAS 2018)(ESA会议局,2018)。
74. P. N. Ward, A. Smofsky, A. J. Bose,通过标准化流政策改善软演员-评论强化学习中的探索,arXiv预印本arXiv:1906.02771(2019)。
75. W. Zhou, S. Bajracharya, D. Held,PLAS:用于离线强化学习的潜在动作空间,机器人学习会议,1719–1735(PMLR,2021)。
76. A. Allshire, R. Martín-Martín, C. Lin, S. Manuel, S. Savarese, A. Garg,LASER:为高效强化学习学习潜在动作空间,2021年IEEE国际机器人与自动化会议(ICRA),6650–6656(IEEE,2021)。
77. D. P. Kingma, M. Welling,自动编码变分贝叶斯,第二届国际学习表示会议(2014)。
78. L. Dinh, J. Sohl-Dickstein, S. Bengio,使用真实NVP的密度估计,国际学习表示会议(2016)。
79. J. C. Brant, K. O. Stanley,最小准则共演化:一种开放式搜索的新方法,遗传与进化计算会议论文集,67–74(2017)。
80. O. E. L. Team, A. Stooke, A. Mahajan, C. Barros, C. Deck, J. Bauer, J. Sygnowski, M. Trebacz, M. Jaderberg, M. Mathieu, N. McAleese, N. Bradley-Schmieg, N. Wong, N. Porcel, R. Raileanu, S. Hughes-Fitt, V. Dalibard, W. M. Czarnecki,开放式学习导致普遍有能力的代理,CoRR abs/2107.12808(2021)。
81. A. Loquercio, E. Kaufmann, R. Ranftl, M. Müller, V. Koltun, D. Scaramuzza,在野外学习高速飞行,《科学机器人》p. eabg5810(2021)。
82. S. Ross, G. Gordon, D. Bagnell,通过模仿学习和结构化预测的无后悔在线学习的减少,第十四届人工智能与统计会议,627–635(JMLR工作坊与会议论文集,2011)。
声明:本文素材来源https://arxiv.org/pdf/2405.01792致敬原作者。侵权可后台联系删除。
篇幅所限,以上仅摘录部分内容。
如需获取英文原版、中文版本,
请加入知识星球,并搜索编号“A258”获取详细资料。
另在知识星球新增了一篇非公开资料,
《山地丛林环境下的扫雷排爆四足机器人(编号S164)》