点击下方“计算机书童”卡片,每天获取顶刊论文解读
On the Benefit of Optimal Transport for Curriculum Reinforcement Learning题目:最优传输在课程化强化学习中的益处
作者:Pascal Klink; Carlo D'Eramo; Jan Peters; Joni Pajarinen
源码:https://github.com/psclklnk/optimaltransport-curricula
摘要
课程强化学习(CRL)通过生成从简单任务开始,然后逐渐增加难度的学习任务序列来解决复杂任务。尽管在各种工作中已经清楚地展示了课程在RL中的潜力,但对于如何为给定的学习环境生成它们还不太清楚,导致出现了各种旨在自动化此任务的方法。在这项工作中,我们将课程框架化为任务分布之间的插值,这以前已被证明是CRL的可行方法。我们确定了现有方法的关键问题,并将课程生成框架化为受约束的最优传输问题。基准测试表明,这种课程生成方式可以改进现有的CRL方法,在具有不同特征的各种任务中实现高性能。
关键字
I. 引言
强化学习(RL)[1]作为自主获取期望行为的框架,取得了巨大成功。随着计算能力的不断增强,该框架及其算法已经产生了能够解决非平凡长期规划[2]、[3]和控制任务[4]的学习代理。然而,这些成功凸显了现代RL代理的某些形式的正则化需求,例如棋盘游戏中的联盟[3]、机器人操纵[4]和运动[5]的模拟训练环境的逐渐多样化,或在类人控制足球的背景下量身定制的训练管道[6]。这些正则化可以帮助克服现代(深度)RL代理的缺陷,例如较差的探索行为——这是一个活跃的研究主题[7]、[8]、[9]。
上述正则化可以被视为课程强化学习[10]的总称,其目的是通过学习一系列量身定制的任务来避免现代(深度)RL代理的缺陷。这些任务序列可以以各种方式具体化,并且它们在文献中受到不同的视角的启发,例如内在动机或遗憾最小化,仅举几个例子[11]、[12]、[13]、[14]、[15]、[16]。
对于本文特别感兴趣的是将课程解释为任务分布序列,这些分布插值在辅助任务分布和目标任务分布之间[17]。我们将这些方法称为基于插值的课程。虽然这些课程的算法实现已经在文献中成功评估[18]、[19]、[20],但一些评估表明这些方法的学习性能相对较差[21]。此外,基于插值的课程的应用已限于具有某些受限分布的场景,例如高斯或均匀分布。观察到的性能差距和对分布参数化的缺乏灵活性需要更好地理解这些方法的内部工作,以改进它们的性能并扩展它们的适用性。
本文调查了将课程实现为基于KL散度和预期性能约束的任务分布之间预定时间插值的方法的不足。我们展示了这两个概念如何在简单示例中无法产生有意义的课程。这些失败案例a)说明了在构建课程时明确考虑任务相似性的重要性,以及b)展示了对生成任务分布的参数假设如何掩盖用于生成课程的底层框架的失败。为了解决观察到的问题,我们通过距离函数明确指定学习任务的相似性,并使用最优传输框架生成插值分布,无论其参数化如何,都能实现逐渐的任务变化。基于这种明确的任务相似性概念,我们提出了课程RL的方法(CURROT),它用更严格的条件替换了预期性能约束,以获得图1中所示的行为。此外,我们对比了我们的方法与黄等人最近提出的方法GRADIENT[22]。我们概述了两种方法如何使用最优传输生成课程,但在使用代理性能约束课程时避免预期性能约束所展示的陷阱。
在实验中,我们a)在小的离散MDP中验证了CURROT和GRADIENT的正确行为,不受近似和参数假设的影响,b)在具有离散和连续任务空间以及欧几里得和非欧几里得学习任务距离度量的各种任务上比较了近似实现。在这些实验中,两种方法都表现出令人信服的性能,CURROT始终匹配甚至超越所有其他算法的性能。
III. 预备知识
本节介绍(情境)RL、课程RL和最优传输所需的背景。
A. 情境强化学习
情境强化学习[57]可以被视为对(单任务)强化学习(RL)问题的
概念扩展,其目标是最大化预期折扣奖励目标
其中,。这里,是给定MDP M = 的最优策略,其中是初始状态分布,p是转换动态。情境RL将这个目标扩展到带有分布的上下文变量c C的空间MDPs M(c) = 策略依赖于上下文参数c。分布编码代理要解决的任务M(c)。目标J(π, c)在(2)中对应于目标J(π)在(1)中的目标,其中M的初始状态分布p0、转换动态p和奖励函数r被其在M(c)中的对应物替换。这种情境最优决策的概念模型非常适合于在多个相关任务中学习,如多任务[58]、目标条件[59]或课程RL[10]。此时,我们想强调的是,上下文c可以很容易地嵌入到状态空间S中,导致一个常规MDP,其中上下文 - 作为状态的一部分 - 在一个情节中保持不变。然后上下文分布将被纳入初始状态分布中,而不失表达能力。然而,我们更倾向于情境RL框架,由Hallak等人[57]提出,因为它强调了分布,这正是课程RL方法的核心,正如我们现在将看到的。B. 课程强化学习
在抽象层面上,课程RL方法可以被理解为生成一系列任务分布,通过在这些分布下训练RL代理来最大化J(π, pi) w.r.t. π。当适当选择时,解决这一系列优化问题可以产生一个在目标分布上表现更好的策略,而不是直接最大化J(π, μ)。这种中介分布的好处在最初随机代理行为不太可能观察到任何有意义的学习信号的设置中尤为明显,例如在稀疏奖励学习任务中。CRL方法在指定pi方面有所不同。通常,分布被定义为优先考虑最大化某些代理目标的任务,例如绝对学习进度[14]、遗憾[28]或中间成功率[30]。本文关注将pi建模为目标优化问题的解决方案,该问题旨在最小化pi和μ之间的距离或散度。这些方法之一[17]、[18]、[19]定义pi为与μ的KL散度最小的分布,满足预期代理性能的约束其中是代理在下预期达到的性能水平,限制了与前一个上下文分布的最大KL散度。优化器在(3)中平衡可能在(目标)分布下的任务和代理当前获得大奖励的任务。KL散度约束关于前一个上下文分布防止在后续迭代中的大变化,避免利用基于有限样本数量的代理性能的错误估计。目标(3)执行和之间的插值,由下式给出控制插值的两个参数和是目标(3)中两个约束的拉格朗日乘数。我们将在后面研究这个插值分布的行为。C. 最优传输
在两个分布之间最优传输密度的问题最初由Monge[60]研究。时至今日,由Kantorovich[40]建立的推广导致了所谓的Wasserstein距离,作为在度量空间上定义的概率分布之间的度量,其中度量其中是映射和的推进。我们参考[38, Chapter 2]以获得这些概念的优秀和直观的介绍。通过找到所谓的计划或耦合来获得和之间的距离,这个耦合编码了如何在考虑在空间的部分之间移动密度的成本的情况下使和相等。度量编码了这个成本。在下文中,我们总是假设使用2-Wasserstein距离,即,因为它们适合于插值度量[参见38, Chapter 6和Remark 2.24]。类似于如何在度量空间上的(加权)均值被定义为优化问题的解,Wasserstein距离允许我们定义所谓的Wasserstein质心[61]IV. 作为受约束最优传输的课程强化学习
此时,我们可以通过查看由于a)通过KL散度测量上下文分布之间的相似性以及b)用于控制朝着进展的预期性能约束所引起的限制来激发我们对课程RL的方法。A部分限制了要么是高斯分布[17]、[18]、[19],要么是在C上均匀分布以简化计算和优化加权KL散度目标[20]。虽然在实证上成功,这些设计选择掩盖了KL散度在CRL设置中测量分布相似性的陷阱,特别是当处理不在整个C上分配均匀密度的目标分布时。对应于没有预期代理性能约束的目标(3)的版本。图2演示了这种插值对分布和的参数表示的敏感性。虽然对于高斯分布,形式为的插值逐渐在度量意义上转移密度,但对于非高斯分布,这种行为绝不保证。图2底部两行之间的两个均匀分布的插值在具有准有限支持的上下文之间转移密度到上下文,其具有大的欧几里得距离。在欧几里得距离和之间是和之间相似性的好指标的设置中,观察到的KL散度对上下文空间的底层几何形状的忽视导致了在任务相似性上有“跳跃”的课程。我们可以很容易地通过回顾基于神经网络的策略倾向于随着到c的欧几里得距离的增加而逐渐改变其行为来说服自己,这样的跳跃不是假设问题。在这一点上,我们可以利用最优传输的概念来明确编码两个任务和之间的相似性,通过一个度量,并在结果的度量空间中实现分布之间的插值为Wasserstein质心(5)。正如我们在图3中看到的,这种明确的任务相似性概念允许生成在上下文分布的参数化变化中稳定的插值,并且可以在任意分布之间进行插值,这些分布不是彼此绝对连续的。因此,优化问题是利用最优传输进行课程RL的一个有前景的方法。在下一节中,我们将通过研究预期性能约束在生成强化学习代理课程时的作用来进一步探讨这个候选方法。B. 预期性能约束的挑战
SPRL目标(3)通过当前代理在所选上下文分布下的性能来控制初始和目标任务分布之间的插值速度。如[17]中详细说明的,这个预期性能约束允许建立与监督学习任务的自定进度学习之间的联系[35]、[62]。虽然这种正式联系本身很有趣,我们在图4中展示了SPRL中的预期性能约束可能导致编码过于简单和过于复杂的任务,鉴于当前代理能力。此外,使用Wasserstein距离在目标(7)中并不能解决这个问题。在图4中,这两种方法都编码了代理回报非常高和非常低的任务,以满足预期性能约束,绕过了编码中间难度任务的目标。此时,我们可以提出我们的算法CURROT,并介绍黄等人[22]最近提出的算法——称为GRADIENT——作为解决观察到的插值问题的两种方法:- CURROT将的支持限制在满足性能约束的上下文上。我们称这个集合为。有了这个符号,我们将限制优化框架为
用文字表达这个约束,我们要求课程将所有的概率密度分配给满足性能约束的上下文。
正如图5所示,这两种方法都避免了目标(7)产生的行为,导致随着代理能力的提高逐渐变形分布的插值。在本文的其余部分,我们将研究这些算法的精确和近似版本,以更好地理解它们的行为。首先观察到的是,GRADIENT的课程完全由给定的度量以及目标和初始分布和决定。代理性能只影响课程向的进展速度。另一方面,CURROT根据当前代理性能重塑课程,避免采样性能低于阈值的上下文。图5显示,这种重塑导致CURROT倾向于将所有概率密度放在性能约束的边界上,直到达到的非零概率密度区域。此时,课程在的这些部分匹配目标密度,并继续将所有剩余密度集中在代理能力的边界上。这种行为类似于结合任务优先级和重放缓冲区的课程RL方法,例如GOALGAN或PLR[28]、[30]。据我们所知,这种行为还没有在课程RL的背景下通过第一性原理优化目标进行动机解释。V. 离散和连续上下文空间的近似算法
目标(8)和(9)在更现实的应用场景中面临挑战,这些场景具有大的离散或连续上下文空间,原因有两个:- 我们无法访问代理在上下文下的预期性能,只能从观察到的训练情节中估计它。
- 在非欧几里得空间中为任意连续或离散分布计算Wasserstein质心可能很快变得难以承受地昂贵。
接下来的部分将解决上述问题,以便在非平凡的实验设置中对CURROT和GRADIENT进行基准测试。A. 近似Wasserstein质心
在深入描述两个算法之前,我们首先描述一种基于粒子的Wasserstein质心近似方法,这使我们能够为GRADIENT算法在大的离散状态空间中廉价地近似质心,并且对于CURROT算法的近似实现至关重要。对于近似质心,我们首先从和中采样一组粒子以形成经验分布其中表示以为中心的狄拉克分布。由于和的离散性质,耦合简化为排列,该排列在和之间分配粒子[38, Section 2.3]。有了这个,计算简化为由于排列是耦合的一种特殊情况[38, Section 2.3],我们根据参数数量将的含义过度加载为排列或耦合。凭借当今的计算硬件,可以在不到一秒钟的时间内在单个CPU核心上解决像(11)这样的分配问题,对于N在数百范围内通常足够代表上下文分布。给定这个最优分配,我们然后计算每个粒子对的Fréchet均值以形成质心。虽然肯定不如Barycenter计算的专用程序高效,例如例如GeomLoss库[63],但所提出的方法在处理大离散空间时很有用。在这种情况下,忠实的Barycenter计算必须使用完整的距离矩阵。假设离散上下文空间的大小为S,在忽略计算最优分配的成本的情况下,近似Barycenter计算需要次距离函数的评估。因此,对于S N,即使在Sinkhorn算法的单步中计算整个距离矩阵所需的个条目的成本也比所提出的近似方法更昂贵。此外,将Barycenter计算简化为涉及单个粒子的优化问题可以轻松地纳入CURROT优化目标(8)所需的额外约束。B. 近似GRADIENT
黄等人[22]提出以离散步骤的倍数计算和之间的质心。从开始,代理在当前分布上训练M个情节。如果平均情节回报大于或等于,则增加,并将分布设置为更新值的Wasserstein质心。这个的逐步增加避免了对的显式优化,从而避免了估计给定上下文c下当前策略的性能的需要。利用上一节中描述的近似质心的计算方法,我们可以将GRADIENT的实现总结在算法1中。C. 近似CURROT
对于GRADIENT算法,我们使用经验分布来表示上下文分布(见(10))。与GRADIENT不同,对于CURROT,无法避免估计,并且任何的估计器都将不可避免地犯错误。对于当前训练分布下采样的上下文,这些错误将特别大。为了避免利用这些错误的性能预测,我们引入了一个类似SPRL目标(3)的信任域约束这限制了当前和下一个上下文分布和之间的Wasserstein距离。请注意,我们用表示GRADIENT的步长和CURROT的信任域,因为这两个概念都限制了更新之间采样分布的变化。我们使用Nadaraya-Watson核回归[64]、[65]实现性能估计器,使用平方指数核这个估计器不依赖于基于梯度的更新,并且除了长度尺度之外不需要任何架构选择,因此不会使整体算法的应用复杂化。我们将在讨论近似优化目标(13)后讨论这个长度尺度参数的选择。我们使用两个缓冲区D+和D−从策略滚动(c,Rc)的结果中创建数据集D =(cl, Rl),其中Rc = 。当D+满时,我们将D+中的样本解释为经验分布,并从D+和高于性能阈值的新滚动集合的并集中选择滚动,以最小化W_2()。这个最优选择可以与(11)的通用版本一起计算,其中由N+粒子表示,由N粒子表示,N+ ≥ N。然后,这个通用问题产生一个选择N粒子来表示,这最小化了结果距离W()。因此,我们可以将解释为CURROT目标(8)的保守解决方案。这个解决方案是保守的,因为粒子是从过去的迭代中获得的,可能会超过性能阈值的某些幅度,因此不针对确切的性能阈值边界。为了更精确地针对这个代理能力的边界,我们首先解决和之间的分配问题,以获得对。然后我们重置,,对于那些,其中。接下来,我们再次采样经验目标分布,并解决分配问题,以获得上下文对。然后我们为每对解决优化问题,以获得新的实证上下文分布的粒子注意,限制确保了,同时解耦了各个粒子的优化。我们使用一个简单的近似优化方案,围绕采样一组候选上下文,并选择在满足性能约束的同时最小化到的距离的候选者。在连续欧几里得设置中,我们在与下降方向,,成小于90度角的半球中均匀采样候选者。在离散上下文空间中,我们评估信任区域内的所有上下文。如果即使在重置之后,也没有候选者满足性能阈值,因此目标(14)是不可行的,我们设置,n为在ε球中具有最大性能的候选者。在定义目标(14)之后,我们可以讨论Nadaraya-Watson估计器的长度尺度参数h。鉴于估计器的目的是捕获c_p,n周围ε球中的趋势,我们简单地将长度尺度设置为0.3ε。这种选择确保了以c_p,n为中心的平方指数核Kh的两倍标准差区间覆盖了信任区域。像GRADIENT一样,我们在p_0(c)上训练,直到达到至少δ的平均性能,此时我们根据算法2更新分布。VI. 实验
为了展示引入的算法CURROT和GRADIENT的行为,我们在具有离散和连续上下文空间以及欧几里得和非欧几里得距离度量的不同环境中对算法进行基准测试。此外,我们评估了精确方法及其近似实现。为了强调所提出方法相对于当前流行的CRL方法的优势,我们评估了ALP-GMM[14]、GOALGAN[30]、PLR[28]、VDS[31]和ACL[66],以及随机课程和直接在μ(c)上训练(称为默认)的性能。有关实验的详细信息,如超参数和使用的RL算法,请参见在线提供的附录C。运行实验的代码可在https://github.com/psclklnk/optimaltransport-curricula上找到。A. E-Maze环境
为了在不依赖近似的情况下研究CURROT和GRADIENT,并突出所选距离度量的效果,我们首先使用图6中显示的环境进行实验。在这个由20×20网格表示的稀疏奖励环境中,代理的任务是通过围绕一个长墙(图6中的黑色瓷砖)移动到达目标位置。这个任务的课程通过上下文c控制要到达的目标位置。我们在这个环境中研究了C的三种不同的距离函数:- 基于表示的欧几里得距离,这些离散上下文编码了二维目标位置以及高度(墙的高度为200,常规瓷砖的高度为零)。
- 使用Dijkstra算法计算的最短路径距离。搜索图是通过使用先前定义的欧几里得距离连接相邻上下文构建的。
虽然Wasserstein质心的定义对于伪度量并不完全严格,但引入的近似算法仍可以在其上无问题地操作。黄等人[22]还研究了这种伪度量用于当前策略π,导致每次算法迭代中的不同度量。我们在附录C.2中研究了这个有趣的概念,以保持本文与先前部分的简短和一致,这些部分假设了一个固定度量。图6可视化了和生成的重心插值。从图6中,我们已经可以预见欧几里得度量d对课程生成的不利影响。的可视化表明了纯粹基于性能的度量的一个弱点,因为对于和,相似的预期回报并不保证两个上下文中的行动结果相似。我们可视化了不同课程的预期回报,如图7所示。正如我们所看到的,CURROT和GRADIENT可以显著提高比纯粹随机或没有课程更高的性能。然而,性能收益高度依赖于适当的度量选择。虽然CURROT和GRADIENT在d_S上都表现出色,但CURROT在上的性能下降,且这两种方法都无法使代理熟练掌握使用的。图8显示了CURROT为所研究的度量生成的插值。我们可以看到,对于d和,CURROT的插值分布可以崩溃为狄拉克分布。如第V节所讨论的,黄等人[22]提出了使用熵正则化的最优传输,由于其计算速度。鉴于我们解析地解决了目标(8)和(9),我们可以在不考虑计算速度的情况下,研究熵正则化对性能的影响。表I显示了使用熵正则化传输计划的GRADIENT以及CURROT生成的任务分布的熵的下限HLB时的最终代理性能。详细的公式见在线附录C.2。结果表明,熵正则化可以惠及CURROT。图9中的可视化表明,这种好处来自于避免积极针对正好在性能约束的边缘的上下文,如图1、5和8中所看到的。在伪度量的情况下,从p(c)中采样的更多样化的任务有时允许代理足够泛化以解决从中采样的任务。对于GRADIENT,我们没有看到显著的性能提升,但可以观察到过高的熵正则化与结合降低了性能。鉴于对于适当的度量(即),观察到的性能在不同量的熵正则化下是稳定的,我们不会在以下实验中进一步探索这个方向。B. 解锁-拾取环境
在下一个环境中,我们旨在为具有大离散上下文空间的CURROT和GRADIENT的近似实现进行基准测试,并证明适当的距离可以手工设计用于非平凡的上下文空间。图10可视化了我们选择进行此研究的Minigrid环境集合[67]中的解锁-拾取环境。要掌握这个环境,代理必须拾取一把钥匙,解锁一扇门,最终从刚刚解锁的房间中拾取一个盒子(图10)。我们通过上下文c控制每集的初始状态,即控制盒子、钥匙、代理和门的位置,以及门的状态(是否关闭)。如在线附录C.3中详细说明的,这种任务参数化导致81,920个任务来编制课程。初始上下文分布定义为编码代理直接在盒子前的州,类似于图10中的右下角图像。从这个初始分布开始,学习算法需要生成一个课程,最终允许代理从左侧房间的随机位置,带着一扇关闭的门,到达并拾取盒子。如在线附录C.3中所示,可以定义所谓的高速公路距离函数[68],该函数适当考虑了门及其与钥匙的互动,而不需要像前一个环境中的规划算法。我们在以下评估中使用这个距离函数。除了CURROT和GRADIENT的近似版本,我们还评估了PLR、VDS和ACL在这个任务上的性能。我们没有评估SPRL、ALP-GMM和GOALGAN,因为这些算法是为连续和欧几里得上下文空间设计的,例如,通过利用高斯分布、kd-树或高斯采样噪声。图11中的评估结果表明,CURROT和GRADIENT始终允许掌握目标任务(累积折扣回报0.75 ≈ 0.9928是通过解决28步的任务获得的)。对于CURROT和GRADIENT,20次运行中的每一次都导致了表现良好的策略,我们几乎看不到这两种方法之间的学习速度差异。直接在目标任务分布上学习允许在一些运行中掌握环境,而在其他运行中由于在开始学习时高度依赖收集足够的正奖励信号而失败。这两种结果导致平均性能低于CURROT和GRADIENT。最后,我们看到所有基线课程方法都比直接在目标任务分布μ(c)上学习慢,ACL没有产生在目标任务上收集任何奖励的策略。鉴于PLR在Procgen基准测试中的成功应用,该基准测试具有高度不同视觉观察的多样化Arcade游戏级别,我们希望在这里更详细地讨论PLR观察到的低性能。如在线附录C.3中所示,PLR确实在每次运行中至少以7%的比例采样了在μ(c)下发生的上下文。此外,在大约一半的运行中,代理还学习解决了PLR在课程中某个时候重放的目标任务。然而,这些重放的目标任务只占所有目标任务的一小部分,导致在所有μ(c)上的性能较低。PLR缺乏对目标分布的概念似乎导致了对目标任务改进的样本使用无效。这种缺乏目标分布导致的问题将成为后续实验中的一个反复出现的主题。C. 点质量环境
在这个环境中,一个点质量代理必须通过一个狭窄的门到达对面墙的一个目标位置(图12)。我们在这个环境中为CURROT和GRADIENT的近似实现进行基准测试。上下文控制代理需要通过的门的位置和宽度。这种环境参数化导致C中既有不可行的任务(无法到达的区域),也有仅作为更复杂任务垫脚石的任务(低精度任务)。鉴于代理最终需要到达尽可能多的目标,并具有最高精度,即最低容忍度,目标分布是在C的2D切片上的均匀分布,具有最小的任务容忍度。环境中的墙壁(图13)使许多目标任务变得不可行,需要课程识别可行的任务子空间以实现良好的学习性能。图13显示,CURROT在所有评估的CRL方法中实现了最佳的学习性能。只有预言者,仅在上下文空间C中采样可行的高精度任务,才能达到更高的性能。图13中的课程容忍度演变突出了CURROT和GRADIENT持续降低任务容忍度。基线CRL方法缺乏对μ(c)编码的任务的关注,甚至在训练结束时也采样了具有相对较高容忍度的任务。有趣的是,SPRL在整个训练期间都采样了高容忍度任务,因为它的高斯上下文分布收敛到C上的准均匀分布。否则,SPRL将无法在不编码许多不可行任务的情况下覆盖非高斯分布的可行高精度目标任务。图13显示了CURROT和GRADIENT的粒子演变。CURROT在几个时代逐渐降低了目标容忍度,从接近代理初始位置的上下文开始。有趣的是,它甚至在后来的时代中保留了位于环境墙壁内的最高容忍度上下文,由于采样高精度任务和覆盖所有目标位置之间的权衡。图13显示了与其他CRL方法相比,CURROT和GRADIENT的课程容忍度的演变摘要统计。D. 稀疏目标到达环境
接下来,我们转向一个稀疏奖励、目标到达环境,其中代理需要以高精度到达所需位置(图13)。这样的环境,例如,已被Florensa等人[30]研究。这个环境的上下文编码了2D目标位置以及到达目标的允许容忍度。这种参数化导致C中既有不可行的任务(无法到达的区域)也有仅作为更复杂任务垫脚石的任务(低精度任务)。鉴于代理最终需要到达尽可能多的目标,并具有最高精度,即最低容忍度,目标分布μ(c)是在C的2D切片上的均匀分布,具有最小的任务容忍度。环境中的墙壁(图13)使许多目标任务变得不可行,需要课程识别可行的任务子空间以实现良好的学习性能。图13显示,CURROT在所有评估的CRL方法中实现了最佳的学习性能。只有预言者,仅在上下文空间C中采样可行的高精度任务,才能达到更高的性能。图13中的课程容忍度演变突出了CURROT和GRADIENT持续降低任务容忍度。基线CRL方法缺乏对μ(c)编码的任务的关注,甚至在训练结束时也采样了具有相对较高容忍度的任务。有趣的是,SPRL在整个训练期间都采样了高容忍度任务,因为它的高斯上下文分布收敛到C上的准均匀分布。否则,SPRL将无法在不编码许多不可行任务的情况下覆盖非高斯分布的可行高精度目标任务。图13显示了CURROT和GRADIENT的粒子演变。CURROT在几个时代逐渐降低了目标容忍度,从接近代理初始位置的上下文开始。有趣的是,它甚至在后来的时代中保留了位于环境墙壁内的最高容忍度上下文,由于采样高精度任务和覆盖所有目标位置之间的权衡。图13显示了与其他CRL方法相比,CURROT和GRADIENT的课程容忍度的演变摘要统计。E. 教我的代理
在最终评估环境中,一个双足代理必须学习在一系列等距障碍物上导航,这些障碍物的高度由上下文c ∈ R^2控制(见图14)。环境是Portelas等人[14]引入的修改后的双足步行者环境,由Romac等人[21]扩展,其中障碍物的间距和高度由上下文c控制。Romac等人[21]的评估表明,SPRL的性能较差,通常比随机课程差很多,统计上显著。鉴于CURROT和GRADIENT都可以被视为改进版本的SPRL,其中明确考虑了上下文空间的几何形状,我们对它们是否能改进SPRL感兴趣。因此,我们重新审视了Romac等人[21]研究的两种学习场景,其中CRL方法显示出与随机采样相比的显著好处:一种是由于大障碍物,大多数任务上下文空间都是不可行的设置,以及大多数任务上下文空间都容易解决的场景。当随机选择任务时,由于频繁遇到过于复杂或过于简单的学习任务,这两种场景都会导致学习进展缓慢。鉴于上下文空间的均匀初始和目标分布导致学习性能差,我们通过简单的随机搜索扩展了CURROT和GRADIENT方法,以找到代理在上面获得超过δ回报的C区域,这与SPRL的精神相似。我们在附录B中描述了这种方法。图15可视化了CURROT和GRADIENT与其他CRL方法的性能比较,这些方法已由Romac等人[21]评估。我们看到CURROT在所有环境中都实现了最佳性能,在一种情况下,与ALP-GMM([21]中评估的最佳方法)相比,性能有统计学上的显著提高。我们还看到,GRADIENT的扩展版本可以在“大多数不可行”的场景中改善随机课程的表现,而在“大多数简单”的场景中则表现不如随机课程。图14可以帮助阐明CURROT和GRADIENT之间观察到的性能差异。对于“大多数简单”的场景,GRADIENT一致地到达从均匀μ(c)中采样,而CURROT专注于代理能力边界上的上下文。对于“大多数不可行”的场景,GRADIENT的预定插值可能无法编码可行的学习任务,最终导致比CURROT更低的整体性能。总结来说,实验结果强调了通过将CRL框架化为初始和目标任务分布之间的插值,可以生成经验上成功的课程。GRADIENT与SPRL之间的性能飞跃,以及CURROT与GRADIENT之间的性能差异,突显了设计选择,如分布相似性度量和性能约束的纳入方式,对最终算法性能的极大影响。然而,当正确选择时,这些课程表现出色,并允许指导训练朝着通过μ(c)指定的感兴趣任务发展。特别是这个最后一点可以允许在课程设计上更加灵活,因为可以定义辅助任务参数化,而不会危及对感兴趣任务的学习进展。我们在稀疏目标到达环境中看到了这种权衡的一个例子,其中额外的精度参数提高了CURROT的性能,同时降低了其他CRL方法的性能。VII. 结论
在本文中,我们将课程强化学习框架化为初始和目标任务分布之间的插值。我们展示了缺乏明确的任务相似性概念,结合预期性能约束,使得现有方法高度依赖于插值任务分布的参数化。我们通过最优传输公式明确编码任务相似性,并限制生成的任务分布仅编码满足指定性能阈值的任务。由此产生的称为CURROT的方法在实验中表现出色,因为它专注于性能阈值上的任务,并且课程的适应性质。与最近提出的方法GRADIENT对比,该方法通过Wasserstein质心在初始和目标任务分布之间生成课程[22],我们看到我们公式的更适应性导致了更好的性能,当面临有不可行目标任务的学习设置时。在没有不可行问题的任务中,这两种方法表现相似。在附录D中,我们看到这两种方法都可以扩展到更高维度的任务,尽管概念上更简单的GRADIENT算法需要更少的适应性来实现其近似。总之,这两种方法都证明了使用最优传输进行课程RL的好处,我们认为通过结合CURROT的适应性和GRADIENT的更简单的算法实现,可以最大化这种好处。此外,我们相信通过经验学习的距离d(c1, c2),编码了一种内在动机的形式,将显著推进这些方法,通过将内在动机在开放式学习场景中的强经验结果[13]与CURROT和GRADIENT实现的针对性学习相结合。声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 计算机书童 小编