多智能体强化学习(MARL)近年来在解决复杂的决策问题上取得了显著进展。MARL系统通过多个智能体的协作,能够在诸如DOTA 2、星际争霸II和旗帜争夺等复杂任务中实现超人表现。然而,这些成就的背后是巨大的计算成本和环境交互需求,通常需要数百万甚至数十亿次的环境交互,这使得这些算法只能在高成本的计算集群上运行。
在多智能体系统中,信用分配问题是一个关键挑战。随着智能体数量的增加,评估每个智能体对整体成功的贡献变得愈加困难。这种困难在合作任务中尤为突出,因为每个智能体不仅要优化自身的奖励,还要考虑其行为对其他智能体奖励的影响。信用分配问题导致了策略梯度方法中的高方差问题,使得学习过程变得缓慢且不稳定。
8 月 9 日来自卡内基梅隆大学机器人研究所的研究团队提出了一种改进的多智能体强化学习算法,称为PRD-MAPPO(部分奖励解耦的多智能体近端策略优化)。该算法通过引入部分奖励解耦(PRD)机制,利用学习的注意力机制动态将大群体智能体分解为更小的子群体,从而简化信用分配。实验结果表明,PRD-MAPPO在多个多智能体任务中,比现有的先进方法具有更高的数据效率和最终性能。论文的核心贡献在于:
- 提出了适用于共享奖励环境的PRD-MAPPO版本。
- 引入了“软”变体,通过注意力权重重新加权优势项,而不是严格解耦。
- 修改了优势估计策略,使学习更新的计算时间从二次方减少到线性。
通过这些改进,PRD-MAPPO显著提高了多智能体系统的学习效率和稳定性,为解决大规模合作任务中的信用分配问题提供了新的思路和方法。研究团队是来自卡内基梅隆大学机器人研究所的Benjamin Freed、Howie Choset、Jeff Schneider 和来自Tata Consultancy Services 的Aditya Kapoor,他们主要研究方向包括多智能体系统、强化学习和机器人技术。以其在机器人技术和多智能体系统方面的开创性工作而闻名。这个团队结合了工业界和学术界的力量,致力于解决多智能体强化学习中的信用分配问题,并提出了部分奖励解耦(PRD)的方法,以提高多智能体系统的学习效率和稳定性。在多智能体强化学习中,问题通常被建模为马尔可夫博弈。一个马尔可夫博弈由以下几个部分组成:动作空间(A):表示所有智能体的联合动作空间,即每个智能体的动作组合。状态转移概率(P):定义了在给定当前状态和联合动作的情况下,系统转移到下一个状态的概率分布。奖励分布(R):定义了在给定当前状态和联合动作的情况下,智能体获得的奖励分布。初始状态分布(ρ0):表示系统初始状态的概率分布。折扣因子(γ):用于折扣未来奖励的影响,取值范围为(0, 1]。在每个时间步t,智能体i根据其状态选择一个动作,目标是最大化整个团队的总回报,即所有智能体在所有时间步的奖励之和。这种合作行为的目标要求智能体不仅要考虑自己的奖励,还要考虑其行为对其他智能体奖励的影响。在策略梯度算法中,优势函数用于衡量在特定状态下选择某个动作比随机选择动作更好的程度。优势函数通常定义为:Aπ(s, a) = Qπ(s, a) - Vπ(s)其中,Qπ(s, a)是状态-动作值函数,Vπ(s)是状态值函数。优势函数的高方差会导致策略梯度估计的高方差,使得学习过程变得噪声且不稳定。在多智能体设置中,单个智能体的策略梯度估计方差不仅取决于每个智能体的优势估计方差,还取决于智能体之间优势的协方差。通过消除不相关的优势项,可以减少方差,提高数据效率。因此,改进信用分配策略,减少策略梯度估计的方差,是提高多智能体系统学习效率的关键。近端策略优化(PPO)是一种改进的策略梯度算法,通过允许在单个数据批次上进行多次策略更新,提高了数据效率。PPO通过优化一个“代理”目标,惩罚与旧策略的过大偏离,从而避免策略过度偏离。具体来说,PPO在每次策略优化步骤中,优化以下目标函数:其中,r(θ)是更新后和旧策略的比率,A是优势估计。PPO在多智能体问题上表现出色,但随着团队规模的增加,策略梯度更新的方差也增加,需要更大的数据批次来达到满意的信噪比。因此,尽管PPO提高了数据效率,但在处理大规模多智能体系统时,仍面临高方差和数据需求的问题。部分奖励解耦(PRD)是一种通过将大规模多智能体问题动态分解为较小的子群体,改进信用分配的方法。PRD利用注意力机制估计每个智能体的相关集,从而简化信用分配。具体来说,如果智能体i在某个时间步t对智能体j的注意力权重为零,则可以认为智能体i不在智能体j的相关集中,从而可以忽略其对策略梯度的影响。PRD最初应用于Actor-Critic(AC)算法,通过减少无关智能体的贡献,提高了数据效率。然而,PRD在AC算法中的应用存在计算复杂度高和假设环境提供每个智能体的奖励流等局限性。论文提出的PRD-MAPPO通过将PRD整合到MAPPO中,改进了相关集估计和优势函数计算,显著提高了多智能体系统的学习效率和稳定性。图1:Q和价值函数网络架构。每个代理使用所有代理的状态来计算除自身之外的每个代理的注意力权重。然后,这些注意力权重用于聚合除自身之外的所有主体的注意力值。最后,将代理i的聚合注意力值与代理i的嵌入式状态动作向量(如果网络作为Q函数运行)或代理i的嵌入状态向量(如果该网络作为值函数运行)连接起来。最后,通过输出网络生成Qϕi(s,a)或Vψi(s,a̸=i)。通过这些方法的改进,PRD-MAPPO在多个多智能体任务中表现出色,展示了其在解决大规模合作任务中的潜力。PRD-MAPPO(部分奖励解耦的多智能体近端策略优化)是通过将部分奖励解耦(PRD)机制整合到多智能体近端策略优化(MAPPO)中提出的。PRD的核心思想是利用注意力机制来估计每个智能体的相关集,从而动态地将大规模多智能体问题分解为较小的子群体。这种分解使得每个智能体只需关注与其相关的其他智能体,简化了信用分配问题。在PRD-MAPPO中,每个智能体通过学习的Q函数来估计其相关集。具体来说,如果智能体i在某个时间步t对智能体j的注意力权重为零,则可以认为智能体i不在智能体j的相关集中,从而可以忽略其对策略梯度的影响。为了提高计算效率,PRD-MAPPO引入了两个独立的评论家:一个用于相关集估计的Q函数,另一个用于优势函数估计的价值函数。通过这种方式,PRD-MAPPO将计算复杂度从二次方减少到线性,提高了数据效率。PRD-MAPPO通过修改MAPPO的目标函数,消除了不相关智能体的奖励项,从而减少了学习更新中的噪声。具体来说,PRD-MAPPO的目标函数为:其中,Ai是智能体i的优势估计,忽略了不相关智能体的奖励项。为了进一步提高PRD-MAPPO的性能,论文提出了软变体PRD-MAPPO-soft。该变体通过注意力权重重新加权智能体的奖励,而不是严格解耦。具体来说,软变体的优势估计为:通过这种方式,PRD-MAPPO-soft在实践中表现出更高的性能。在某些多智能体系统中,环境只提供单一的共享奖励,而不是每个智能体的独立奖励流。为了在这种环境中应用PRD,论文提出了一种将共享回报分解为个体回报的方法。具体来说,首先训练一个共享Q函数来预测共享回报,然后使用注意力权重将共享回报分配给各个智能体。在共享奖励环境中,PRD-MAPPO-shared通过将共享回报分解为个体回报,并应用PRD-MAPPO进行学习更新。具体来说,PRD-MAPPO-shared的优势估计为:通过这种方式,PRD-MAPPO-shared能够在共享奖励环境中有效地进行信用分配,提高学习效率和稳定性。通过这些改进,PRD-MAPPO在多个多智能体任务中表现出色,展示了其在解决大规模合作任务中的潜力。为了验证PRD-MAPPO的有效性,研究团队设计了一系列实验,比较了多种算法在不同多智能体强化学习(MARL)环境中的表现。PRD-MAPPO:论文提出的结合部分奖励解耦(PRD)的多智能体近端策略优化(MAPPO)。PRD-MAPPO-soft:PRD-MAPPO的软变体,通过注意力权重重新加权智能体的奖励。PRD-MAPPO-shared:适用于共享奖励环境的PRD-MAPPO软变体。MAPPO:多智能体近端策略优化算法,由Yu等人(2021)提出。HAPPO:一种扩展信任区域学习到合作多智能体强化学习的算法,由Kuba等人(2021)提出。G2ANet-MAPPO:结合G2ANet风格评论家的MAPPO,尝试将G2ANet的信用分配优势引入MAPPO。COMA:反事实多智能体策略梯度算法,由Foerster等人(2018)提出,通过反事实基线改进信用分配。PRD-V-MAPPO:使用基于价值函数的相关集估计方法的PRD-MAPPO,由Freed等人(2022)提出。LICA:隐式信用分配方法,由Zhou等人(2020)提出,通过超网络表示集中评论家。QMix:联合状态-动作值函数学习算法,由Rashid等人(2018)提出。- 碰撞避免:智能体需要在避免碰撞的情况下到达指定目标位置。
- 星际争霸多智能体挑战(SMAClite):包括5m_vs_6m、10m_vs_11m和3s5z战斗场景。
实验结果显示,PRD-MAPPO、PRD-MAPPO-soft和PRD-MAPPO-shared在所有环境中表现出色,尤其是PRD-MAPPO-soft在大多数任务中表现最佳。具体来说,PRD-MAPPO-soft仅在压力板环境中被QMix超越,其余任务中均优于其他算法。PRD-MAPPO和PRD-MAPPO-shared也表现出色,整体上优于MAPPO和其他先进的多智能体强化学习算法。图2:PRD MAPPO soft、PRD-MAPPO、PRDV-MAPPO、COMA、LICA、QMix、MAPPO、MAPPO-G2ANet在A)团队避碰、B)追击、C)压力板、D)基于级别的觅食、E)星际争霸5m_vs_6m、F)星际争霸10m_vs_11m任务和G)星际争霸3s5v上的平均奖励与剧集。实线表示5个随机种子的平均值,阴影区域表示95%的置信区间。采用PRD的方法(PRD-MAPPO和PRD-MAPPO-soft)往往优于所有其他方法,表明可以通过改善信贷分配来利用PRD来改善PPO。为了深入了解相关集选择过程,研究团队在碰撞避免任务中可视化了训练后的智能体的注意力权重。结果显示,智能体主要对同队智能体分配较高的注意力权重,而对其他队的智能体分配的注意力权重接近于零。这验证了PRD机制在相关集选择上的有效性。为了验证部分奖励解耦减少策略梯度估计方差的效果,研究团队在训练过程中估计了MAPPO和PRD-MAPPO的梯度方差。结果表明,PRD-MAPPO在训练过程中显著减少了梯度方差,避免了MAPPO中出现的剧烈波动。这一结果进一步证明了PRD-MAPPO在提高数据效率和学习稳定性方面的优势。通过这些实验结果,PRD-MAPPO展示了其在解决大规模合作任务中的潜力,显著提高了多智能体系统的学习效率和稳定性。在多智能体强化学习(MARL)中,信用分配问题是一个关键挑战。为了应对这一问题,研究人员提出了多种方法。G2ANet:由Liu等人(2020)提出,G2ANet是一种基于注意力的游戏抽象机制,使评论家能够更好地隔离重要的智能体交互,忽略不重要的交互。虽然G2ANet没有像PRD那样进行显式解耦,但它通过注意力机制改进了信用分配。COMA:反事实多智能体策略梯度(Counterfactual Multi-Agent Policy Gradient)算法由Foerster等人(2018)提出。COMA使用反事实基线,通过将单个智能体的动作边际化,同时保持其他智能体的动作不变,来更精确地确定每个智能体的贡献。COMA基于差异奖励的思想,使每个智能体使用修改后的奖励来比较共享奖励与反事实情境下的默认动作。VDAC:价值分解Actor-Critic(Value-Decomposition Actor-Critics)方法由Su等人(2021)提出。VDAC使用价值分解网络作为评论家,在Actor-Critic框架中进行信用分配。该方法通过将联合价值函数分解为每个智能体的价值函数,提高了信用分配的效率。LICA:由Zhou等人(2020)提出,LICA是一种隐式信用分配方法。LICA通过将集中评论家表示为超网络,并在联合动作值梯度的方向上优化策略,从而隐式地解决了信用分配问题。LICA通过引入额外的潜在状态表示,提供了足够的信息来学习最优的合作行为。QMix:由Rashid等人(2018)提出,QMix学习一个联合状态-动作值函数,该函数表示为每个智能体价值函数的复杂非线性组合。联合价值函数在结构上保证了单个智能体价值的单调性,使智能体能够通过贪婪地选择最佳动作来最大化联合价值函数。图3:防撞环境中的相关集合可视化。我们将每个代理分配给其他代理的平均注意力权重可视化,平均值为5000个独立事件。因为代理总是给自己分配1的注意力权重,所以我们从图中删除了这些元素,因为它们没有信息。我们注意到,与其他团队的代理人相比,代理人通常会给团队中的代理人分配更高的注意力权重,这是意料之中的,因为只有代理人的队友才能影响其奖励。PRD-MAPPO通过将部分奖励解耦(PRD)机制整合到多智能体近端策略优化(MAPPO)中,提出了一种新的信用分配策略。与现有方法相比,PRD-MAPPO具有以下优势:- 显式解耦:与G2ANet不同,PRD-MAPPO通过显式解耦无关智能体的贡献,减少了策略梯度估计的方差,提高了数据效率和学习稳定性。
- 改进的反事实基线:虽然COMA使用反事实基线来改进信用分配,但PRD-MAPPO通过注意力机制动态估计相关集,进一步简化了信用分配问题。
- 计算效率:PRD-MAPPO通过引入两个独立的评论家(Q函数和价值函数),将计算复杂度从二次方减少到线性,提高了计算效率。
- 适用于共享奖励环境:PRD-MAPPO-shared通过将共享回报分解为个体回报,扩展了PRD的适用范围,使其能够在共享奖励环境中有效应用。
- 软变体的提出:PRD-MAPPO-soft通过注意力权重重新加权智能体的奖励,而不是严格解耦,在实践中表现出更高的性能。
图4:团队避碰、压力板和LBF环境的梯度估计器方差与事件。实线表示5个随机种子的平均值,阴影区域表示95%的置信区间。PRD-MAPPO倾向于避免MAPPO所表现出的梯度方差的急剧峰值。PRD-MAPPO在多个多智能体任务中表现出色,展示了其在解决大规模合作任务中的潜力。通过显式解耦和改进的信用分配策略,PRD-MAPPO显著提高了多智能体系统的学习效率和稳定性,优于现有的多智能体强化学习算法。尽管PRD-MAPPO在多个多智能体任务中表现出色,但它仍然存在一些局限性:PRD-MAPPO并不能在所有环境中加速学习。在某些任务中,智能体之间的交互过于复杂或密集,使得PRD的解耦效果有限。例如,在交通路口实验中,由于智能体之间的交互过于密集,PRD的效果可能仅有部分提升。这表明,PRD-MAPPO在处理高度复杂和密集交互的任务时,可能无法显著提高学习效率。在某些任务中,每个智能体的相关集可能包含大多数或所有其他智能体,这使得PRD的解耦策略难以发挥作用。当智能体之间的交互非常密集时,PRD-MAPPO的优势会被削弱,因为几乎所有智能体的行为都对其他智能体的奖励产生影响。在这种情况下,PRD-MAPPO的计算复杂度和数据需求可能会显著增加,影响其性能。为了进一步提高PRD-MAPPO的适用性和性能,未来的研究可以从以下几个方向展开。未来的研究可以探索如何改进PRD-MAPPO,使其在更多类型的任务中表现出色。例如,可以研究更先进的注意力机制或相关集估计方法,以更好地处理密集交互的任务。此外,可以探索如何动态调整PRD的解耦策略,使其能够适应不同任务的需求,从而提高其通用性和适应性。除了PRD,未来的研究还可以探索其他新的信用分配策略,以进一步提高多智能体系统的学习效率和稳定性。例如,可以研究基于图神经网络的信用分配方法,通过捕捉智能体之间的复杂关系来改进信用分配。此外,可以探索结合多种信用分配策略的混合方法,以充分利用不同策略的优势,解决不同类型的任务。未来的研究还可以将PRD-MAPPO应用于更多实际场景,如自动驾驶、机器人协作和智能电网等。这些实际应用场景通常具有高度复杂和动态的环境,对多智能体系统的学习效率和稳定性提出了更高的要求。通过在实际场景中验证和改进PRD-MAPPO,可以进一步提升其实用性和影响力。通过这些研究方向的探索,PRD-MAPPO有望在更多类型的任务和实际应用中发挥重要作用,进一步推动多智能体强化学习的发展。(END)参考资料:https://arxiv.org/pdf/2408.04295波动世界(PoppleWorld)是噬元兽数字容器的一款AI应用,是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品,基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象,探索人的意识机制和特征,培养人的意识技能和习惯,满足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。
加入AI交流群请扫码加微信