论文标题:DyPS: Dynamic Parameter Sharing in Multi-Agent Reinforcement Learning for Spatio-Temporal Resource Allocation
作者:Jingwei Wang*, Qianyue Hao*, Wenzhen Huang, Xiaochen Fan, Zhentao Tang, Bin Wang, Jianye Hao, Yong Li
发表:KDD 2024
论文链接:
https://doi.org/10.1145/3637528.3672052
代码链接:
https://github.com/tsinghua-fib-lab/DyPS
导读
在城市的大规模资源分配场景中,根据资源和需求的时空分布,高效分配电力、医疗和交通等各种资源,对满足居民的生活需求至关重要。已有的资源分配研究主要采用多智能体强化学习(MARL)方法,通过多个智能体协作调配和分配资源以满足需求。然而,在城市中,由于智能体数量众多,现有的MARL方法计算复杂度高,缺乏高效的智能体参数共享策略。
现有方法在实现高效参数共享方面面临两大挑战:(1) 在RL训练过程中,智能体的行为发生显著变化,导致基于训练前固定角色划分的静态参数共享策略性能受限;(2) 智能体的行为轨迹复杂,而角色特征隐含在行为轨迹中,增加了在训练过程中动态调整参数共享的难度。
为了解决上述挑战,本文提出了动态参数共享方法。我们设计了自监督学习任务,从智能体的行为轨迹中提取隐含的行为特征。基于获取的行为特征,我们构建了一个分层的MARL框架,能够在训练过程中动态调整智能体角色划分,并在相同角色的智能体间共享参数,从而降低计算复杂度。此外,该框架可结合IPPO、MAPPO等多种典型MARL算法。我们在四个具有代表性的资源分配场景中进行了多组实验,证明了该方法的优越性。
背景介绍
在大型现代城市中,合理分配各类资源(如水、电、医疗、交通等)是一个关键的决策问题。有效的资源分配既能满足市民生活和工业需求,也为城市的正常运作和繁荣发展提供了基础。然而,由于资源与需求的异质性和时空动态性,要找到最佳的资源分配方案需要充分考虑复杂的时空特征。因此,制定高效的资源分配策略既具挑战性,又至关重要。
近年来,强化学习(RL)技术的进步激发了研究人员把资源分配问题建模为马尔可夫过程,并把多智能体强化学习(MARL)广泛应用于这类问题中,通过多个智能体协作调控资源以满足需求。然而,在大型城市中,由于资源和需求量庞大,往往需要大量智能体来实现城市范围内的资源分配,这导致了巨大的参数量和计算开销(图1(a))。为此,常见的解决方案是智能体之间的参数共享。有些基础方案简单地在所有智能体间共享参数,从而减少可学习参数的数量,但忽视了不同角色的智能体在行为上的差异(图1(b))。最近的改进方法则是在RL训练前对智能体的时空特征进行建模,并根据相似性将智能体聚类为固定组,每组共享参数,从而在保持建模角色差异的同时减少参数量(图1(c))。
图1:参数共享策略对比图
尽管MARL中的参数共享策略在资源分配问题中被广泛应用,但现有方法仍存在两个未解决的挑战:
(1)智能体角色在训练过程中发生变化:大多数现有方案在RL训练前固定智能体的角色分组,但在训练过程中智能体行为会随着策略的更新发生显著变化,因此预先固定的角色分组可能不再适应训练后的智能体,进而限制了整体性能。
(2)智能体角色的识别也具有挑战性:角色特征隐含在智能体的历史行为轨迹中,这增加了动态调整角色分组的难度。
针对上述挑战,本文提出了动态参数共享(DyPS)框架,能够在RL训练过程中动态识别并调整智能体角色,解决大规模资源分配问题。
模型方法
本文提出的动态参数共享(DyPS)框架的系统架构如图2所示。DyPS由三个模块组成:自监督角色建模模块、分组选择模块和基于分组的资源分配模块。对于时空资源分配问题,智能体的行为既有相似性也有差异性。我们利用VLSTM捕捉每个智能体的个体特征,同时采用CVAE对不同组的功能进行编码。基于VLSTM和CVAE提取的行为特征,分组选择模块能够动态对智能体进行分组。而基于分组的资源分配模块则包含多个资源分配策略网络,每个网络对应一种资源分配模式。该分层决策结构不仅丰富了不同资源决策的行为模式,同时通过共享行为模式来降低训练成本。
图2:动态参数共享方案框图
自监督角色建模模块
分组角色建模:对各组的角色建模是有效聚类智能体的关键。现有研究表明,策略网络的行为模式可以通过智能体与环境的状态-动作对来建模。考虑到在某些状态下,不同策略网络可能做出相同的决策,即相同的状态-动作对可能对应多个策略网络,因此我们使用CVAE对不同策略网络的行为模式进行编码。如图3所示,CVAE通过概率编码器和概率解码器进行学习,利用状态和分组的id表征来预测动作。
图3:基于CVAE的分组角色建模
智能体角色建模:我们通过智能体的轨迹历史使用VLSTM进行角色建模。研究表明,智能体的轨迹中包含时空信息,提取这些信息有助于分组选择模块为智能体精确选择其对应的分组。因此,我们利用结合变分自编码器(VAE)和LSTM的VLSTM来提取轨迹历史中的时空特征,以增强其在动态环境中的鲁棒性。将智能体的历史轨迹输入LSTM模型,提取轨迹的表征,表征采用概率编码器的方式映射为隐向量。接着隐向量经过概率解码器得到预测的未来状态和未来奖励。
图4:基于VLSTM的智能体角色建模
分组选择模块
该模块旨在为每个智能体分配其对应的行为模式,通过选择适当的资源分配策略网络来完成分组。在此决策问题中,分组选择模块需要根据提取到的分组角色以及智能体的时空行为角色来选择合适的策略网络。在每个回合的一开始,一旦选择了资源分配策略网络,智能体将在整个回合内绑定到该分组。
具体的马尔可夫定义如下:
(1)状态:分组选择模块的状态定义为包括智能体的ID、VLSTM提取的智能体角色和CVAE建模的分组角色信息。
(2)动作:分组选择模块的动作在每回合开始时执行,其动作网络的输出是概率矩阵,其中矩阵的第m行第n列项表示智能体n被分配至分组m的概率。
(3)状态转移:在这个马尔可夫链中只存在单步决策,一旦执行了动作,只有在回合结束时才会进行下一次决策。
(4)奖励:奖励定义为所有智能体的回合累积奖励。
基于分组的资源分配模块
该模块由多个智能体组成,这些智能体被分为多个组,每组代表一个资源分配的策略网络。例如,在分组选择模块执行动作后,例如把智能体n分配组m后,该模块为智能体n提供策略网络分组m对应的策略网络。随后,智能体使用Actor-Critic方法解决时空资源分配问题。
实验结果
实验场景介绍
为了全面验证DyPS的有效性,我们在四个不同的时空资源分配场景中设置了七个实验,通过改变各环境中资源和需求的数量来考察其适应性。其中包括了觅食场景(图5(a)),多机器人搬运货物场景(图5(b)),网约车订单分配场景(图5(c)),疫苗分配场景(图5(d))。这些场景涵盖了交通、医疗和劳动力资源等多个城市生活和生产的代表性方面。
图5:实验模拟环境示意图
性能评估实验
为了验证我们提出的DyPS的性能,我们在七个场景中进行了时空资源分配实验,并与以下参数共享方法进行了对比:包括NoPS、PS、PS-id、PSA、SePS。实验结果如表1所示,在所有场景下,DyPS在任务特定评估指标上明显优于所有基线方法,在Ride-Hailing (2)大规模资源分配任务中实现了31%的最高性能提升。同时,尽管SePS方法在LBF和RWARE环境中表现良好,但在大规模的Ride-Hailing场景下性能不佳,说明DyPS在大规模动态场景中的动态角色分组能力显得尤为重要。
表1:多场景性能评估实验结果表格
适应多种MARL算法的能力
为验证DyPS在不同MARL算法下的通用性,我们将框架分别与多种MARL算法结合,包括IPPO,CoPO,MAPPO,把这些MARL算法替换基于分组的资源分配模块。结果如表2所示。在不同MARL方法下,DyPS通过动态参数共享持续提高了性能,显示了其稳健的扩展能力。值得注意的是,MAPPO因共享所有智能体的奖励,导致信任分配问题严重,在大规模智能体任务中表现不佳。
表2:适应不同MARL算法的实验表格
分组策略可视化
我们在Ride-Hailing (2)场景中可视化了训练过程中角色分组的演变过程(图6),显示DyPS在训练初期和中期更倾向于将具有相似订单分布的智能体聚集成一组,在训练后期有效聚集了具有相似资源-需求分布的智能体。
图6:分组策略可视化图
参考文献
[1] Filippos Christianos, Georgios Papoudakis, Muhammad A Rahman, and Stefano V Albrecht. 2021. Scaling multi-agent reinforcement learning with selective parameter sharing. In International Conference on Machine Learning. PMLR, 1989–1998.
[2] Christian Schroeder de Witt, Tarun Gupta, Denys Makoviichuk, Viktor Makoviychuk, Philip HS Torr, Mingfei Sun, and Shimon Whiteson. 2020. Is independent learning all you need in the starcraft multi-agent challenge? arXiv preprint arXiv:2011.09533 (2020).
[3] Chao Yu, Akash Velu, Eugene Vinitsky, Jiaxuan Gao, Yu Wang, Alexandre Bayen, and Yi Wu. 2022. The surprising effectiveness of ppo in cooperative multi-agent games. Advances in Neural Information Processing Systems 35 (2022), 24611–24624.