标题:Learning to Share in Multi-Agent Reinforcement Learning
作者:Yuxuan Yi, Ge Li, Yaowei Wang, Zongqing Lu
单位:Peking University; Peng Cheng Lab
完全协作式的多智能体强化学习(MARL)具有高度复杂性,不仅需要考虑个体的智能程度,还要考虑整个系统的自主性、社会性。现有研究通常采用集中训练分散执行(CTDE)方法,即在训练阶段可以全局已知整个系统的状态和奖励,在执行阶段每个智能体只能观察到局部环境,并基于训练过的策略做出决策。然而,这种方法会产生过度泛化的问题,同时无法很好地估计所使用的价值函数,从而无法学习最优策略。针对此问题,论文提出了一种网络化、分布式的MARL方法,其中智能体被部署为部分连接的网络,将所有智能体之间的依赖关系分解为仅邻居之间的依赖关系,并协同做出决策。
(1)提出了共享学习方法(LToS),这是一种用于网络化MARL的分层分布式学习框架,使智能体能够学习与邻居动态地共享奖励,从而协同优化全局目标。
(2)LToS中高层策略决定共享回报的权重,将全局目标分解为局部目标;低层策略优化确定权重的局部目标。高层和低层的策略形成了双向优化,交替学习以优化全局目标。
论文提出了一种新的网络化多智能体强化学习方法,该方法包括共享奖励、分层体系和分布式学习三个部分。
图1 LToS整体框架
论文的实验部分对所提出的LToS方法的可行性与先进性分别在囚徒困境、丛林法则和交通路口三种场景(如图2所示)下进行了评估。首先,针对囚徒困境实验场景,设置有三个出口,当某个智能体达到一个目标或两个智能体同时达到不同目标时,游戏结束。其中奖励函数设置为:智能体每次移动获得-0.01奖励,达到目标获得+1奖励。论文以单智能体平均回报的形式展示了所有方法的学习曲线(如图3所示),实线表示具有不同随机种子的5次训练运行的平均值,阴影区域表示最小/最大值。
图2 囚徒困境、丛林法则和交通路口实验场景
其次,针对丛林法则实验场景,设置每个智能体可以攻击或移动到一个相邻的网格。进食(攻击食物)会带来+1的奖励,但攻击其他智能体会获得更高的+2奖励,同时受害者遭受-4奖励。原始设置中地图大小为 30 × 30网格,智能体数量为20, 食物数量为12,观测值由智能体坐标和附近11 × 11的网格组成,每个智能体有3个最近的智能体作为它的邻居。图4展示了所有方法在丛林法则环境下的学习曲线,并在图5展示不同方法学习到的代表性行为。