【论文荐读】面向多智能体强化学习的共享学习方法

文摘   科技   2023-12-14 09:34   江苏  


标题:Learning to Share in Multi-Agent Reinforcement Learning

来源:36th Conference on Neural Information Processing Systems (NeurIPS 2022)

作者:Yuxuan Yi, Ge Li, Yaowei Wang, Zongqing Lu

单位:Peking University; Peng Cheng Lab

1、研究背景

完全协作式的多智能体强化学习(MARL)具有高度复杂性,不仅需要考虑个体的智能程度,还要考虑整个系统的自主性、社会性。现有研究通常采用集中训练分散执行(CTDE)方法,即在训练阶段可以全局已知整个系统的状态和奖励,在执行阶段每个智能体只能观察到局部环境,并基于训练过的策略做出决策。然而,这种方法会产生过度泛化的问题,同时无法很好地估计所使用的价值函数,从而无法学习最优策略。针对此问题,论文提出了一种网络化、分布式的MARL方法,其中智能体被部署为部分连接的网络,将所有智能体之间的依赖关系分解为仅邻居之间的依赖关系,并协同做出决策

2、论文创新点:

1)提出了共享学习方法(LToS),这是一种用于网络化MARL的分层分布式学习框架,使智能体能够学习与邻居动态地共享奖励,从而协同优化全局目标。

(2)LToS中高层策略决定共享回报的权重,将全局目标分解为局部目标;低层策略优化确定权重的局部目标。高层和低层的策略形成了双向优化,交替学习以优化全局目标

3、研究方法:

论文提出了一种新的网络化多智能体强化学习方法,该方法包括共享奖励、分层体系和分布式学习三个部分。

针对共享奖励,由于网络MARL限制邻居之间的通信,论文假设单个智能体的奖励依赖于邻居的行为,只允许相邻智能体之间共享奖励。将单个智能体奖励表示为自身奖励与相邻智能体加权奖励之和,其中相邻智能体奖励权重由LToS的高层策略决定。针对分层体系,上层指在给定策略下,针对全局目标进行优化;下层指在给定邻居奖励权重的情况下,对单个智能体策略进行优化,论文推导了网络化MARL下单智能体的价值函数与动作价值函数并针对双层优化进行数学表达。针对分布式学习,论文首先证明了每个智能体在高层策略的独立性,为去中心化的训练奠定了基础,对于每个智能体,低层策略简单地学习一个局部行为策略来优化自身的累积奖励,而高层策略只需要局部确定共享权重因子来优化智能体的累计奖励。论文所提出的LToS整体框架如图1所示

1 LToS整体框架

论文的实验部分对所提出的LToS方法的可行性与先进性分别在囚徒困境、丛林法则和交通路口三种场景(如图2所示)下进行了评估。首先,针对囚徒困境实验场景,设置有三个出口,当某个智能体达到一个目标或两个智能体同时达到不同目标时,游戏结束。其中奖励函数设置为:智能体每次移动获得-0.01奖励,达到目标获得+1奖励。论文以单智能体平均回报的形式展示了所有方法的学习曲线(如图3所示),实线表示具有不同随机种子的5次训练运行的平均值,阴影区域表示最小/最大值

囚徒困境、丛林法则和交通路口实验场景

图3 囚徒困境不同算法的平均奖励曲线

其次,针对丛林法则实验场景,设置每个智能体可以攻击或移动到一个相邻的网格。进食(攻击食物)会带来+1的奖励,但攻击其他智能体会获得更高的+2奖励,同时受害者遭受-4奖励。原始设置中地图大小为 30 × 30网格,智能体数量为20, 食物数量为12,观测值由智能体坐标和附近11 × 11的网格组成,每个智能体有3个最近的智能体作为它的邻居。图4展示了所有方法在丛林法则环境下的学习曲线,并在图5展示不同方法学习到的代表性行为

丛林法则不同算法的平均奖励曲线
图5 不同算法的智能体代表行为

最后,针对交通路口实验场景,论文设置每个智能体在十字路口充当交通信号控制灯,智能体的观察由其当前阶段(红灯/绿灯方向)的编码表示和每个十字路口进入车辆的数量组成,在每个时间步,智能体从预定义的时间集中为下一个时间间隔选择一个时长,奖励设置为当前时间步长所有接近路口的车辆队列长度之和的负数,全局目标是最小化道路网络中所有车辆的平均等待时间,等待时间的归一化度量为一辆车在每个十字路口等待的平均红灯数,图6以对数形式给出了所有方法的学习曲线

图6 交通路口不同算法的平均等待时间曲线
4、结论:
论文提出了一种针对完全合作场景下的多机器人强化学习算法LToS。这是一种分层分布式的MARL框架,对于每个智能体,高层策略学习如何与邻居共享奖励来分解全局目标,低层策略学习如何优化由高层策略在邻居中分配的局部目标,两种策略形成双层优化,交替学习。实验表明,LToS在社会困境和交通管理的网络化MARL场景中都优于现有方法



智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章