论文解读 |【KDD 2024】基于动态参数共享多智能体强化学习的城市时空资源调度优化

文摘 2024-11-24 21:05 安徽

论文标题：DyPS: Dynamic Parameter Sharing in Multi-Agent Reinforcement Learning for Spatio-Temporal Resource Allocation

作者：Jingwei Wang*, Qianyue Hao*, Wenzhen Huang, Xiaochen Fan, Zhentao Tang, Bin Wang, Jianye Hao, Yong Li

发表：KDD 2024

论文链接：

https://doi.org/10.1145/3637528.3672052

代码链接：

https://github.com/tsinghua-fib-lab/DyPS

导读

在城市的大规模资源分配场景中，根据资源和需求的时空分布，高效分配电力、医疗和交通等各种资源，对满足居民的生活需求至关重要。已有的资源分配研究主要采用多智能体强化学习（MARL）方法，通过多个智能体协作调配和分配资源以满足需求。然而，在城市中，由于智能体数量众多，现有的MARL方法计算复杂度高，缺乏高效的智能体参数共享策略。

现有方法在实现高效参数共享方面面临两大挑战：(1) 在RL训练过程中，智能体的行为发生显著变化，导致基于训练前固定角色划分的静态参数共享策略性能受限；(2) 智能体的行为轨迹复杂，而角色特征隐含在行为轨迹中，增加了在训练过程中动态调整参数共享的难度。

为了解决上述挑战，本文提出了动态参数共享方法。我们设计了自监督学习任务，从智能体的行为轨迹中提取隐含的行为特征。基于获取的行为特征，我们构建了一个分层的MARL框架，能够在训练过程中动态调整智能体角色划分，并在相同角色的智能体间共享参数，从而降低计算复杂度。此外，该框架可结合IPPO、MAPPO等多种典型MARL算法。我们在四个具有代表性的资源分配场景中进行了多组实验，证明了该方法的优越性。

背景介绍

在大型现代城市中，合理分配各类资源（如水、电、医疗、交通等）是一个关键的决策问题。有效的资源分配既能满足市民生活和工业需求，也为城市的正常运作和繁荣发展提供了基础。然而，由于资源与需求的异质性和时空动态性，要找到最佳的资源分配方案需要充分考虑复杂的时空特征。因此，制定高效的资源分配策略既具挑战性，又至关重要。

近年来，强化学习（RL）技术的进步激发了研究人员把资源分配问题建模为马尔可夫过程，并把多智能体强化学习（MARL）广泛应用于这类问题中，通过多个智能体协作调控资源以满足需求。然而，在大型城市中，由于资源和需求量庞大，往往需要大量智能体来实现城市范围内的资源分配，这导致了巨大的参数量和计算开销(图1(a))。为此，常见的解决方案是智能体之间的参数共享。有些基础方案简单地在所有智能体间共享参数，从而减少可学习参数的数量，但忽视了不同角色的智能体在行为上的差异（图1(b)）。最近的改进方法则是在RL训练前对智能体的时空特征进行建模，并根据相似性将智能体聚类为固定组，每组共享参数，从而在保持建模角色差异的同时减少参数量(图1(c))。

图1：参数共享策略对比图

尽管MARL中的参数共享策略在资源分配问题中被广泛应用，但现有方法仍存在两个未解决的挑战：

（1）智能体角色在训练过程中发生变化：大多数现有方案在RL训练前固定智能体的角色分组，但在训练过程中智能体行为会随着策略的更新发生显著变化，因此预先固定的角色分组可能不再适应训练后的智能体，进而限制了整体性能。

（2）智能体角色的识别也具有挑战性：角色特征隐含在智能体的历史行为轨迹中，这增加了动态调整角色分组的难度。

针对上述挑战，本文提出了动态参数共享（DyPS）框架，能够在RL训练过程中动态识别并调整智能体角色，解决大规模资源分配问题。

模型方法

本文提出的动态参数共享（DyPS）框架的系统架构如图2所示。DyPS由三个模块组成：自监督角色建模模块、分组选择模块和基于分组的资源分配模块。对于时空资源分配问题，智能体的行为既有相似性也有差异性。我们利用VLSTM捕捉每个智能体的个体特征，同时采用CVAE对不同组的功能进行编码。基于VLSTM和CVAE提取的行为特征，分组选择模块能够动态对智能体进行分组。而基于分组的资源分配模块则包含多个资源分配策略网络，每个网络对应一种资源分配模式。该分层决策结构不仅丰富了不同资源决策的行为模式，同时通过共享行为模式来降低训练成本。

图2：动态参数共享方案框图

自监督角色建模模块

分组角色建模：对各组的角色建模是有效聚类智能体的关键。现有研究表明，策略网络的行为模式可以通过智能体与环境的状态-动作对来建模。考虑到在某些状态下，不同策略网络可能做出相同的决策，即相同的状态-动作对可能对应多个策略网络，因此我们使用CVAE对不同策略网络的行为模式进行编码。如图3所示，CVAE通过概率编码器和概率解码器进行学习，利用状态和分组的id表征来预测动作。

图3：基于CVAE的分组角色建模

智能体角色建模：我们通过智能体的轨迹历史使用VLSTM进行角色建模。研究表明，智能体的轨迹中包含时空信息，提取这些信息有助于分组选择模块为智能体精确选择其对应的分组。因此，我们利用结合变分自编码器（VAE）和LSTM的VLSTM来提取轨迹历史中的时空特征，以增强其在动态环境中的鲁棒性。将智能体的历史轨迹输入LSTM模型，提取轨迹的表征，表征采用概率编码器的方式映射为隐向量。接着隐向量经过概率解码器得到预测的未来状态和未来奖励。

图4：基于VLSTM的智能体角色建模

分组选择模块

该模块旨在为每个智能体分配其对应的行为模式，通过选择适当的资源分配策略网络来完成分组。在此决策问题中，分组选择模块需要根据提取到的分组角色以及智能体的时空行为角色来选择合适的策略网络。在每个回合的一开始，一旦选择了资源分配策略网络，智能体将在整个回合内绑定到该分组。

具体的马尔可夫定义如下：

（1）状态：分组选择模块的状态定义为包括智能体的ID、VLSTM提取的智能体角色和CVAE建模的分组角色信息。

（2）动作：分组选择模块的动作在每回合开始时执行，其动作网络的输出是概率矩阵，其中矩阵的第m行第n列项表示智能体n被分配至分组m的概率。

（3）状态转移：在这个马尔可夫链中只存在单步决策，一旦执行了动作，只有在回合结束时才会进行下一次决策。

（4）奖励：奖励定义为所有智能体的回合累积奖励。

基于分组的资源分配模块

该模块由多个智能体组成，这些智能体被分为多个组，每组代表一个资源分配的策略网络。例如，在分组选择模块执行动作后，例如把智能体n分配组m后，该模块为智能体n提供策略网络分组m对应的策略网络。随后，智能体使用Actor-Critic方法解决时空资源分配问题。

实验结果

实验场景介绍

为了全面验证DyPS的有效性，我们在四个不同的时空资源分配场景中设置了七个实验，通过改变各环境中资源和需求的数量来考察其适应性。其中包括了觅食场景(图5(a))，多机器人搬运货物场景(图5(b))，网约车订单分配场景(图5(c))，疫苗分配场景(图5(d))。这些场景涵盖了交通、医疗和劳动力资源等多个城市生活和生产的代表性方面。

图5：实验模拟环境示意图

性能评估实验

为了验证我们提出的DyPS的性能，我们在七个场景中进行了时空资源分配实验，并与以下参数共享方法进行了对比：包括NoPS、PS、PS-id、PSA、SePS。实验结果如表1所示，在所有场景下，DyPS在任务特定评估指标上明显优于所有基线方法，在Ride-Hailing (2)大规模资源分配任务中实现了31%的最高性能提升。同时，尽管SePS方法在LBF和RWARE环境中表现良好，但在大规模的Ride-Hailing场景下性能不佳，说明DyPS在大规模动态场景中的动态角色分组能力显得尤为重要。

表1：多场景性能评估实验结果表格

适应多种MARL算法的能力

为验证DyPS在不同MARL算法下的通用性，我们将框架分别与多种MARL算法结合，包括IPPO，CoPO，MAPPO，把这些MARL算法替换基于分组的资源分配模块。结果如表2所示。在不同MARL方法下，DyPS通过动态参数共享持续提高了性能，显示了其稳健的扩展能力。值得注意的是，MAPPO因共享所有智能体的奖励，导致信任分配问题严重，在大规模智能体任务中表现不佳。

表2：适应不同MARL算法的实验表格

分组策略可视化

我们在Ride-Hailing (2)场景中可视化了训练过程中角色分组的演变过程(图6)，显示DyPS在训练初期和中期更倾向于将具有相似订单分布的智能体聚集成一组，在训练后期有效聚集了具有相似资源-需求分布的智能体。

图6：分组策略可视化图

参考文献

[1] Filippos Christianos, Georgios Papoudakis, Muhammad A Rahman, and Stefano V Albrecht. 2021. Scaling multi-agent reinforcement learning with selective parameter sharing. In International Conference on Machine Learning. PMLR, 1989–1998.

[2] Christian Schroeder de Witt, Tarun Gupta, Denys Makoviichuk, Viktor Makoviychuk, Philip HS Torr, Mingfei Sun, and Shimon Whiteson. 2020. Is independent learning all you need in the starcraft multi-agent challenge? arXiv preprint arXiv:2011.09533 (2020).

[3] Chao Yu, Akash Velu, Eugene Vinitsky, Jiaxuan Gao, Yu Wang, Alexandre Bayen, and Yi Wu. 2022. The surprising effectiveness of ppo in cooperative multi-agent games. Advances in Neural Information Processing Systems 35 (2022), 24611–24624.

http://mp.weixin.qq.com/s?__biz=MzIyMTE1MzMwOA==&mid=2247498838&idx=2&sn=6061795786ae29e208b1f53188a43ce7

GISer last

GISer last 公众号主要以分享互联网数据资源为主。也分享过GIS、FME等技术教程方法。我个人对于大数据资源、可视化制作、地图制图等方面有很大兴趣，也会分享个人的一些应用和教程。

最新文章

陈明星｜流空间视角下中国城市体系空间结构

地理流：城市功能量化的新视角

佳文推荐 | 地理流的空间模式：概念与分类

裴韬研究员：构建地理流空间分析的理论

【文献学习】SSH+GSHAP+GWR：顾及空间分层异质性的可解释空间插值方法

【论文学习】GTWR+MGWR：城市景观格局对生境质量的时空驱动机制研究

【论文精选】时空异质性+SBM模型+四象限模型，新型城镇化如何提升中国绿色发展效率？

成果速递|使用机器学习和街景图像评估绿色空间暴露对心理压力感知的非线性影响

福大遥感所新增1篇ESI前1%高引论文

【论文学习】MGWR + XGBoost + SHAP：建筑环境视角下共享单车与地铁连接的空间异质性与非线性研究

论文解读 |【KDD 2024】基于动态参数共享多智能体强化学习的城市时空资源调度优化

香港大学地理系-环境遥感/生态模拟方向招聘博士后和博士

【机器学习】Sustainable Cities and Society：应用多种机器学习模型识别城市活力因素并考察其空间依赖性

城市多灾种地质灾害综合评价——利用可解释机器学习模型的新方法

Ecological Indicators│基于可解释机器学习和Sentinel-2影像的内陆干旱-东部沿海土壤盐渍化反演模型

地理类SSCI期刊（Q1&Q2）最新资讯（截至2024年11月13日）

《IJGIS》：解锁空间过程的新视角：可视化分析助力地理模型解释

《IJGIS》发文提出一种“异质的空间自相关模型”HSA Model 解决空间自相关性的异质性问题

《IJGIS》：一种新颖的混合分层聚合算法（HeLP）

Annals of AAG|王劲峰研究员发表地理探测器相关最新研究：空间分层异构数据的统计建模

论文推送 | 《基于深度强化学习的便利店地理空间位置优化分析》被ACM SIGSPATIAL2024成功接收并应邀做报告发言

【阅读分享】空间数据分析：模型、方法与技术

成果速递丨硕士毕业生李万隆以第一作者在《地理学报》发文：京津冀和长三角城市群建设用地分配研究

南京内城日夜间单身、青年、高低消费及有车群体的空间分布格局——基于手机用户画像数据与地理位置信息

“广义对称”视角下上海夜间经济集聚中心识别方法与空间分异机理

理论研究 | 成渝城市群生态用地演变特征及影响因素研究

基于TD-GNNWR的武汉市房价因子空间非平稳性研究

陈小亮等：基于机器学习方法的一线城市房价影响因素研究

【文章导读】北京市住宅租金影响因素空间分异研究

基于多尺度地理加权回归模型的城市住宅价格影响因素空间异质性——以桂林市主城区为例

中国市域数字经济创新空间格局演化及其驱动机制（沈体雁等）

【文章导读】城市创新空间的集聚特征及影响因素研究——以南京主城为例

邹炀等丨城市群空间结构与城市创新能力——基于中国十大国家级城市群的经验证据

【规划师论坛】大城市经济适用型养老设施配置模式研究——以武汉市主城区为例

研究成果 | 机构养老服务设施空间多目标优化研究：以上海市为例

经典回顾 |【研究篇】广州天河区老年服务设施配置公平绩效及空间优化研究

研究趋势 | 基于POI数据的15分钟生活圈空间测度评价研究——以长春市朝阳区为例

继续，2020年村庄/社区七普数据，这是目前为止我搜集到的最优质的公开的七普数据了。

【文献速递】中国初级医疗机构空间可及性和不平等性研究

20分钟掌握基于dpethmap的空间句法快速分析

中国PM2.5暴露的多尺度时空变化趋势及差异

中国华东地区PM2.5浓度时空变化及与景观格局关联研究

全球高空污染物（GHAP）PM2.5 浓度（2017-2022）

王开泳，冯润东：行政区划调整对政区位势的影响与定量化测度

【政区地理】清代县级行政区划调整的时空变动与演化机理

【地理科学】多维尺度重构视角下“双城合并”的过程与机制——以济南莱芜行政区划调整为例

文献研读 | 区域增长 | 中国行政区划调整对城市扩张的时空影响

北部湾城市群洪涝灾害韧性时空演变及影响因素分析

国家生态保护修复公报

【转载】ggmapcn | 一款绘制中国标准地图的R包

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉