图神经网络(GNN)与强化学习(RL)的结合是新兴研究方向。GNN 具强大表示能力,可捕捉图结构复杂模式与关系;RL 能在动态环境中决策,适应变化与长期规划。二者结合可创建同时学习图结构并做最优决策的模型,推动图机器学习领域研究,催生新算法和模型,为解决现实复杂问题提供新思路与工具,近年来众多研究者在此领域深入探索并收获颇丰。
为了帮助大家全面掌握【GNN结合强化学习】的方法并寻找创新点,本文总结了最近两年【GNN结合强化学习】相关的20篇前沿研究成果,这些论文、来源、论文的代码都整理好了,希望能给各位的学术研究提供新的思路。
需要的同学扫码添加我
回复“CNN强化学习”即可全部领取
一、Scalable Multi-Agent Reinforcement Learning through Intelligent Information Aggregation
1.方法
1.1环境建模
将多智能体环境中的智能体、障碍物和目标等对象构建为基于距离的智能体 - 实体图,智能体在感知半径内与其他实体形成有向边连接,以此表示智能体可获取的局部信息范围,同时定义了相应的 Dec - POMDP 模型描述环境要素。
1.2信息聚合
局部信息聚合(用于智能体决策):利用图神经网络(GNN)中的 UniMP 模型,通过注意力机制聚合智能体邻居节点信息,将其聚合成固定大小向量与智能体局部观测拼接后输入 actor 网络,帮助智能体在仅知局部信息时决策。
全局信息聚合(用于评论家评估):在 CTDE 训练设置中,使用全局平均池化操作聚合智能体邻居节点更新后的特征,形成固定大小向量输入 critic 网络,使评论家能基于聚合信息评估智能体联合动作价值,且适应不同数量智能体场景,助力课程学习。
1.3模型训练与算法结合
智能体的 actor 和 critic 网络可选用多层感知机(MLP)或循环神经网络(RNN),并结合 LSTM 或 GRU 等。
提出的信息聚合方法能与多种标准多智能体强化学习算法(如 MADDPG、MATD3、MAPPO、QMIX、VDN 等)结合,实验中以 MAPPO 为基础算法,采用其官方实现及相同超参数(特定参数除外)来实现 InforMARL。
2.创新点
2.1高效利用局部信息
提出 InforMARL 架构,通过 GNN 有效聚合局部邻域信息,使智能体在仅能感知局部环境时,也能学习到有效的路径规划策略,且在训练时使用较少信息却能达到比基线方法更好的样本效率和性能。
2.2良好的可扩展性
设计的信息聚合方法让模型在不同数量智能体的环境中能顺利转移,通过图结构表示环境与聚合信息,克服了传统方法因智能体数量变化导致网络输入维度改变而无法工作或性能下降的问题。
2.3重新审视信息利用
研究表明更多信息(如全局状态信息)未必提升性能,反而可能使 RL 智能体网络负担过重、增加样本复杂度,而 InforMARL 展示了如何通过图架构从局部观测中识别有价值信息,提升性能与可扩展性。
3.总结
本文提出 InforMARL 架构解决多智能体导航与避碰问题,运用图神经网络聚合智能体局部邻域信息实现分散式决策。实验显示,InforMARL 在训练中以较少信息取得更好效果,测试时能适应不同数量智能体和障碍物的环境,在多种任务环境中表现出色。研究揭示了图结构对多智能体导航环境建模的价值,以及合理利用局部信息的重要性。未来将探索引入复杂动态障碍物、添加安全保证层,以及 InforMARL 在课程学习和不同环境迁移学习中的应用。
论文链接:Scalable Multi-Agent Reinforcement Learning through Intelligent Information Aggregation
二、RoSGAS: Adaptive Social Bot Detection with Reinforced Self-Supervised GNN Architecture Search
1方法
1.1构建异构信息网络(HIN)
利用社交网络中的账号元数据、关系、行为和内容特征构建 HIN,以表示社交网络中的实体和关系。通过提取多种类型节点(如用户、推文、评论、实体和话题标签)及其间多种关系(如关注、发布、回复、转发、包含等),并依据实际观察设定元模式和元路径来约束节点和边的类型。对原始图进行预处理,保留符合特定元路径的实体和边,减少信息冗余,提高计算效率,将处理后的图用于提取目标用户的子图。
1.2基于强化学习的参数搜索
以多智能体深度强化学习(RL)机制确定每个目标用户的子图宽度()和模型层数()。将目标用户的初始 1 阶邻居子图编码为环境状态输入 RL 代理,代理中的策略和分别负责选择合适的子图宽度和模型层数,目标是最大化预期准确率。选择动作后,RL 环境形成概率分布作为状态转移概率,依据奖励函数评估搜索机制,奖励与模型准确率改进相关,通过- 贪婪策略选择动作,以优化策略函数。
1.3加速模型稳定的最近邻机制
借助最近邻机制加速 RL 训练过程。记录历史动作的观察经验集,通过距离函数衡量状态 - 动作对之间的距离,找到当前状态 - 动作对的最近邻,并结合其奖励值与 Q 网络估计值得到新的估计值,从而优化 RL 损失函数,辅助 RL 优化,提升动作探索效率,加速训练稳定。
1.4自监督学习
提出对比自监督学习方法,通过生成正、负样本,使同一用户的子结构(子图)具有相似表示向量,不同用户的子图具有判别性嵌入。利用堆叠的 GNN 编码器和 RL 管道进行特征提取与汇总,采用边际三元组损失函数优化模型,避免正、负样本过度分化,该损失函数纳入整体损失函数作为优化目标。
1.5参数共享与嵌入缓冲机制
通过参数共享避免训练大量模型参数,即先确定最大基础层数初始化模型,再根据 RL 代理输出堆叠部分或全部层。利用嵌入缓冲机制减少不必要的嵌入传递操作,按批处理子图嵌入,达到阈值后触发模型重构,训练结束后清空缓冲空间。
1.6整体训练流程
首先依据定义构建社交图并初始化 GNN 模型与 RL 代理网络,然后在训练阶段随机采样目标用户,嵌入其初始子图作为状态,在每个时间步选择动作确定子图宽度和层数,重新提取子图并存储相关信息。当子图数量达到阈值,堆叠 GNN 模型,结合自监督学习机制生成正、负样本进行训练,通过验证集获取奖励并存储状态转移信息,优化 RL 代理的策略,最终使用训练好的策略重新训练 GNN,得到目标用户的最终嵌入用于下游分类任务。
2.创新点
2.1创新框架结合多种技术
首次提出基于异构信息网络和 GNN 的以用户为中心的社交机器人检测框架,无需先验知识,结合强化学习优化子图宽度和 GNN 架构层数,运用自监督学习增强子图表示能力,有效解决社交机器人检测中 GNN 架构设计依赖领域知识、过平滑、标签样本不足等问题。
2.2自适应优化子图与模型架构
开发自适应框架,利用强化学习为每个目标用户确定合适的子图宽度和 GNN 架构层数,能自动适应不同用户的结构特点,平衡检测准确性与计算效率,克服传统方法中固定参数设置无法适应复杂社交网络结构变化的局限。
2.3加速强化学习收敛
提出最近邻机制,在强化学习早期阶段加速训练过程,通过利用历史经验中相似状态 - 动作对的奖励信息辅助当前决策,提高动作探索效率,使模型更快收敛,解决了强化学习训练初期波动大、收敛慢的问题。
3.总结
本文提出了一个名为RoSGAS的新型框架,用于在强化学习(RL)中通过图神经网络(GNN)建模环境,以提高社交机器人检测的性能。RoSGAS框架的核心在于自适应地确定最适合的多跳邻域和GNN架构的层数,以构建更优的政策网络。该框架利用异构图神经网络(HIN)来表示用户连接,并采用多智能体深度RL机制来导航最优邻域和网络层的选择,从而学习每个目标用户的子图嵌入。RoSGAS还引入了最近邻机制来加速RL训练过程,并通过自监督学习机制提高子图嵌入的区分度。在五个Twitter数据集上的实验结果表明,RoSGAS在准确性、训练效率和稳定性方面均优于现有方法,并且在处理未见样本时具有更好的泛化能力。
论文链接:2206.06757
需要的同学扫码添加我
回复“CNN强化学习”即可全部领取
三、Leveraging Graph Networks to Model Environments in Reinforcement Learning
1.方法
1.1图神经网络(GNNs)的应用
论文探索了GNNs在模拟复杂环境中的作用,特别是在部分可观测、非静态的军事训练演习场景中。
1.2不同GNNs和图网络池化函数的组合
研究了不同GNNs(包括GCN、GT和GATv2)与池化函数(包括局部、全局和混合池化)的组合对政策性能的影响。
1.3多层次实验
在不同问题复杂度水平上进行实验,以验证GNNs在不同难度级别上的有效性。
1.4多智能体RL(MARL)场景
探讨了模型在多智能体RL场景中的适用性,包括竞争和合作环境。
1.5节点嵌入的构建
构建了基于环境观察的图节点嵌入,确保图表示包含与原始观察相同的信息。
2.创新点
2.1环境结构的影响
论文提出,环境结构应影响代理之间的协作行为学习方式,这是通过将代理编码嵌入图结构来实现的。
2.2 GNNs在政策网络中的应用
通过在政策网络中引入GNNs来模拟代理环境,引入了新的归纳偏差,从而提高了训练伙伴的性能。
2.3不同池化函数的效果比较
论文不仅比较了不同GNNs的效果,还比较了不同池化函数对模型性能的影响。
2.4 GNNs在MARL中的应用
论文展示了GNNs在多智能体环境中的潜力,这对于理解和改进多智能体协作行为具有重要义。
2.5实验结果的统计验证
通过t检验对实验结果进行了统计验证,增强了研究结果的可信度。
3.总结
总的来说,这篇论文的创新之处在于将GNNs应用于强化学习环境模拟,并系统地研究了不同GNNs和池化函数对政策性能的影响,同时探索了GNNs在多智能体环境中的适用性。
论文链接:https://journals.flvc.org/FLAIRS/article/download/133118/137929
需要的同学扫码添加我
回复“CNN强化学习”即可全部领取