被秀到了！图神经网络与强化学习的梦幻联动，开启了智能决策新纪元

2024-11-14 11:55 安徽

图神经网络（GNN）与强化学习（RL）的结合是新兴研究方向。GNN 具强大表示能力，可捕捉图结构复杂模式与关系；RL 能在动态环境中决策，适应变化与长期规划。二者结合可创建同时学习图结构并做最优决策的模型，推动图机器学习领域研究，催生新算法和模型，为解决现实复杂问题提供新思路与工具，近年来众多研究者在此领域深入探索并收获颇丰。

为了帮助大家全面掌握【GNN结合强化学习】的方法并寻找创新点，本文总结了最近两年【GNN结合强化学习】相关的20篇前沿研究成果，这些论文、来源、论文的代码都整理好了，希望能给各位的学术研究提供新的思路。

需要的同学扫码添加我

回复“CNN强化学习”即可全部领取

一、Scalable Multi-Agent Reinforcement Learning through Intelligent Information Aggregation

1.方法

1.1环境建模

将多智能体环境中的智能体、障碍物和目标等对象构建为基于距离的智能体 - 实体图，智能体在感知半径内与其他实体形成有向边连接，以此表示智能体可获取的局部信息范围，同时定义了相应的 Dec - POMDP 模型描述环境要素。

1.2信息聚合

局部信息聚合（用于智能体决策）：利用图神经网络（GNN）中的 UniMP 模型，通过注意力机制聚合智能体邻居节点信息，将其聚合成固定大小向量与智能体局部观测拼接后输入 actor 网络，帮助智能体在仅知局部信息时决策。

全局信息聚合（用于评论家评估）：在 CTDE 训练设置中，使用全局平均池化操作聚合智能体邻居节点更新后的特征，形成固定大小向量输入 critic 网络，使评论家能基于聚合信息评估智能体联合动作价值，且适应不同数量智能体场景，助力课程学习。

1.3模型训练与算法结合

智能体的 actor 和 critic 网络可选用多层感知机（MLP）或循环神经网络（RNN），并结合 LSTM 或 GRU 等。

提出的信息聚合方法能与多种标准多智能体强化学习算法（如 MADDPG、MATD3、MAPPO、QMIX、VDN 等）结合，实验中以 MAPPO 为基础算法，采用其官方实现及相同超参数（特定参数除外）来实现 InforMARL。

2.创新点

2.1高效利用局部信息

提出 InforMARL 架构，通过 GNN 有效聚合局部邻域信息，使智能体在仅能感知局部环境时，也能学习到有效的路径规划策略，且在训练时使用较少信息却能达到比基线方法更好的样本效率和性能。

2.2良好的可扩展性

设计的信息聚合方法让模型在不同数量智能体的环境中能顺利转移，通过图结构表示环境与聚合信息，克服了传统方法因智能体数量变化导致网络输入维度改变而无法工作或性能下降的问题。

2.3重新审视信息利用

研究表明更多信息（如全局状态信息）未必提升性能，反而可能使 RL 智能体网络负担过重、增加样本复杂度，而 InforMARL 展示了如何通过图架构从局部观测中识别有价值信息，提升性能与可扩展性。

3.总结

本文提出 InforMARL 架构解决多智能体导航与避碰问题，运用图神经网络聚合智能体局部邻域信息实现分散式决策。实验显示，InforMARL 在训练中以较少信息取得更好效果，测试时能适应不同数量智能体和障碍物的环境，在多种任务环境中表现出色。研究揭示了图结构对多智能体导航环境建模的价值，以及合理利用局部信息的重要性。未来将探索引入复杂动态障碍物、添加安全保证层，以及 InforMARL 在课程学习和不同环境迁移学习中的应用。

论文链接：Scalable Multi-Agent Reinforcement Learning through Intelligent Information Aggregation

二、RoSGAS: Adaptive Social Bot Detection with Reinforced Self-Supervised GNN Architecture Search

1方法

1.1构建异构信息网络（HIN）

利用社交网络中的账号元数据、关系、行为和内容特征构建 HIN，以表示社交网络中的实体和关系。通过提取多种类型节点（如用户、推文、评论、实体和话题标签）及其间多种关系（如关注、发布、回复、转发、包含等），并依据实际观察设定元模式和元路径来约束节点和边的类型。对原始图进行预处理，保留符合特定元路径的实体和边，减少信息冗余，提高计算效率，将处理后的图用于提取目标用户的子图。

1.2基于强化学习的参数搜索

以多智能体深度强化学习（RL）机制确定每个目标用户的子图宽度（）和模型层数（）。将目标用户的初始 1 阶邻居子图编码为环境状态输入 RL 代理，代理中的策略和分别负责选择合适的子图宽度和模型层数，目标是最大化预期准确率。选择动作后，RL 环境形成概率分布作为状态转移概率，依据奖励函数评估搜索机制，奖励与模型准确率改进相关，通过- 贪婪策略选择动作，以优化策略函数。

1.3加速模型稳定的最近邻机制

借助最近邻机制加速 RL 训练过程。记录历史动作的观察经验集，通过距离函数衡量状态 - 动作对之间的距离，找到当前状态 - 动作对的最近邻，并结合其奖励值与 Q 网络估计值得到新的估计值，从而优化 RL 损失函数，辅助 RL 优化，提升动作探索效率，加速训练稳定。

1.4自监督学习

提出对比自监督学习方法，通过生成正、负样本，使同一用户的子结构（子图）具有相似表示向量，不同用户的子图具有判别性嵌入。利用堆叠的 GNN 编码器和 RL 管道进行特征提取与汇总，采用边际三元组损失函数优化模型，避免正、负样本过度分化，该损失函数纳入整体损失函数作为优化目标。

1.5参数共享与嵌入缓冲机制

通过参数共享避免训练大量模型参数，即先确定最大基础层数初始化模型，再根据 RL 代理输出堆叠部分或全部层。利用嵌入缓冲机制减少不必要的嵌入传递操作，按批处理子图嵌入，达到阈值后触发模型重构，训练结束后清空缓冲空间。

1.6整体训练流程

首先依据定义构建社交图并初始化 GNN 模型与 RL 代理网络，然后在训练阶段随机采样目标用户，嵌入其初始子图作为状态，在每个时间步选择动作确定子图宽度和层数，重新提取子图并存储相关信息。当子图数量达到阈值，堆叠 GNN 模型，结合自监督学习机制生成正、负样本进行训练，通过验证集获取奖励并存储状态转移信息，优化 RL 代理的策略，最终使用训练好的策略重新训练 GNN，得到目标用户的最终嵌入用于下游分类任务。

2.创新点

2.1创新框架结合多种技术

首次提出基于异构信息网络和 GNN 的以用户为中心的社交机器人检测框架，无需先验知识，结合强化学习优化子图宽度和 GNN 架构层数，运用自监督学习增强子图表示能力，有效解决社交机器人检测中 GNN 架构设计依赖领域知识、过平滑、标签样本不足等问题。

2.2自适应优化子图与模型架构

开发自适应框架，利用强化学习为每个目标用户确定合适的子图宽度和 GNN 架构层数，能自动适应不同用户的结构特点，平衡检测准确性与计算效率，克服传统方法中固定参数设置无法适应复杂社交网络结构变化的局限。

2.3加速强化学习收敛

提出最近邻机制，在强化学习早期阶段加速训练过程，通过利用历史经验中相似状态 - 动作对的奖励信息辅助当前决策，提高动作探索效率，使模型更快收敛，解决了强化学习训练初期波动大、收敛慢的问题。

3.总结

本文提出了一个名为RoSGAS的新型框架，用于在强化学习（RL）中通过图神经网络（GNN）建模环境，以提高社交机器人检测的性能。RoSGAS框架的核心在于自适应地确定最适合的多跳邻域和GNN架构的层数，以构建更优的政策网络。该框架利用异构图神经网络（HIN）来表示用户连接，并采用多智能体深度RL机制来导航最优邻域和网络层的选择，从而学习每个目标用户的子图嵌入。RoSGAS还引入了最近邻机制来加速RL训练过程，并通过自监督学习机制提高子图嵌入的区分度。在五个Twitter数据集上的实验结果表明，RoSGAS在准确性、训练效率和稳定性方面均优于现有方法，并且在处理未见样本时具有更好的泛化能力。

论文链接：2206.06757

需要的同学扫码添加我

回复“CNN强化学习”即可全部领取

三、Leveraging Graph Networks to Model Environments in Reinforcement Learning

1.方法

1.1图神经网络（GNNs）的应用

论文探索了GNNs在模拟复杂环境中的作用，特别是在部分可观测、非静态的军事训练演习场景中。

1.2不同GNNs和图网络池化函数的组合

研究了不同GNNs（包括GCN、GT和GATv2）与池化函数（包括局部、全局和混合池化）的组合对政策性能的影响。

1.3多层次实验

在不同问题复杂度水平上进行实验，以验证GNNs在不同难度级别上的有效性。

1.4多智能体RL（MARL）场景

探讨了模型在多智能体RL场景中的适用性，包括竞争和合作环境。

1.5节点嵌入的构建

构建了基于环境观察的图节点嵌入，确保图表示包含与原始观察相同的信息。

2.创新点

2.1环境结构的影响

论文提出，环境结构应影响代理之间的协作行为学习方式，这是通过将代理编码嵌入图结构来实现的。

2.2 GNNs在政策网络中的应用

通过在政策网络中引入GNNs来模拟代理环境，引入了新的归纳偏差，从而提高了训练伙伴的性能。

2.3不同池化函数的效果比较

论文不仅比较了不同GNNs的效果，还比较了不同池化函数对模型性能的影响。

2.4 GNNs在MARL中的应用

论文展示了GNNs在多智能体环境中的潜力，这对于理解和改进多智能体协作行为具有重要义。

2.5实验结果的统计验证

通过t检验对实验结果进行了统计验证，增强了研究结果的可信度。

3.总结

总的来说，这篇论文的创新之处在于将GNNs应用于强化学习环境模拟，并系统地研究了不同GNNs和池化函数对政策性能的影响，同时探索了GNNs在多智能体环境中的适用性。

论文链接：https://journals.flvc.org/FLAIRS/article/download/133118/137929

需要的同学扫码添加我

回复“CNN强化学习”即可全部领取

http://mp.weixin.qq.com/s?__biz=Mzk0NzcyNDQ3Nw==&mid=2247487675&idx=1&sn=988824debd736edf5bf6bf34c9057f93

AI学术工坊

分享最新AI资源

最新文章

别再 “单打独斗”！特征融合技术带领深度学习模型 “组团出道”！

博士招生 | 智能交通、智能网联驾驶方向博士研究生招生(西交利物浦大学)

别让夜间眩光 “闪瞎” 视觉算法！Flare7K++ 带着解决方案闪亮登场

揭秘 LSTM与CNN的完美联姻，论文从此不再愁！

真实到离谱！1000 个如同人类 “克隆” 的个体进入西部世界，AI 相似度达到 85%，细节令人震撼！

CMAE横空出世，在视觉任务中取得惊人成果

多模态生成发文量飙升，最新成果统一两大技术，含金量爆表！

博士招生 | 澳门理工大学人工智能药物发现中心招收全奖博士生 (2025年入学)

重大突破！新型自适应程序助力多模态学习，弥补缺失模态性能短板！

从城市到高速，自动驾驶如何重塑交通版图？

Nature发声：“人类亲吻难题” 让LLM原形毕露！各大模型全军覆没，所谓强大的它们，根本不懂推理，仅仅是被高估的工具罢了。

超越传统：新型变换器框架在 WSSS 中展现卓越性能！

别人还在迷茫，目标追踪已凭借精准定位 “笑傲江湖”！

博士招生 | 深圳理工大学人工智能学院客座研究生招聘

绝绝子！VST++ 助力显著性检测，“实力圈粉” 没商量！

别人苦苦训练，HPT 模型0起步却让通用机器人性能 “一骑绝尘”！

3D人体姿势数据为何缺乏语言描述？PoseScript 数据集如何填补这一空白？

仅有少量样本，“小样本学习 + 多模态” 凭啥在 AI 领域风生水起？

博士招生 | 悉尼科技大学(QS世界排名88)招收2025年入学的数据科学/AI方向的博士生和访问学生学者

VSR 模型的 “逆天改命” 术 —— 提示调整，C 位出道！

被秀到了！图神经网络与强化学习的梦幻联动，开启了智能决策新纪元

哈佛突破：新一代AI精准诊断癌症，准确率惊人！

深度全卷积新贵 SegNet 登场，能否打破语义分割现有格局？

高光谱图像恢复大作战，看 Transformer 如何显神通！

大模型微调背后的神秘力量：你了解多少？

博士招生 | 香港科技大学广州-陈煌栒老师招收网络信息物理系统与人工智能的交叉方向的博士/RA

深度揭秘：计算机视觉 + 注意力机制融合，为何成为学术研究新宠

清华团队重磅突破！具身智能 Scaling Law 被破解，GPT 时刻或将来临，宁德时代联创助力

只训练一个GNN已过时？解耦图神经网络：多管齐下的神秘训练策略

时序 + CNN：顶会的 “奇葩” 但超有效的方向！

不可思议！RGBE-Gaze 数据集，让凝视追踪更上一层楼

博士招生 | 中科院物理所李迪组招聘【光学/图像/自动化/人工智能/细胞生物学】博/硕/科研助理

万能涨点&出创新点神器：对比学习！15种创新方法全面汇总

国务院：博士学位论文，不再非写不可

博士招生 | 香港理工大学2025博士生招生，每月近1.9万津贴

EfficientTrain++：一种高效视觉骨干训练的新突破

博士招生 | 福建医科大学健康数据科学博士招生研究方向：医疗大数据与人工智能

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

图像超分辨：清华甩出Inf-DiT：Diffusion Transformer 任意分辨率上采样，可节省超过5倍显存！

招生 | 浙江大学吴超老师课题组招收偏计算机方向博士后和科研助理

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

视觉跟踪新范式：MixFormer 的混合注意力机制与预训练策略

博士招生 | 英国顶尖大学卡迪夫大学招人工智能、机器学习算法及应用全奖博士或联培博士、教师

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

博士招生 | 香港理工大学2025博士生招生，每月近1.9万津贴

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

真实世界图像超分辨率：交互式调制如何应对复杂退化挑战？

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉