张翠娟,纪良浩,李华青等 | 事件触发和优先经验回放的多智能体系统最优一致控制
文摘
科技
2024-12-30 12:03
北京
研究团队
张翠娟,纪良浩,杨莎莎,郭兴:重庆邮电大学
李华青:西南大学
文章下载
Cuijuan Zhang, Lianghao Ji, Shasha Yang, Xing Guo & Huaqing Li. Distributed optimal consensus control for multiagent systems based on event-triggered and prioritized experience replay strategies. Sci China Inf Sci, 2025, 68(1): 112206, doi: 10.1007/s11432-023-4183-4
为了确保多智能体系统最优一致控制的稳定性,智能体间的通信通常是实时的。然而,实时通信可能会带来通信信道负载和计算负载的增加。在大多数事件触发条件下,通常通过评估当前状态数据与最新传输状态数据之间的差异来决定是否传输数据。若这些采样数据之间的差异足够小,则不会传输数据,而是将其丢弃。因此,可能会导致一些重要的信息被丢弃。另一方面,现有的强化学习算法采用均匀采样,这会导致出现频率小但是重要的数据不容易被访问。例如自动驾驶时的紧急制动,这种紧急制动情况下的数据相对较少且不容易被访问,但其对系统的性能和安全性具有重要影响。为了解决上述问题,本文针对一类连续时间MASs,提出一种融合了事件触发和优先经验回放的思想。首先,基于优先经验回放机制,使得事件触发条件依赖于加权采样误差,并引入了包含此误差的迭代性能指标函数和迭代控制策略。这一机制能够在智能体与环境交互时,通过有效地利用历史数据,提升系统性能、提高数据的利用率、节约通信资源。接着,构建了actor-critic神经网络,分别用于近似性能指标函数和控制策略。相对于传统的强化学习算法,本文提出的算法不仅能够节约通信资源,而且能够有效平衡通信资源和系统性能之间的关系,为多智能体系统的实际应用提供更为可靠的解决方案。最后,通过仿真实验验证了所提出算法的有效性。(1) 设计了一种基于优先级经验回放(Prioritized Experience Replay, PER)的新型事件触发(Event-Triggered , ET)方法。具体而言,我们以PER中的优先级作为选择有效历史数据和设计ET条件的基础。与已有的事件触发机制相比,所提出的方法利用了多智能体系统的历史信息,并能够在系统性能和通信资源节约之间有效地建立平衡。(2) 构建了一个事件触发actor-critic神经网络,以学习最优控制策略。相较于传统的actor-critic神经网络,该神经网络的权重是非周期调整的,这意味着actor-critic网络仅在触发时刻进行调整,从而降低了计算复杂度。(3) 本研究提出的算法采用了PER方法,与传统强化学习算法相比具有若干优势。首先,它通过打破数据与数据之间的强相关性并满足随机梯度算法所需的独立同分布假设,减少了估计偏差。其次,它选择了有用但不常见的经验,缩短了瞬态响应过程并提高了系统安全性。第三,它允许多智能体系统与环境进行充分交互,避免了激励条件。本文对所提出的多智能体系统协同优化控制方案进行了仿真实验验证,不仅与经典的基于事件触发的优化算法进行了对比分析,还深入探讨了与先进的基于经验回放机制的优化算法的性能差异。在对比实验中,我们选择了收敛速率,事件触发次数及能量总耗三个重要的指标进行了对比,实验结果如下所示:图2(a)至(c)分别描绘了在基于传统事件触发(Event-Triggered, ET)、基于经验回放的事件触发(Event-Triggered Method Based on Experience Replay, ET-ER)和基于优先经验回放的事件触发((Event-Triggered Method Based on Prioritized Experience Replay, ET-PER)算法下多智能体系统的状态演化轨迹。从图2(a)至(c)中,可以观察到在传统事件触发算法下,多智能体系统状态和控制策略的收敛速度比其他两种算法慢。这种差异的原因在于,基于ET-ER和ET-PER的算法利用了系统的历史数据,智能体在学习过程中能够更多地关注系统性能,从而提高了收敛速度。图4(a)至(c)分别描绘了在传统ET、ET-ER和ET-PER算法下多智能体系统的事件触发次数。从图中可以明显观察到,在所有智能体中,基于ET-PER算法的触发次数均最低,其次是基于传统ET算法,而基于ET-ER算法下触发次数相对较高。这主要归因于基于ET-ER算法虽然利用了历史数据,但其并未对这些数据进行优先级排序,从而导致了触发次数的增加。通过对比实验,基于ET-PER算法在节约通信资源方面的优势得到了验证。如图7所示,绿色部分表示在基于传统ET的算法下,智能体达到一致性所需的总能耗;蓝色部分表示在基于ET-ER的算法下的总能耗;橙色部分表示在基于ET-PER的算法下的总能耗。从图中可以明显看出,所提算法在总能耗方面表现最佳,其次是基于ET-ER的算法,而基于传统ET的算法的总能耗相对较高。具体来说,与基于传统ET的算法下的总能耗相比,采用基于ET-PER的算法在性能上提高了约50%。从上述分析中可以看出,在相同的神经网络结构和参数下,所提算法在多个关键性能指标上相较于基于传统ET的算法表现出显著优势。具体来说,通过融合基于优先级的事件触发机制,有效地减少了不必要的通信,从而提高了收敛速度并降低了总能耗。与基于ET-ER的算法相比,本文所提算法在减少通信和能耗方面同样表现出色。