[工业人工智能] 论文分享:基于逆变器的AVC:图多智能体强化学习算法

文摘   2024-11-11 12:39   北京  

引言:主动电压控制(Active Voltage Control, AVC)在现代电力系统中扮演着关键角色,尤其是在主动配电网络(Active Distribution Networks, ADNs)逐渐普及的背景下,其重要性愈发突出。ADN是一种新兴的电网架构,它通过集成多种可控资源,如分布式电源、储能设备和柔性负荷,来实现对配电系统的精细控制,以提升电网的可靠性和灵活性。然而,随着风能、太阳能等间歇性可再生能源的接入,电网的电压波动问题日益严重,尤其是在分布式能源普及率高的区域。这些可再生能源的波动性和不确定性给电网电压稳定性带来了新的挑战。

近期,在电子与电气领域的顶级期刊IEEE Transactions on Smart Grid上发表了一项针对基于逆变器的AVC的图多智能体强化学习(Graph Multi-Agent Reinforcement Learning, MAGRL)的研究工作[1]。该研究将电压控制问题表述为去中心化的部分可观测马尔可夫决策过程(Decentralized Partially Observable Markov Decision Process, Dec-POMDP),并将每个可控设备视为一个智能体。研究者基于此提出了一种多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)算法,以调节各智能体策略,将电压稳定在指定范围内,并减少网络损耗。为了更好地体现智能体之间的相互作用,该文引入了图卷积网络(Graph Convolutional Network, GCN)聚合相邻智能体的信息并提取复杂的潜在特征,从而促进电压控制策略的生成。此外,文章还设计了一种指数形电压障碍函数,以确保系统电压在安全操作范围内。让我们一起来看看吧!



原文链接:https://ieeexplore.ieee.org/abstract/document/10223729





















一、研究背景

近年来,可再生能源的利用率不断提高,但其广泛的应用也给配电网络带来了诸多挑战。随着光伏(Photovoltaics, PVs)等分布式发电(Distributed Generations, DGs)在ADN中的渗透率逐渐增加,不稳定的DGs造成的电压违规和高网络损耗问题日益突出,引起了广泛关注[2]。为了保障电网的稳定运行,AVC作为一种协调DG资源的方法被提出[3]然而,传统的集中式和分布式AVC方法依赖精确的配电网络模型,但在实际中获取和维护完整的网络模型十分困难。因此,面对日益复杂的电力系统,传统方法存在显著的局限性。

随着数据分析技术的发展,深度强化学习(Deep Reinforcement Learning, DRL)成为AVC的一种前景广阔的解决方案[4]。DRL能够在无模型环境下通过智能体与环境的交互持续学习,并展示出在序列决策问题上的强大能力,已广泛应用于游戏、机器人和交通控制等领域。然而,随着电网规模的扩大,DRL的状态和动作空间急剧增加,面临维度灾难问题。为解决这一问题,MARL提供了更灵活的分布式控制方式,使得多个智能体能够在大规模电力系统中协作[5][6][7]。同时,图神经网络(Graph Neural Network, GNN)作为一种适用于处理网络拓扑信息的工具,通过节点间相互作用能够帮助DRL更好地捕捉网络拓扑变化和节点特征中的空间关联[8]

尽管如此,由于探索过程中的不确定性,DRL方法难以保证系统稳定性。为此,有研究者引入电压障碍函数以确保电力系统安全[5][9]。然而,现有的障碍函数在大规模电网中的应用效果有限,对配电网络的实际安全性造成潜在风险。

针对上述挑战,这篇文章提出了一种结合GCN的多智能体强化学习算法,通过引入指数障碍函数和集中训练、分散执行的策略,有效应对了配电网络中的电压波动问题。实验结果表明,所提出的方法在IEEE 33和141节点系统中表现优异,具有良好的通用性和拓展性。文章的主要贡献如下:

  • 提出了一种改进的多智能体强化学习算法,用于解决由DG高渗透率引起的电压波动问题。将GCN添加到多智能体演员-评论家框架中,以同时捕获电力系统的节点和拓扑信息,为智能体决策提供更多信息。这是这篇文章的重要贡献之一,区别于现有的MARL方法。

  • 在MARL算法中应用电压障碍函数,以确保电力系统的安全运行。根据障碍函数的特性,开发了一种新颖的指数形电压障碍函数。与现有障碍函数相比,所提出的电压障碍函数可以更好地最小化电压偏差。

  • 借助GCN和电压障碍函数,所提算法能够有效提升当前MARL算法的性能。与其他传统优化方法相比,该方法能够快速决策,有效应对PV快速波动引起的剧烈电压波动。在IEEE 33和141节点系统上的模拟结果表明所提的MAGRL算法在不同图拓扑上表现出色,具有良好的通用性。













二、研究方法

这项研究首先将AVC问题表述为Dec-POMDP[10];然后,将电压障碍函数引入到奖励函数中,以提高MARL算法的安全性;最后,为增强潜在特征提取的能力,在MARL中加入了GCN。所提算法被称为图多智能体强化学习,其总体结构如图1所示。

图1:图多智能体强化学习框架

2.1

「在Dec-POMDP中的AVC问题表述」

考虑一个包含多个PVs的大型ADN,根据网络划分的结果,大规模电力网络被分为若干个区域,每个区域都有多个PVs向配电网络注入有功功率[5]。每个PV配备一个逆变器,可以产生或吸收无功功率,以将电压调节到参考值。由于这些调节可以以分布式方式进行,因此每个PV可以被视为一个智能体。同时,为了确保配电网络的区域协调,同一区域的智能体共享相同的观测。假设所有智能体协同工作以维护电力网络的安全运行,并将该问题表述为一个Dec-POMDP,表示为一个七元组(D, S, A, O, T, R, γ)。其中,D = {1,..., n} 表示包含 n 个智能体的集合,S 是状态空间;A = ×i∈DAi 是所有智能体的联合动作空间,包括智能体 i 的单独动作空间 Ai;O ×i∈DOi 是联合观测空间,包含智能体 i 的观测集合Oi;T 是转移概率,R 是每个智能体共享的奖励函数,γ 是折扣因子。

2.2

「电压障碍函数」

PV注入的有功功率会导致高电压波动,严重影响配电网络的正常运行。因此,为确保ADN的安全运行,引入电压障碍函数,将电压限制在安全范围内。在文献[5]中,提出了一种碗状的障碍函数,如图2(a)所示。当电压超出安全运行范围时,惩罚项会随电压偏差线性增加。然而,当电压偏差较大时,线性函数可能无法使电压回到安全范围内。

图2:电压障碍函数(a)碗形;(b)指数形

作者采用了一种指数型电压障碍函数作为惩罚项,在训练阶段调整电压。该指数型障碍函数表达式如下:

其中,α 和 β 是用于设置指数函数形状的两个参数,v̅ 和 v̲ 分别是电压安全运行的上限和下限。指数型障碍函数的基本形状如图3(b)所示。通过设置适当的参数,指数型障碍函数可以使电压强制回到安全运行范围。

2.3

「配电网络中的GCN」

在配电网络中,网络可以看作一个包含节点和拓扑结构信息的图。常用的神经网络如多层感知器(Multilayer Perceptron, MLP)和卷积神经网络(Convolutional Neural Network, CNN)无法直接处理这种图结构的数据,因为MLP仅使用节点信息而忽略了拓扑结构,而CNN只能有效处理欧几里得空间的数据,如图像或规则网格,但在非欧几里得空间(如电网)上表现不佳。GNN则可以同时利用节点和拓扑信息来提取数据特征,从而获得更丰富的隐含表示以提高模型表现。

GCN是GNN的一种,它通过卷积的方式聚合相邻节点的信息。在图中,每个节点具有其特征x,所有节点组合形成特征矩阵 X∈RN×P,其中 N 为智能体的数量,P 表示节点属性特征的数量。此外,GCN 采用邻接矩阵 A∈RN×N 来表示节点之间的邻接关系。

图3:电力配电网络的GCN

在ADN中,每个PV逆变器被视为一个节点,它们通过电力系统的拓扑结构连接在一起。如图3所示,每个节点依次根据以下公式聚合相邻节点的特征:

其中,Ã=A+IN 表示在邻接矩阵 A 上添加自连接项,IN 是单位矩阵,D 是 Ã 的度矩阵。此转换用于增强自身特征并对特征表示进行归一化。此外,WP×T 是从输入到输出的权重矩阵,T 表示输出单元的数量,σ(·) 表示用于非线性模型的Sigmoid函数。

2.4

「多智能体图强化学习」

在这项研究中,多智能体深度确定性策略梯度(Multi-agent Deep Deterministic Policy Gradient, MADDPG)算法被认为是配电环境中AVC的基础。MADDPG的基本思想是使用确定性策略 μi,根据智能体i的局部观测 oi 生成动作 ai,可以表示为 ai = μi(oiμ),其中 θμ 是演员网络的权重参数。当获取到所有智能体的动作后,这些智能体的观测和动作会发送到一个集中式评论家,该评论家可以表示为 Q(o, a1, a2,..., aNQ),其中 o 表示联合观测 {o1, o2,..., oN},θQ 是评论家网络的权重参数。然后,期望回报的梯度,即 J(θi) = E(R),可写为:

其中 ai = µ(oi) 是智能体 i 的动作,D 表示包含元组 (o, o', a1,..., aN, r) 的经验缓冲区。然后,集中式评论家网络更新为:

其中是具有延迟参数 θi 的目标策略集合。

为了获取配电网络的拓扑信息以辅助MARL决策,提出了 MAGRL 算法,将 GCN 引入 MADDPG,以改进其潜在表示。演员网络接收由 ADN 环境提供的局部观测 o = {o1,..., oN},并使用局部策略 μ = {μ1,..., μN} 选择动作 a = {a1,..., aN}。然后,不同于 MADDPG 算法,观测和动作被组合形成GCN的特征 x = {(o1, a1), ..., (oN, aN)},并发送到评论家网络。评论家网络接收这些特征以及 ADN 环境提供的拓扑信息,并使用 GCN 处理这些信息。

为了确保算法收敛,模型采用经验回放和目标网络进行训练。使用参数共享来减少计算复杂度并进一步加快收敛速度。即,每个智能体 i 包括演员网络 θiμ、评论家网络 θiQ 以及相应的目标网络 。每个智能体通过最大化未来的期望累计奖励 J(θiμ) = E[Q(s, a)] 来更新其演员参数 θiμ。相应地,通过最小化损失函数 L(θiQ) 来更新评论家参数,可写为:

其中

此外,为了实现平稳学习和快速收敛,在更新目标网络时,对每个智能体 i 采用了一种软更新策略,具体如下:

用于AVC的MAGRL算法的伪代码如算法1所示。

算法1:用于AVC的MAGRL算法框架













三、实验结果

这项工作在IEEE 33 节点网络和 IEEE 141 节点网络上进行了数值仿真实验,以验证所提出的 MAGRL 算法相对于一些流行的基准算法的有效性,包括 MARL 算法和基于优化的方法。作为基准,采用最先进的 MADDPG 算法作为 MARL 基线。对于基于优化的方法,采用 OPF[11] 和下垂控制(Droop Control, DC)[12]。为了比较不同算法的性能,提出了可控率(Controllable Ratio, CR)和功率损耗(Power Loss, PL)两个评估指标。

此外,配电网络的区域划分是根据末端节点与主干上的耦合点之间的最短路径来确定的。为了更接近现实,使用包含PV有功数据、负荷有功和无功数据的真实数据。共收集了三年的数据,数据采样频率为 3 分钟,以确保实际应用中的实时无功功率控制。最大电压偏差设定为 ±5%,这是配电网络的电压安全运行范围。 

3.1

「在33节点系统上的实验结果」

作者首先使用 33 节点系统验证所提出算法的有效性。

图4:IEEE 33节点系统的分区结果和拓扑结构


图 4 显示了 33 节点系统的分区结果及相应PV节点的网络拓扑,其中每个带有逆变器的PV节点被视为一个智能体。因此,33 节点系统包含 6 个智能体,这些智能体根据它们之间的相对距离形成拓扑结构。

图5:33节点案例中,MAGRL和MADDPG

在指数型和碗型电压障碍函数下的训练结果


图 5 展示了作者提出的 MAGRL 算法和其他 MARL 算法的训练结果,图中显示了所有算法的 CR 和 PL 。可以看出,MAGRL 算法在训练过程中显著提高了 CR。然而,使用 MAGRL 算法时 PL 也有所增加。这可能是因为当新能源波动的影响不大时,CR 和 PL 难以同时达到良好表现。

图6:在IEEE 33节点系统的典型场景中的测试结果


在训练结束后,选择了典型的夏季PV发电场景进行测试。因为夏季日照相对充足,容易引起较大的电压波动。为简洁起见,图 6 显示了在夏季典型节点电压的测试结果,覆盖了一天的时间(即连续 480 个时间步)。从图中可以看出,所有方法都在夏季将电压控制在安全范围内。在传统控制方法中,下垂控制具有最佳的电压控制性能,OPF 方法则实现了最小的功率损耗。此外,MARL 的性能介于二者之间,表明使用 MARL 可以有效平衡电压与网络损耗之间的关系。与其他 MARL 算法相比,MAGRL 算法的电压更稳定,且功率损耗差异不大,展示了 MAGRL 算法的优越性。

表1:33节点网络上的平均测试结果


为了更详细地比较不同算法的性能,选取了 10 个随机回合进行测试,结果的均值显示在表1中。从表中可以观察到,MAGRL 相较于其他 MARL 算法显著提高了电压的 CR,从而避免电压超限对设备造成损害。此外,为比较 MAGRL 与传统电压控制方法的性能,引入了 QL 和 VD 指标,其中 QL 是每个回合中每个时间步的平均无功功率生成量,VD 表示控制电压与标称电压(1p.u.)的偏差值。结果表明,MAGRL 算法可以获得较小的 VD 和 QL,表明它可以在较少的无功功率损耗下确保电压稳定性。

3.2

「在141节点系统上的实验结果」

作者利用 IEEE 141 节点系统进一步验证所提出算法的可扩展性。

图7:IEEE 141节点系统的分区结果和拓扑结构

141 节点系统的分区结果和拓扑结构如图 7 所示,包含 22 个智能体。

图8:141节点案例中,MAGRL和MADDPG

在指数型和碗型电压障碍函数下的训练结果

训练结果如图 8 所示,可以看出,使用碗形电压障碍函数的 MADDPG 算法在电压调节上不稳定,且性能较差。这表明,当注入更多的可再生能源时,线性增加的障碍函数无法很好地控制电压。相比之下,所提出的 MAGRL 算法具有稳定的电压控制能力,并且在初始时刻即可很好地控制电压,展示了 GCN 在处理配电网络潜在特征方面的优势。

图9:在IEEE 141节点系统的典型场景中的测试结果

训练后的模型用于在 141 节点网络中进行测试。测试结果如图 9 所示。可以看出,OPF 方法在调节电压时受可再生能源波动的影响较大。相应地,下垂控制可以将电压稳定在接近参考值的位置。与 MADDPG 算法相比,MAGRL 算法显著提升了电压调节能力,表明使用 GCN 是有效的。此外,MAGRL 算法的功率损耗也较小,在一定程度上反映了 MARL 对可再生能源波动的适应性。

表2:141节点网络上的平均测试结果

在表 2 中,选取了 10 个随机回合对 141 节点网络进行测试。从表中可以看出,MAGRL 算法几乎可以完全控制电压在指定范围内,显示出其在大规模电网中对电压波动的稳健性。相比之下,使用碗形电压障碍函数的 MADDPG 方法的电压可控率较低,这表明指数形电压障碍函数的有效性。同时,MAGRL 算法的网络损耗低于下垂控制,电压偏差小于 OPF。这表明 MAGRL 算法相较于传统电压控制算法可以实现相对性能的提升,即在网络损耗和电压稳定性之间取得平衡。

3.3

「在不同电网拓扑的泛化能力」

为了进一步验证MAGRL能够泛化到不同的电网拓扑,作者在训练过程中删除了ADN的部分节点和线路,不影响GCN的拓扑结构。训练完成后,在原始系统上进行了10次测试,测试平均结果如表3和表4所示。

表3:在随机删除边的情况下,33节点网络的平均测试结果

表4:在随机删除边的情况下,141节点网络的平均测试结果

在上述表格中,MAGRL-DEL表示在删除节点和线路后的系统中测试的结果,MAGRL-ORG表示在原始系统中的测试结果。可以看出,MAGRL算法在原始系统测试中性能略有下降,但在保持电压安全方面仍然优于其他两种方法,这是电压控制中最重要的任务。该结果验证了基于GCN的提出算法可以泛化到不同的电网拓扑。











四、总结

本研究提出了一种用于主动电压控制的图多智能体强化学习算法,以在波动的可再生能源系统下改善电压质量,而不依赖于精确的模型参数。考虑到现有的MARL算法无法有效处理配电网络的拓扑结构,作者引入了GCN到多智能体演员-评论家框架中,以增强其潜在表示能力。此外,作者还提出了一种指数电压障碍函数,用于稳定电压在安全范围内,以确保配电网络的安全运行。作者在修改后的IEEE 33节点和141节点的测试案例上进行了仿真研究,结果表明,所提出的MAGRL算法优于其他MARL算法以及传统的基于优化的方法。





参考文献

[1] Mu C, Liu Z, Yan J, et al. Graph multi-agent reinforcement learning for inverter-based active voltage control[J]. IEEE Transactions on Smart Grid, 2023.

[2] Antoniadou-Plytaria K E, Kouveliotis-Lysikatos I N, Georgilakis P S, et al. Distributed and decentralized voltage control of smart distribution networks: Models, methods, and future research[J]. IEEE Transactions on smart grid, 2017, 8(6): 2999-3008.

[3] Senjyu T, Miyazato Y, Yona A, et al. Optimal distribution voltage control and coordination with distributed generation[J]. IEEE Transactions on power delivery, 2008, 23(2): 1236-1242.

[4] Duan J, Shi D, Diao R, et al. Deep-reinforcement-learning-based autonomous voltage control for power grid operations[J]. IEEE Transactions on Power Systems, 2019, 35(1): 814-817.

[5] Wang J, Xu W, Gu Y, et al. Multi-agent reinforcement learning for active voltage control on power distribution networks[J]. Advances in Neural Information Processing Systems, 2021, 34: 3271-3284.

[6] Liu H, Wu W. Online multi-agent reinforcement learning for decentralized inverter-based volt-var control[J]. IEEE Transactions on Smart Grid, 2021, 12(4): 2980-2990.

[7] Cao D, Zhao J, Hu W, et al. Attention enabled multi-agent DRL for decentralized volt-VAR control of active distribution system using PV inverters and SVCs[J]. IEEE transactions on sustainable energy, 2021, 12(3): 1582-1592.

[8] Hossain R R, Huang Q, Huang R. Graph convolutional network-based topology embedded deep reinforcement learning for voltage stability control[J]. IEEE transactions on power systems, 2021, 36(5): 4848-4851.

[9] Vu T L, Mukherjee S, Yin T, et al. Safe reinforcement learning for emergency load shedding of power systems[C]//2021 IEEE Power & Energy Society General Meeting (PESGM). IEEE, 2021: 1-5.

[10] Oliehoek F A, Amato C. A concise introduction to decentralized POMDPs[M]. Cham, Switzerland: Springer International Publishing, 2016.

[11] Gan L, Li N, Topcu U, et al. Optimal power flow in tree networks[C]//52nd IEEE Conference on Decision and Control. IEEE, 2013: 2313-2318.

[12] Jahangiri P, Aliprantis D C. Distributed Volt/VAr control by PV inverters[J]. IEEE Transactions on power systems, 2013, 28(3): 3429-3439.



                                              


                                                        END 

                                                  



初稿|李小君

复审|颜学明

终审|金耀初



可信及通用人工智能实验室
金耀初实验室(可信及通用人工智能实验室)由欧洲科学院院士、IEEE Fellow,西湖大学人工智能讲席教授金耀初领导成立。实验室致力于应用驱动的可信人工智能研究,以及采用演化发育方法探索实现通用人工智能的新途径。
 最新文章