华中科技大学 薛松萍等|基于业务差异化传输需求下的电力通信网路由算法

文摘   2024-12-18 10:01   北京  




来源:《中国电力》2024年第11期

引文:薛松萍, 高德荃, 赵子岩, 等. 基于业务差异化传输需求下的电力通信网路由算法[J]. 中国电力, 2024, 57(11): 183-190.











编者按





电力通信网是电力系统中第2张实体网络,其稳定运行能力将直接影响电网的安全稳定运行。通信网承载着以生产控制类业务为主的具有明显行业特色的电力业务,路由方案采用先来先服务的公平性资源分配方式提供尽力而为的服务,对业务类型及网络特点考虑不足。因此,在以业务为核心的智能电网通信网中,根据业务性能指标需求,探索高效端到端路由算法是实现业务可靠传输的关键。

《中国电力》2024年第11期刊发了薛松萍等撰写的《基于业务差异化传输需求下的电力通信网路由算法》一文。文章提出了一种基于业务差异化传输需求的电力通信网路由算法。首先,利用Networkx工具进行环境搭建,设计3类业务以及相对应的传输标准。然后,基于消息传递神经网络(message passing neural network,MPNN)和深度Q学习(deep Q-learning,DQL)设计路由算法,并以成功分配的业务带宽作为得分,在福建省骨干网拓扑图中完成模型训练。最后,在不同的拓扑图和链路故障场景下进行算法性能分析,证明了该算法具有良好的泛化性和鲁棒性。




摘要



电力通信网负责传递控制指令、收集状态数据,对保障电网的稳定运作至关重要。针对电力通信网络中多约束条件下的智能路由问题,提出了一种结合消息传递神经网络(message passing neural network,MPNN)与深度强化学习算法的智能路由算法。通过Tensor flow框架实现,在Open AI Gym构建的模拟环境进行验证。算法在超过8000次的训练迭代后呈现出显著的性能提升,表现出了较传统最短路径和负载均衡算法更优越的路由选择能力。同时,在新拓扑图的泛化测试和链路故障模拟实验中,也显示出较强的适应性和鲁棒性。


01


电力通信网建模




1.1  网络拓扑图

在训练过程中,将福建省500 kV骨干网作为研究对象,如图1所示,MPNN+DQL算法将会在这张拓扑图中进行训练。


图1  福建省500 kV骨干网拓扑
Fig.1  Topology of 500 kV backbone network in Fujian Province

1.2  业务大小

考虑3种业务需求类型(ODU 2、ODU 3和ODU 4),对应电力通信网中不同类型的生产控制业务,其带宽以ODU 0带宽倍数表示(分别为8、32和64个ODU 0带宽单位),奖励值如表1所示。


表1  3类业务的归一化奖励
Table 1  Normalized reward for the three services


业务带宽和在训练过程中给予智能体的奖励呈正相关。每当来了1个流量需求(包括源目的节点对、传输业务所占的带宽),DQL算法根据流量需求选择1条合适的路径,如选择的路径满足约束条件,则根据业务大小给智能体1个归一化的奖励,即业务大小与64的比值。
1.3  节点、链路可靠性
根据2021年福建省实际运行情况,30%的节点设备运行年限超过10年,将这些设备的可靠性设置为0.975,其他设备的可靠性设置为0.990。20%的光缆运行时间较长,由于光缆易受到自然灾害的影响,这里将40%的链路可靠性设置为0.975,其他设置为0.990。

在1个流量需求到来之后,DQL算法会选择1条路径,并确定路径上面的节点和链路可靠性的乘积。在图2业务传输示例中,当1个业务从A到G,其可靠性为


图2  业务传输示例
Fig.2  Example of service transmission

式中:Rpath为可靠性;Ri(i=A, B, D, G)为节点i的可靠性;RABRBDRDG分别为链路AB、BD、DG的可靠性。

对于3种业务,可靠性标准如表2所示。


表2  不同业务的可靠性要求
Table 2  Reliability requirements for different services


1.4  节点、链路传输能力
根据福建省的运行情况,节点设备的传输能力比链路的传输能力要强得多,因此将节点设备的传输能力设置的远高于链路。
40%的节点设备运行年限较久,传输能力较弱,将这些设备设置为1500M,其余设备设置为2000M。
对于光缆,按照1.3节分析,将40%的光缆传输能力设置为200 M,其余光缆设置为400 M。
1.5  光缆长度
本文将光缆的长度作为其传输代价,长度越长,代价越高。这部分根据实际情况设置,60%的光缆长度均匀分布在(10,100)km区间,另外40%均匀分布在(100,300)km区间。

对于3种业务,传输距离限制如表3所示。


表3  不同业务的传输距离限制
Table 3  Transmission distance limitations for different services


1.6  链路故障场景模拟
现实的网络拓扑随着时间的推移而变化(如链路故障等),且不可预测,网络优化目标有着重大影响。

为提高DQL算法在链路故障情况下的选择路径能力,在训练过程中加入了链路故障场景,如图3所示。具体地,在每个回合开始前,都会以10%的概率选择拓扑图中的2条链路,使其传输能力为0;以40%的概率选择拓扑图中的1条链路,使其传输能力为0。这里分别在无故障、1条链路故障、2条链路故障的场景下进行模拟,并与最短路径算法和负载均衡算法进行对比。


图3  智能体与电力通信网交互
Fig.3  Agent interacting with the power communication network

1.7  N–1保护
在电力通信网中,N–1保护机制通常涉及使用冗余的通信传输线路和设备、备用的电力供应系统。当主要通信线路或设备出现故障时,系统会立即切换到备用线路或设备,确保通信的连续性。同样地,当主要电力供应系统出现问题时,备用电力系统会立即接管,确保对关键设备的供电不会中断。

在图3中,有1个业务需要从节点A传输到节点G。智能体首先找到A-G路径中Q值最高的A-E-G路径,但由于链路带宽不足,无法传输。此时,智能体就会选择Q值第2高的A-B-D-G路径进行传输。



02


消息传递神经网络+深度强化学习算法




在构建的场景中,深度强化学习算法接收网络状态(包括当前节点、链路的属性以及流量需求),然后在约束条件下找到1条最优路径。学习过程将由以最大化网络中分配的长期业务量为目标函数进行训练。
2.1  消息传递神经网络

MPNN是图神经网络的一种变形,它可以通过不断传递消息(message)来更新节点的表示(representation),从而实现对图数据的学习和推理。MPNN通常包括了消息传递层(message passing layer)、更新层(update layer)和读出层(readout layer)等组件,使得神经网络能够在图数据上进行有效学习和表示。本文构建的MPNN架构如图4所示,伪代码如图5所示。


图4  消息传递神经网络的架构
Fig.4  Architecture of message passing neural network

图5  算法1 消息传递神经网络
Fig.5  Algorithm 1 message passing neural network

2.2  深度强化学习算法

深度强化学习算法的工作流程如图6所示。


图6  深度强化学习算法的工作流程
Fig.6  Workflow of deep reinforcement learning algorithm

1)训练过程中使用经验回放机制,在线处理得到的转移样本。对于每个时间步长t,将智能体与环境交互得到的转移样本存储到回放记忆单元中。训练时,每次从回放记忆单元中随机抽取小批量的转移样本,并使用随机梯度下降算法更新网络参数。

2)DQL 除使用深度卷积网络近似表示当前的值函数外,还单独使用另一个网络来产生目标Q值。具体地,Q(S,A|θ)为当前值网络的输出,用来评估当前状态动作对的值函数;Q(S,A|θ)为目标值网络的输出,一般采用目标Q值作为优化目标。当前值网络的参数实时更新,每隔一段时间,将当前值网络的参数复制给目标值网络,通过最小化当前Q值和目标Q值之间的均方误差来更新网络参数。误差函数为

式中:L为损失函数;E(S,A,R,S)为数学期望值;Yi为目标Q值;(S,A)为状态-动作对;θi为当前网络策略。
对参数θ求偏导,得到梯度为
式中:为损失函数关于θ的梯度;为当前Q值关于θ的梯度。

引入目标值网络后,在一段时间内目标Q值保持不变,从一定程度上降低了当前Q值和目标Q值之间的相关性,提升了算法的稳定性。这里采用贪婪探索策略来选择动作。



03


仿真结果与分析




采用Tensor flow实现第2章中描述的DQL + MPNN解决方案,并在使用Open AI Gym框架实现的电力通信网模拟器中对其进行评估。

DQL算法的超参数如表4所示,伪代码如图7所示。


表4  训练时的超参数表
Table 4   Table of  hyperparameters during training


图7  算法2 深度强化学习算法
Fig.7  Algorithm 2 Deep Reinforcement Learning Algorithm

3.1  训练结果
训练过程中Loss曲线如图8所示。这里的Loss是由当前状态和下一状态的差值计算得到。可以看出,随着训练的不断进行,Loss快速下降,从1000下降到了10,而后一直保持在10以内不断波动。


图8  Loss曲线
Fig.8  Loss curve

在训练过程中,每隔20个迭代会对模型进行1次评估。1次评估包括40个回合,并将每次评估得分情况做1次平均并记录,得分曲线如图9所示。


图9  得分曲线
Fig.9  Score curve

模型训练完成后,将它与最短路径算法、负载均衡算法进行对比。最短路径算法是统计源目节点所有的可能路径,并选择节点数最少的一条路径。负载均衡算法是从所有路径中随机选择一条路径。共进行50个迭代,每个迭代包括100个回合,将迭代的得分情况做1次平均,结果如图10所示。


图10  初始环境下的算法评估
Fig.10  Algorithm evaluation in the initial environment

3.2  泛化性验证

为验证该模型的泛化性,将模型部署在其他拓扑图中进行评估。采用公开数据集Nsfnet拓扑,如图11所示。3种算法在Nsfnet下的得分情况如图12所示。可以看出,本文算法远比另外2种算法高。


图11  Nsfnet拓扑
Fig.11  Nsfnet topology

图12  Nsfnet下的算法评估
Fig.12  Algorithms evaluation under Nsfnet

除Nsfnet外,利用Networkx随机生成1张拓扑图,主要特征为1张巨大的环形网,如图13所示。随机拓扑图的环境状态和训练环境一致。3种算法的得分情况如图14所示。


图13  随机拓扑
Fig.13  Random topology

图14  随机拓扑下的算法评估
Fig.14  Algorithm evaluation under random topology

3.3  故障模拟

在无故障条件下进行评估,结果如图15所示。


图15  无故障下的算法评估
Fig.15  Algorithm evaluation without failures

当1条链路故障(这里选择的是1-2这条链路,使其传输能力为0)时,得分情况如图16所示。


图16  1条链路故障下的算法评估
Fig.16  Algorithm evaluation under one link failure

当2条链路故障(这里选择的是1-2和2-3这2条链路,使其传输能力为0)时,得分情况如图17所示。


图17  2条链路故障下的算法评估
Fig.17  Algorithm evaluation under two link failures

可以看出,随着故障链路数的不断增加,3种算法的得分不断降低,但本文算法的得分情况依然比另外2种算法高。



04


结语




本文针对电力通信网业务差异化传输需求,提出了一种基于深度强化学习和消息传递神经网络的智能路由算法。该算法能够结合不同业务的差异化传输需求,在多种约束条件下完成最优路径的选择,得分情况比最短路径算法和负载均衡算法有所提高,且在面对链路故障以及未知拓扑的情况下,仍能展现出比另外2种算法更为优异的性能。


注:本文内容呈现略有调整,如需要请查看原文。




 往期回顾 


◀ 《中国电力》2024年第11期抢先看
◀ 上海电力大学 王海燕等|基于NGO-VMD的混合储能功率分配策略
◀ 国网浙江省电力有限公司 张江丰等|光伏电站自备用可调的虚拟同步控制调频策略
◀ 西安交通大学 贺馨仪等|标准数字化应用框架设计及其设备侧领域实践
◀ 国网宁夏电力有限公司 齐屹等|新能源入市风险下计及影响层的现货限价自适模型
◀ “交直流配电系统灵活资源规划运行及动态控制”专题征稿启事
◀ “提升新能源和新型并网主体涉网安全能力关键技术”专题征稿启事
◀ “电-碳协同下分布式能源系统运营关键技术”专题征稿启事
◀ “氢能交通与电力系统耦合下的规划、运行和交易关键技术”专题征稿启事

编辑:邵美琦
校对:于静茹
审核:张红宪
声明
根据国家版权局最新规定,纸媒、网站、微博、微信公众号转载、摘编《中国电力》编辑部的作品,转载时要包含本微信号名称、二维码等关键信息,在文首注明《中国电力》原创。个人请按本微信原文转发、分享。欢迎大家转载分享。

中国电力
国网能源研究院有限公司是国家电网有限公司高端智库建设的主体单位,本公众号致力于分享智库观点、学术报告、精彩论文等。欢迎联系投稿及转载:010-66603794;shaomeiqi@sgeri.sgcc.com.cn。
 最新文章