IEEE Trans|用于电力系统关键应用的强化学习技术:最新进展与未来挑战

文摘   2024-08-27 08:00   芬兰  

重要提示:推文由公众号编译,未经论文作者审核,可能存在技术或者翻译错误,仅供读者参考。原文地址:
https://ieeexplore.ieee.org/document/9721402

  文章亮点:


  • 1. 全面综述了强化学习在电力系统关键应用中的最新进展,重点关注了频率调节、电压控制和能量管理三个领域的建模方法和解决方案。


  • 2. 深入讨论了强化学习在实际应用中面临的关键挑战,如安全性、鲁棒性、可扩展性和数据问题,为相关领域的研究人员和从业者提供了重要参考。


2022年7月,IEEE Transactions on Smart Grid期刊发表了一篇题为"Reinforcement Learning for Selective Key Applications in Power Systems: Recent Advances and Future Challenges"。该文系统梳理了强化学习技术在电力系统频率调节、电压控制、能量管理等关键应用中的最新进展,重点分析了不同建模范式和解决方案的异同,并就强化学习在实际应用中面临的安全性、可扩展性等挑战进行了深入剖析,具有很强的前瞻性和针对性,对未来开展相关研究具有重要的借鉴价值。

  1. 引言

电力系统正经历着向可持续、分布式、动态、智能化和开放式转型的结构性变革。一方面,可再生能源与分布式能源的大规模接入,给系统运行带来了严峻挑战。大量可再生电源并网导致系统惯性下降、波动加剧,给频率控制带来困难。而随着电动汽车等新型负荷的兴起,配电网运行更加复杂多变,电压控制面临新问题。能源系统多能互补趋势日益明显,综合能源管理亟需创新方法。

另一方面,随着信息、通信与计算技术在电力系统的广泛部署,如相量测量装置(PMU)、先进量测设施(AMI)和广域监测系统(WAMS)等,海量数据开始在电力系统中积累。电网正朝着智能电网方向演进,为实现实时的数据驱动监测控制提供了前所未有的机遇。传统电网"信息孤岛"的局限性,推动了人们寻求全新的智能调控范式,去充分挖掘数据价值,实现电网的自学习、自适应与自优化。

强化学习(Reinforcement Learning, RL)作为一种重要的机器学习范式,通过智能体与环境的持续交互,学习最优的序贯决策以长期收益最大化。其trial-and-error的学习模式,与人类和动物如何学习做决策的过程不谋而合,因而在认知科学、神经科学、控制论等领域有广泛应用。借助人工神经网络(Artificial Neural Network, ANN)实现函数逼近,深度强化学习(Deep RL, DRL)进一步突破了传统RL的限制,使之得以解决大规模、高维度的工程难题。其model-free、data-driven、self-adaptive的特点,为破解电力系统日益复杂的调控之困提供了新思路。

本文旨在全面梳理RL/DRL技术在电力系统中的应用现状,重点选取频率控制(Frequency Regulation, FR)、电压控制(Voltage Control, VC)和能量管理(Energy Management, EM)三个关键任务,从RL视角探讨建模、优化与决策的核心问题。同时,文章剖析了RL方法在电力系统实际落地中的诸多挑战,包括安全性、鲁棒性、可扩展性,以及数据质量等,并就相关问题的处理对策及研究进展进行了探讨。最后,本文对未来的重点研究方向进行了展望。

  1. 强化学习基本原理

2.1 马尔可夫决策过程
RL问题可数学建模为马尔可夫决策过程(Markov Decision Process, MDP),元素包括状态空间S、动作空间A、状态转移概率P、奖赏函数R。状态空间与动作空间分别定义了问题的决策信息和可选动作集合。状态转移概率P(s'|s,a)刻画了在状态s下采取动作a后进入状态s'的概率。奖赏函数r(s,a)给出了状态-动作对(s,a)的即时反馈。

在MDP框架下,RL的目标可形式化表示为寻找最优策略,使得期望累积折扣奖赏达到最大。其中折扣因子γ∈(0,1)用于权衡即时奖赏与长期奖赏。最优策略即为顺序决策的最优解,在每个状态下选择长期回报最大的动作。

2.2 值函数与贝尔曼方程  
值函数是RL的核心概念。状态值函数表示从某状态出发遵循某策略的期望累积奖赏。类似地,动作值函数(Q函数)表示在某状态下采取某动作、后续遵循某策略的期望收益。最优值函数遵循贝尔曼最优方程。

RL的核心问题即是如何基于MDP交互经验去学习最优值函数,进而得到最优策略。当环境模型(状态转移概率和奖赏函数)已知时,可用动态规划直接求解;当模型未知时,则需从数据中学习,这正是RL的主要研究内容。图1直观展示了MDP、值函数、最优策略之间的关系。

2.3 经典强化学习算法
经典RL算法主要分为基于值函数和基于策略梯度两大类,特点对比如表1所示。

值函数型的代表算法是Q-learning,它通过时序差分迭代更新,基于交互样本轨迹逼近最优动作值函数,可证明在一定条件下收敛。进一步,贪婪地选择使Q值最大的动作,即可得到最优策略。

相比之下,策略梯度法直接对参数化策略函数进行优化,常用随机梯度上升等方法。策略梯度定理给出了性能目标关于策略参数的解析梯度表达式,便于复杂策略的优化求解。Actor-Critic算法同时结合了值函数逼近(Critic)与策略梯度(Actor),在实践中广泛应用。

2.4 深度强化学习
传统RL在状态、动作空间维度很高时往往难以奏效。一方面,Q表的存储与更新不现实;另一方面,复杂策略函数也难以准确刻画。深度学习为破解这两大难题提供了新思路。

借助深度神经网络,DRL用Q网络去逼近Q函数,用策略网络直接参数化策略函数。DQN算法即为Q-learning与深度学习的经典结合。为提升训练稳定性,DQN引入了经验回放和目标网络两大机制。在此基础上,DDPG将DQN拓展至连续动作空间。其他一些经典DRL变种还包括SAC、PPO等。

图2展示了DRL在多个测试环境中的卓越表现,体现了其处理高维复杂任务的能力。电力系统问题恰好具备高维、强耦合、非线性、不确定等特点,DRL方法正好能够克服传统控制和优化手段的局限,在智能电网领域大有可为。

  1. 频率控制的强化学习方法

频率控制(Frequency Regulation, FR)旨在实时平衡电网发电与用电,将系统频率维持在标称值(如50Hz)附近。传统FR采用三级控制体系:一次调频在数秒时间尺度内迅速抑制频率偏差;二次调频即自动发电控制(AGC),在数分钟内消除频率与联络线潮流偏差;三次调频对应更长时间尺度的经济调度。随着可再生能源渗透率提升,其间歇性和波动性给FR带来新的挑战。model-free的RL方法可在频率响应模型未知情况下,直接学习数据驱动的最优控制策略。

3.1 RL问题建模
FR需求下的电网频率动力学可建模为微分方程,反映了频率、功角、功率流之间的耦合。发电机组的调速系统可进一步抽象为含死区、饱和等非线性环节的动态模型。RL框架下,系统状态可定义为频率、功角等变量,机组调节指令自然对应为动作。观测信号可灵活选取,如ACE、功率波动等。奖赏函数多围绕控制性能定义,如频率均方差、ACE指标等。图3直观展示了RL解决FR问题的基本框架。

表2总结了用RL方法解决FR的代表性文献。早期多采用Q-learning、SARSA等单步更新算法,结合RBF等浅层结构逼近值函数。近年来DRL在该领域崭露头角,其中DDPG与Multi-agent RL的结合备受青睐。文献[58]利用Mean Field DDPG实现了多区域AGC的分布式协同控制。针对新能源下的FR需求,文献[59]提出一种Off-policy Correction机制提升了策略学习效率。知识迁移、模型压缩等技术也在FR任务中得到应用。

3.2 仿真结果
图4展示了某4区域互联电网FR仿真效果对比。可见,multi-agent DDPG在多种工况下取得了优于传统PI控制器的频率性能,频率波动均方差降幅超过50%(图5)。这表明,即便在环境模型缺失的情形下,DRL方法仍能学到优质的控制策略。当然,这是以高保真仿真平台作为训练基础而取得的成果。

3.3 讨论

基于RL的FR方法虽已取得可喜进展,但距离在实际电网的应用还存在不小差距。首要问题是控制策略的安全性和稳定性。现有工作多通过约束Actor网络参数,引入虚拟阻尼等手段对频率响应进行柔性优化。但理论性能分析还很缺乏,大多依赖仿真统计。可融合Lyapunov理论等做进一步的探索。

数据是DRL的核心驱动力。然而对运行中电网做随机探索通常不可接受。离线RL利用历史数据、仿真样本来学习策略不失为一种思路。数据增强、迁移学习等方法也可提高数据利用率。高保真仿真平台的搭建同样至关重要。此外,真实电网运行工况复杂多变,对策略的泛化能力、鲁棒性要求很高。多任务学习、元学习等方法也许能够提供新的解决思路。

4.电压控制的强化学习方法

4.1 RL问题建模
电压控制(Voltage Control, VC)旨在将电网各节点电压幅值维持在合理区间内。随着分布式电源渗透率提升,配电网面临供电能力与负荷需求错配加剧、潮流易逆转等新问题。灵活快速的电压/无功优化控制方法应运而生。

控制设备主要包括变压器分接头、电容器组、静止无功补偿器(SVC)、分布式发电机组(DG)。前两类为离散可控设备,调节时间尺度在分钟到小时级;后两类属于连续可控设备,可实现秒级快速调节。

RL框架下,系统状态可统一定义为节点电压幅值、线路潮流以及各类控制设备参数。相应地,动作可定义为设备投切指令或参考值。奖赏函数一般基于全网电压合格率、控制成本等指标设计,具体形式多样。环境建模则相对困难,配电网潮流模型通常只能近似或数值模拟。model-free RL的优势由此凸显。

表2梳理了用RL方法解决VC任务的代表性工作。基于值函数逼近(如RBF、ANN)的经典方法已有广泛尝试。近年DRL的引入为该领域注入新活力。文献[91]在DDPG等算法基础上,尝试解决离散-连续混合控制问题。此外,VC任务的在线探索成本很高,如何充分利用历史运行数据也是一大挑战。文献[90]提出一种虚拟样本生成策略,利用安全运行策略下的历史轨迹,去逼近另一个策略的值函数,可谓殊途同归。

  1. 能量管理的强化学习方法

5.1 问题建模与算法设计
能量管理涵盖了电、热、气等多种能源形式的协同优化调度,涉及发、输、配、用各个环节,时间尺度跨度大。按管理对象可分为综合能源系统、电网级、园区级、用户级等不同层次。RL在建模分析、策略优化等方面具有独特优势。

以需求侧资源优化调度为例。负荷、电动汽车(EV)、储能等的调度,本质上是一个时序决策问题,可用MDP刻画。状态可定义为设备工作参数(如储能荷电状态、EV接入状态等)及电价等环境变量。动作对应各设备的功率调度指令。奖赏一般考虑用电成本、用户舒适度等。由于环境模型复杂难获取,model-free RL方法在该领域有广泛应用。

楼宇暖通空调(HVAC)系统的能效优化也是一大应用场景。系统状态包括室内外温湿度、设备工况等。控制变量有送风温度、风量、制冷制热功率等。目标在于在满足舒适度约束下最小化能耗。

5.2 讨论
综合能源系统的多时间尺度、异质设备协同,对RL算法提出了更高要求。如何高效处理连续/离散混合决策变量,平衡短期运行与长期规划,将知识(如物理模型)融入学习过程,都是亟待解决的问题。多步Bootstrap、分层分解、神经符号推理等方法值得关注。

  1. 关键挑战与对策

6.1 安全性
电力系统对控制策略的安全性有极高要求。不成熟的策略在训练阶段就可能造成严重违约,甚至引发系统崩溃。因此探索过程本身需要一定保障措施。如引入安全约束,当状态逼近不安全区域时采取保守动作。定义置信区间,在策略不确定时选择已知安全动作。此外还可通过逐步增大探索强度,设置人工监督等提升训练安全性。

此外,学习到的终端策略也需进行安全性验证。纳入物理约束,用数学工具证明其可行性。基于蒙特卡洛仿真的统计验证也不可或缺。对抗训练、鲁棒优化等方法有助于提升策略抗干扰能力。

6.2 可扩展性
电网的高维特性给RL的可扩展性带来挑战。解决思路一是将原问题进行层次化分解,每层针对不同时空尺度设计相应的RL模块。二是进行区域划分,各区域Agent负责本区域的优化决策,再通过一定的协作机制实现全局最优。多Agent RL的研究进展为该思路提供了理论基础。

6.3数据质量
DRL需要大量在线探索来学习优质策略,而随机探索在电网实际运行中通常不可接受。因此高保真仿真平台的构建至关重要。此外,离线RL利用历史运行数据开展训练,不失为另一种思路。如何在保证一定探索性的同时最大化利用先验样本,是一个有价值的研究课题。

6.4 其他方向
(1)可解释性。神经网络模型的"黑箱"特性,难以解释其内在决策逻辑。与因果推断、知识图谱等技术的结合,有助于开发更可解释的模型。
(2)泛化能力。电网运行工况复杂,对策略的泛化能力要求很高。迁移学习等方法可缩小源任务与目标任务间的分布差异,提升模型适应性。
(3)领域知识融合。RL虽为model-free,但并非对先验知识一无所用。将电力物理机理、操作规程等领域知识用于RL模型设计、训练算法改进,对于开发更高效、可靠的策略至关重要。

7.总结与展望

RL为电力系统智能化升级提供了新思路和新动力。挖掘其在电网环境下的独特优势,创新算法设计,融合领域知识,对其工程应用至关重要。如何进一步增强决策的可靠性、适应性与安全性,平衡开放性与保守性,是将RL推向规模应用的必由之路。

添加微信

投稿分享 

论文解读 or 学术报告 



关注电力学人
设为“星标⭐️”
更容易看到我的推送

综合能源新视界
🌍功能:探讨综合能源系统低碳经济运行,更新能源资讯。➕关注公众号有惊喜!🙎‍♂️主体:不单独属于任何一人,全部读者共创,欢迎投稿,打造平民公众号。 ☎️联系/合作:小编vx Fightingforall23
 最新文章