【Applied Energy最新原创论文】三阶段集成虚拟电厂分散调度:一种模型辅助多智能体强化学习方法

学术   2024-09-21 18:30   美国  

原文信息

Integrated three-stage decentralized scheduling for virtual power plants: A model-assisted multi-agent reinforcement learning method

原文链接:

https://www.sciencedirect.com/science/article/pii/S0306261924013680

Highlights

(1) “联合投标”、“协同调度”与“实时功率分解”三阶段集成的虚拟电厂调度框架

(2) 不依赖精确聚合建模与不确定性表示的数据驱动分散式决策算法 

(3) 基于模型辅助的安全投标决策方法以加速智能体训练收敛速度

(4) 在测试算例中所提算法表现出超越模型依赖算法和纯数据驱动算法的性能

Research gap

虚拟电厂内需求侧资源聚合建模受模型表示精度和高维不确定性影响,在缺乏精确聚合模型且不确定性表示不可靠的情况下,现有模型依赖的优化算法难以保障虚拟电厂运行经济性和投标交付可靠性。

摘要

      虚拟电厂作为一种有前景的集成与聚合技术,促进了大量灵活需求侧资源的利用。然而,在需求侧资源聚合过程中,难以忽视的建模误差和高维不确定性威胁着虚拟电厂的投标交付可靠性和运行经济性。为解决这一问题,本研究提出了一个三阶段集成的虚拟电厂调度框架,并开发了一种模型辅助的多智能体强化学习方法。在所提出的框架中,虚拟电厂调度问题被表述为一个去中心化局部可观的马尔可夫决策过程,该过程描述了日内市场联合投标、多聚合商协同调度和实时功率分解三个阶段之间的复杂交互过程。利用一个综合奖励函数对该交互过程中的决策质量进行评估,该函数结合了市场交易成本、运行成本以及不平衡惩罚。为实现去中心化决策,提出了一种模型辅助的多智能体近端策略优化算法,该算法为每个聚合商训练一个独立的行动者网络用于输出最优决策。此外,所提算法还结合了模型辅助的安全投标决策方法,以加速智能体训练过程。数值仿真结果验证了所提出方法与纯数据驱动的多智能体强化学习方法相比,为虚拟电厂取得了更高的成本效益、更高的交付可靠性以及更快的训练收敛速度。

Abstract

Virtual power plant (VPP) emerges as a promising integration and aggregation technology that facilitates the utilization of massive flexible demand-side resources (DSRs). However, non-negligible modeling errors and high-dimensional uncertainties involved in DSR aggregation threaten the delivery reliability and cost-effectiveness of VPP operation. To address this problem, this study proposes an integrated three-stage scheduling framework for VPPs and develops a model-assisted multi-agent reinforcement learning (MARL) approach. In the proposed framework, the VPP scheduling problem is formulated as a decentralized partially observable Markov Decision Process (Dec-POMDP), which depicts the complex interaction process among the three stages (bidding, re-dispatching and disaggregation). The interactions are evaluated by a comprehensive reward function, incorporating the trading and operation costs, as well as imbalance penalties. To enable decentralized decision-making, a model-assisted multi-agent proximal policy optimization (MA2PPO) algorithm is proposed, which trains a separate actor network for each aggregator. Additionally, the MA2PPO is augmented with a model-assisted safety decision-making method to accelerate the training process. Numerical simulation results verify that the proposed method enhances the delivery reliability and cost-effectiveness of the VPP, while achieving faster convergence time compared with purely model-free MARL methods. 

Keywords

Integrated three-stage decentralized scheduling

Demand-side resource

Intraday market

Multi-agent deep reinforcement learning

Virtual power plant

Graphics

图1 图形摘要

图2 模型辅助的多智能体近端策略优化算法示意图

图3 不同强化学习算法训练曲线对比图

图4 投标决策安全性对比,(a)基于模型优化得到的投标决策轨迹,(b)基于所提算法得到投标决策轨迹

作者简介

团队介绍:

本研究在国家重点研发计划“规模化灵活资源虚拟电厂聚合互动调控关键技术”(2021YFB2401200)资助下,由天津大学、国网上海市电力公司、上海交通大学和英国利物浦大学的研究人员共同完成。

作者简介:

通讯作者赵博超,天津大学副教授,硕士生导师。主要从事人工智能配用电数据分析、图信号处理应用、虚拟电厂交易机制和分布式资源优化调度等方面研究。主持国家自然科学基金、国家重点研发计划子课题、天津市自然科学基金及企业委托科研项目等10余项,曾参与玛丽居里学者项目、英国工程自然科学基金和欧盟地平线2020项目等。发表论文40余篇,担任《计算机工程》和《供用电》青年编委,参编多项国际标准。

第一作者许彪,天津大学博士研究生,英国利物浦大学联合培养博士研究生。在Applied Energy、电力系统自动化、电网技术和IEEE PESGM等期刊或会议发表一作/学生一作论文7篇,曾荣获CICED最佳会议论文奖,并担任Applied Energy和Electric Power Systems Research期刊审稿人。

栾文鹏,天津大学教授,博士生导师,国家领军人才,IEEE高级会员。长期从事智能电网、大数据分析、分布式能源集成和负荷监测等方面工作和研究。主持多项国家自然科学基金联合基金等纵向课题,发表论文140余篇,授权专利60余项,获天津市技术发明一等奖等。担任IEC SC8B创会秘书长,IEEE P2030.9 WG主席,IEEE P2815 WG副主席。主导多项国内外标准,牵头行标《非介入式用电负荷监测装置技术规范》获国家能源局批准发布。因在分布式能源整合领域标准制定上的领导和贡献,获2020 IEEE SA标准奖章。

关于Applied Energy

本期小编:任郡枝;审核人:赵博超

《Applied Energy》是世界能源领域著名学术期刊,在全球出版巨头爱思唯尔 (Elsevier) 旗下,1975年创刊,影响因子10.1,CiteScore 21.2,本刊旨在为清洁能源转换技术、能源过程和系统优化、能源效率、智慧能源、环境污染物及温室气体减排、能源与其他学科交叉融合、以及能源可持续发展等领域提供交流分享和合作的平台。开源(Open Access)姊妹新刊《Advances in Applied Energy》影响因子13.0,CiteScore 23.9。全部论文可以免费下载。在《Applied Energy》的成功经验基础上,致力于发表应用能源领域顶尖科研成果,并为广大科研人员提供一个快速权威的学术交流和发表平台,欢迎关注!

公众号团队小编招募长期开放,欢迎发送自我简介(含教育背景、研究方向等内容)至wechat@applied-energy.org

点击“阅读原文”

喜欢我们的内容?

点个“赞”或者“再看”支持下吧!

阅读原文

AEii国际应用能源
发布应用能源领域资讯,介绍国际应用能源创新研究院工作,推广应用能源优秀项目,增进应用能源领域合作
 最新文章