天津职业技术师范大学 陈庆斌等|基于相似日选取和数据重构的短期光伏功率组合预测方法

文摘   2024-12-30 13:11   北京  




来源:《中国电力》2024年第12期

引文:陈庆斌, 杨耿煌, 耿丽清, 等. 基于相似日选取和数据重构的短期光伏功率组合预测方法[J]. 中国电力, 2024, 57(12): 71-81.











编者按





光伏发电的随机性、波动性会使电网的供需平衡不稳定,提高调控的难度,准确的光伏发电功率预测可为电网调度提供可靠的技术参考,提高电力系统的安全性和稳定性。

《中国电力》2024年第12期刊发了陈庆斌等撰写的《基于相似日选取和数据重构的短期光伏功率组合预测方法》一文。文章提出一种基于相似日选取和数据重构的短期光伏功率组合预测方法。该方法在通过核模糊C均值(kernel fuzzy C-means,KFCM)算法进行聚类分析和最大信息系数(maximum information coefficient,MIC)特征筛选的基础上,通过合作博弈思想计算预测日和历史日的综合相关系数,挑选相似日构建训练集。而后使用VMD将光伏功率分解为若干IMF,分别计算排列熵值并重构为趋势项、低频项和高频项,对趋势项和低频项采用LSTM神经网络模型进行预测,对高频项采用卷积神经网络-双向长短期记忆神经网络-注意力机制(convolutional neural network-bidirectional long short term memory-attention,CNN-BiLSTM-ATTENTION)模型进行预测,将三者预测结果线性叠加得到最终预测结果。





摘要



针对光伏功率随机性较强等问题,提出了一种基于相似日选取和数据重构的短期光伏功率组合预测方法。首先,利用核模糊C均值算法对光伏功率进行聚类分析,通过最大信息系数提取主要影响特征;其次,结合合作博弈思想计算预测日和历史日的综合相关系数,挑选相关性较强的历史日构建训练集;然后,利用变分模态分解将光伏功率分解为若干子序列,计算排列熵值并重构为趋势项、低频项和高频项;最后,对趋势项和低频项采用长短期记忆神经网络进行预测,对高频项采用卷积神经网络-双向长短期记忆神经网络-注意力机制模型进行预测,将结果叠加得到最终预测结果。经实例验证,在不同天气条件下,所提模型整体预测误差最小,可有效提高预测精度。


01


研究框架




本文旨在充分挖掘光伏功率内部规律,提出了一种基于相似日选取和数据重构的短期光伏功率组合预测方法,研究框架如图1所示,具体步骤如下。


图1  光伏功率组合预测方法
Fig.1  Photovoltaic power combination prediction method

1)光伏日负荷聚类。通过对光伏功率数据预处理计算聚类统计指标,使用KFCM将光伏功率数据进行分类。
2)影响特征筛选。分别计算多种类别下每个影响特征MIC,筛选出主要影响特征。
3)相似日挑选。分别使用皮尔逊相关系数、斯皮尔曼相关系数和灰色关联分析,计算预测日影响特征和历史日影响特征之间的相关系数,结合合作博弈思想获得综合相关系数,通过排序挑选相似日构建训练集。
4)数据分解与重构。分别对3种天气类型光伏功率进行VMD分析,通过中心频率法确定最佳分解个数,计算各IMF排列熵值,重构为趋势项、低频项和高频项。
5)组合预测模型。对趋势项和低频项通过LSTM模型进行预测,对高频项通过CNN-BiLSTM-ATTENTION模型进行预测,将预测结果叠加求和得到最终预测结果。

6)结果分析。设计相关对比实验,选择评价指标,实验结果分析。



02


基于KFCM的日负荷聚类及相似日选取




通过对数据进行合理分类可为模型提供可靠的训练数据。首先,提取光伏功率数据的聚类统计指标,通过KFCM进行聚类,结合2个有效性指标得到最佳聚类结果;然后,计算光伏功率和影响特征之间的MIC,构建特征矩阵;最后,计算预测日和历史日的综合相关系数,选取恰当数量的历史日作为相似日,构建训练集。
2.1  KFCM日负荷聚类
KFCM是在传统模糊C均值聚类算法中引入一种基于核的相似度函数代替欧式距离,便于放大不同类别样本特征的差异,更准确地按照样本的属性进行聚类。为提高聚类效率,使用平均值、标准差、变异系数、峰度和偏度等指标评估光伏功率日负荷数据波动情况。光伏功率日负荷数据均为无标签数据,无法提前给定数据类别,因此,聚类效果只能通过内部评价指标进行评价,为避免单一指标的偶然性,综合选取戴维森堡丁指数(davies bouldin index,DBI)和轮廓系数(silhouette coefficient,SC)作为有效性指标,对聚类效果开展定量分析。
2.2  综合相关系数
皮尔逊相关系数在相关性分析方法中主要反映2个数据集波形相似度,可以用来衡量气象数据与功率之间的冲突性;斯皮尔曼相关系数是一种具有非参数性质的等级统计指标,用来度量2个变量变化的一致性;灰色关联分析主要通过数据的几何形状判断其联系是否紧密,反映了曲线间的关联程度。上述相关性分析方法关注于数据的不同特征,相关性计算结果不尽相同。
结合皮尔逊相关系数、斯皮尔曼相关系数和灰色关联分析各自的优点,本文根据合作博弈的思想,将特征不同相关系数的计算方法看作一个整体,计算该特征综合相关系数,进而确定该历史日的整体相关系数。具体计算步骤如下。

1) 设定W(i)为使用第i种方法得到的n项特征相关系数集合,n为特征数量,W(m_i)为除第i种方法外的m−1种方法计算的n项特征相关系数集合,则W(i)和W(m_i)的组合系数L(i)为

式中:Wj(i)为使用第i种方法计算的第j个特征的相关系数;Wj(i)的平均值;Wj(m_i)为除第i种方法外的m−1种方法计算的第j个特征的综合相关系数;Wj(m_i)的平均值。
2) 计算综合相关系数W

3) 将每个特征的综合相关系数相加,得到整体相关系数。



03


基于模态分解的组合预测模型




3.1  长短期记忆神经网络
LSTM可以学习长期依赖信息,在RNN的基础上新增了细胞状态,相关序列信息可以连续传递下去,并引入门控机制,实现信息的添加和剔除,避免了RNN可能出现的梯度爆炸和梯度消失等问题。
3.2  CNN-BiLSTM-ATTENTION模型

CNN-BiLSTM-ATTENTION模型由3个部分组成。首先,通过CNN对光伏功率数据进行编码操作并提取空间特征;其次,通过BiLSTM网络对光伏功率数据进行解码操作,通过正向LSTM和反向LSTM对特征向量进行提取,充分分析光伏功率和气象因素;最后,引入注意力机制,在突出关键序列的同时,剔除干扰因素。针对波动性较大的数据,CNN-BiLSTM-ATTENTION模型具有较强的非线性拟合能力,通过循环迭代修正权重以便减小误差,并可以提取数据内部规律,使得预测结果更加准确。



04


算例分析




4.1  数据来源及预处理
本文实验数据为新疆某光伏电站2019年6月和7月的历史数据,考虑到光伏出力间歇性,取07:30—19:15的数据,采样间隔为15 min,共4 416个采样。影响特征包括机组温度、环境温度、环境气压、环境湿度、总辐射、直射辐射和散射辐射。
数据在采集和传输过程中可能会出现故障,导致数据存在缺失值和异常值,降低预测模型的预测精度。对此,采用缺失值前后3天同一时间节点数据的均值对缺失值进行填补,采用3σ原则对异常值进行筛选,将筛选出的异常值当作缺失值处理。同时,为了避免各特征值量纲不同,影响预测精度,对数据统一进行归一化处理。
4.2  评价指标
为客观评价模型预测性能的好坏,每种天气类型均进行10次实验并取平均值作为最终预测结构,与真实数据进行误差计算分析。为将误差分析结果进行量化比较,采用平均绝对误差(mean absolute error,MAE)、均方根误差(root mean square error,RMSE)和平均绝对百分比误差(mean absolute percentage error,MAPE)作为评价指标,计算式分别为
式中:为第i个数据的预测值;hi为第i个数据的真实值;m为样本个数。
4.3  模型参数设置
在CNN-BiLSTM-ATTENTION集成模型中,对于CNN结构,采用2层卷积,卷积核大小设置为1,通道数分别为32和64,采用Relu激活函数;对于BiLSTM结构,隐藏神经元个数为60,Dropout层参数设置为0.2;对于注意力机制,采用SE注意力机制,通道数分别为16和64,激活函数分别为Relu和Sigmod。模型相关训练参数设置如下:优化策略采用Adam优化器,最大迭代次数为2000,初始学习率为0.01,学习率下降策略为Piecewise,学习率下降因子为0.1,学习率下降周期为700。
4.4  相似日选取结果

对历史光伏功率数据使用KFCM进行聚类分析,在给定不同聚类个数的条件下,KFCM的DBI指标和SC指标变化趋势如图2所示。


图2  有效性指标变化趋势
Fig.2  Variation of effectiveness indicators

由图2可知,当聚类个数为3时,DBI指标和SC指标明显优于其他聚类个数的相关指标,即最佳聚类个数为3。聚类结果如图3所示。


图3  KFCM聚类结果
Fig.3  KFCM clustering results

由图3可知,根据光伏功率曲线的波动特性,第1类整体稳定,类似于抛物线,故将其命名为晴天;第2类中光伏功率整体围绕抛物线上线波动,故将其命名为多云;第3类杂乱无章,无明显规律,由于本文数据所选为夏季,故将其命名为雨天。相同天气类型下的光伏功率曲线较为相似,晴天整体平稳,在太阳照射不稳定时出现轻微波动;多云波动较大,在太阳被云层遮挡时不稳定;雨天波动剧烈,平均光伏功率较低。选用每种天气类型的最后一天作为预测日,其他作为历史日,即7月29日为晴天预测日,7月31日为多云预测日,7月23日为雨天预测日。同时,采用MIC分别计算3种天气类型下光伏功率与影响特征间的相关系数,具体计算结果如表1所示。


表1  光伏功率与影响特征的相关系数
Table 1  The correlation coefficient between photovoltaic power and impact characteristics


由表1可知,3种天气类型下光伏功率的主要影响特征不同,选取其中相关性最高的3个影响特征构建特征矩阵。其中,晴天的主要影响特征包括组件温度、总辐射和直射辐射,多云的主要影响特征包括气压、总辐射和直射辐射,雨天的主要影响特征包括总辐射、直射辐射和散射辐射。

为提高预测精度,须从历史日中选取若干相似日构建训练集。对此,本文使用皮尔逊相关系数、斯皮尔曼相关系数、灰色关联分析系数和本文提出的综合相关系数分别计算每种天气类型下预测日与历史日特征矩阵间的相关系数。为便于表达,将皮尔逊相关系数记为M1,斯皮尔曼相关系数记为M2,灰色关联分析系数记为M3,综合相关系数记为M4。以晴天为例,将组件温度记为Q1,总辐射记为Q2,直射辐射记为Q3,相关系数计算结果如表2所示。


表2  晴天主要影响特征的相关系数
Table 2  The correlation coefficient of the main impact characteristics of sunny days


由表2可知,预测日与历史日特征矩阵的相关系数整体较大,相关程度较高,表明经过聚类后的历史日与预测日之间具有相似性,但程度有所不同。将表2相关系数结果对应求和,得到预测日与历史日的整体相关系数,将其排序并筛选出与预测日相似程度最高的历史日作为相似日,构建训练集。以晴天为例,预测日与历史日的整体相关系数及排序结果如表3所示。


表3  整体相关系数排序结果
Table 3  Overall correlation coefficient ranking results


由表3可知,M1M2M3M4的整体相关系数排序结果不同。同一天气类型下的光伏功率的内部规律有所差异,因此,并非相似日个数越多预测精度越高。为确定最佳相似日个数,通过LSTM模型和CNN-BiLSTM-ATTENTION模型进行误差分析,相似日个数分别选取5、7、9和11,预测误差分析结果如表4所示。


表4  相似日个数误差对比
Table 4  Comparison of errors in the number of similar days


由表4可知,不同天气类型下最佳相似日个数不同,晴天最佳相似日个数为11,多云最佳相似日个数为7,雨天最佳相似日个数为5。在图3  a)中,晴天下的光伏功率内部规律基本一致,相似日个数越多,越有利于模型充分挖掘其内部规律。在图3 b)中,多云下的光伏功率内部规律部分一致,选取部分相关程度最高的相似日构建训练集,有利于模型挖掘训练集中的内部规律。在图3 c)中,雨天下的光伏功率基本没有规律,大多杂乱无章,只选取与预测日相关程度最高的相似日构建训练集,模型可以避免其他历史日的干扰,提高整体预测性能。
4.5  数据分解与重构

分别对3种天气类型下的光伏数据进行VMD分解,降低光伏功率数据的波动性。在分解过程中,使用中心频率法确定模态个数k,选择分解效果最好的IMF数量。以晴天为例,中心频率结果如表5所示。


表5  晴天中心频率
Table 5  Sunny center frequency


由表5可知,中心频率在k为8和9时数值相等,为0.45,即k为8时中心频率达到稳定,因此,晴天下光伏功率最佳分解个数为8。同理可得多云和雨天的光伏功率最佳分解个数均为9。为降低预测模型的复杂度,提高组合模型的预测效率,分别计算分解后各IMF的排列熵值,并重构。各IMF的排列熵值如表6所示。


表6  各IMF对应排列熵值
Table 6  Permutation entropy values of each IMF


由表6可知,3种天气类型下各IMF的排列熵值界限较为明显。因此,将熵值大于0.9的IMF重构为高频项,将熵值大于0.8小于0.9的重构为低频项,将熵值小于0.8的重构为趋势项。以晴天为例,IMF重构结果如图4所示。


图4  IMF重构结果
Fig.4  IMF restructuring results

由图4可知,重构后的IMF变化较为规律,有利于挖掘各IMF的内部规律。趋势项曲线整体平滑,为主导IMF,反映了光伏功率整体变化趋势;低频项曲线反映了光伏功率的局部波动趋势;高频项曲线对光伏功率进行细微调整。对整体稳定、周期性较好的趋势项和低频项使用LSTM模型进行预测,对随机性强、波动较大的高频项使用CNN-BiLSTM-ATTENTION模型进行预测,以挖掘其内部规律,提高预测精度。
4.6  实验结果分析及对比

为验证本文模型的预测性能,另构建9个对比模型分别对晴天、多云和雨天进行预测。10个预测模型的预测结果如图5所示,误差计算结果如表7所示。10个预测模型如下。


图5  不同天气类型预测结果
Fig.5  Prediction results for different weather types

表7  不同预测模型的误差结果
Table 7  Errors of different prediction models


A1:不挑选相似日构建训练集,通过LSTM模型进行预测。
A2:不挑选相似日构建训练集,通过CNN-BiLSTM-ATTENTION模型进行预测。
A3:不挑选相似日构建训练集,通过VMD-CNN-BiLSTM-ATTENTION-LSTM模型进行预测。
A4:通过M1挑选相似日构建训练集,通过VMD-CNN-BiLSTM-ATTENTION-LSTM模型进行预测。
A5:通过M2挑选相似日构建训练集,通过VMD-CNN-BiLSTM-ATTENTION-LSTM模型进行预测。
A6:通过M3挑选相似日构建训练集,通过VMD-CNN-BiLSTM-ATTENTION-LSTM模型进行预测。
A7:通过M4挑选相似日构建训练集,通过LSTM模型进行预测。
A8:通过M4挑选相似日构建训练集,通过CNN-BiLSTM-ATTENTION模型进行预测。
A9:通过M4挑选相似日构建训练集,通过EMD-CNN-BiLSTM-ATTENTION-LSTM模型进行预测。
A10:通过M4挑选相似日构建训练集,通过VMD-CNN-BiLSTM-ATTENTION-LSTM模型进行预测,即本文模型。
结合图5和表7可知,在晴天下,除A1和A2外,模型的预测结果拟合曲线均接近实际光伏功率曲线,表明多数模型对较稳定的光伏功率有不错的预测效果。而模型A1和A2不挑选相似日,不进行分解重构,可能会受到部分辐射程度较低的影响,导致整体负荷偏低,但变化趋势大致相同。模型A10误差最小,eMAP为0.073。相较于模型A4、A5和A6,预测精度有着明显提升,eMAP分别提升了58.98%、61.37%和60.11%,表明本文所提综合相关系数可以很好地结合多种相关性分析方法的优点,验证了所提方法的有效性。
在多云下,预测模型均可较好地跟随真实值的波动变化,但部分预测模型偏差较大,这是因为多云天气下光伏功率变化规律不明显,模型难以挖掘内部规律。模型A4、A5和A6误差较大,可能是因为相似日挑选不恰当造成的。结合模型A1、A2、A3、A7、A8和A10可知,无论是否挑选相似日,经分解重构后,通过不同预测模型的预测效果要优于不分解重构,相比于A7和A8,A10的eMAP分别提升了4.87%和1.38%,验证了组合预测模型的有效性。同时,相较于模型A9采用EMD进行分解重构,VMD可以更好地去除信号中的噪声和干扰,eMAP提升了2.71%,验证了使用VMD的有效性。

在雨天下,整体光伏功率小于晴天和多云,且光伏功率波动较大。这是因为雨天随机性强,辐射量较少。经过相似日挑选的模型仍可较好地拟合真实曲线。结合模型A1、A2、A3、A4、A5、A6、A7、A8和A10可知,经过挑选相似日构建训练集的模型预测效果均明显优于全部历史日作为训练集的模型。模型A7相较于模型A1,eMAP提升了34.44%;模型A8相较于模型A2,eMAP提升了33.87%;模型A10相较于模型A3,eMAP提升了31.56%,表明在复杂天气类型下,通过挑选相似日构建训练集有助于模型挖掘数据间的内部规律,进而提高模型预测性能。



05


结论




本文提出了一种基于相似日挑选和数据重构的短期光伏功率组合预测方法,以新疆实际数据为例进行验证,得出如下结论。
1) 通过KFCM聚类方法将历史光伏功率数据进行分类,并使用MIC对不同天气类型的主要影响特征进行筛选,可有效排除无关特征的干扰,提高数据质量,减少预测所需数据量的同时,确保数据的可靠性和模型预测的准确性。
2) 挑选与预测日内部规律相同的历史日作为相似日构建训练集,集中规律一致的历史日数据,减少其他非相关历史日的干扰,帮助模型更深入地挖掘和理解数据的内在规律,增强模型对预测日内部规律的捕捉能力,提高预测性能。
3) 通过合作博弈思想获得的综合相关系数,可有效结合不同相关性分析方法的优点,全面考虑数据的不同特征,可以更好地反映数据之间的真实关系,使相似日的选取更加合理,提高模型预测精度。

4) 将VMD与排列熵相结合,对光伏功率进行分解和重构,可以促进信号特征的提取,降低原始数据的波动性,使重构后的IMF更加平稳。根据IMF的特点,高频项采用CNN-BiLSTM-ATTENTION模型预测,有助于更好地捕获信号中的非线性关系;趋势项和低频项采用LSTM模型预测,可有效降低模型复杂度。组合预测充分发挥不同模型的优点,提高预测精度。


注:本文内容呈现略有调整,如需要请查看原文。




 往期回顾 


◀ 《中国电力》2024年第12期抢先看
◀ 国网冀北电力有限公司 陈璨等|基于分层关联性建模的分布式光伏功率超短期概率预测
◀ 山西大学 李翰章等|基于TDE-SO-AWM-GRU的光伏发电功率预测模型
◀ 三峡大学 李丹等|基于高斯混合聚类和改进条件变分自编码的多风电场功率日场景生成方法
◀ 河海大学 王蕊等|基于复杂特征提取和Sinkhorn距离的风光荷多阶段场景树生成方法
◀ “交直流配电系统灵活资源规划运行及动态控制”专题征稿启事
◀ “提升新能源和新型并网主体涉网安全能力关键技术”专题征稿启事
◀ “电-碳协同下分布式能源系统运营关键技术”专题征稿启事
◀ “氢能交通与电力系统耦合下的规划、运行和交易关键技术”专题征稿启事

编辑:邵美琦
校对:于静茹
审核:张红宪
声明
根据国家版权局最新规定,纸媒、网站、微博、微信公众号转载、摘编《中国电力》编辑部的作品,转载时要包含本微信号名称、二维码等关键信息,在文首注明《中国电力》原创。个人请按本微信原文转发、分享。欢迎大家转载分享。

中国电力
国网能源研究院有限公司是国家电网有限公司高端智库建设的主体单位,本公众号致力于分享智库观点、学术报告、精彩论文等。欢迎联系投稿及转载:010-66603794;shaomeiqi@sgeri.sgcc.com.cn。
 最新文章