可融合气象数据!中科院团队构建多时间尺度预测模型

学术   2024-10-31 14:00   安徽  

作者:万萌,李姝

编辑:李宝珠


中国科学院计算机网络信息中心人工智能部工程师万萌,在数值模拟工程应用中的智能超算融合技术论坛上,介绍了团队在在光伏发电、电力负荷中积累的实际应用及方案,以及深度学习在时间序列预测领域的前沿研究动态。


在第 20 届 CCF 全国高性能计算学术年会 (CCF HPC China 2024)——数值模拟工程应用中的智能超算融合技术论坛上,来自中国科学院计算机网络信息中心人工智能部工程师万萌分享了团队在光伏发电、电力负荷中积累的实际应用及方法方案,以及深度学习在时间序列预测领域的前沿研究动态,为新能源预测提供新的技术思路和方法。



HyperAI超神经在不违原意的前提下,对本次深度分享进行了整理汇总,共分为时间序列、新能源背景概况、研究基础、研究进展 4 个部分。以下为演讲实录。

时间序列应用广泛,涵盖多个方面

我们所研究的时间序列旨在对特定对象的未来发展趋势或状态,进行科学的预测和判断。在我们的现实生活中,时间序列的应用广泛,涵盖了交通流量、金融经济、气象天气、病毒传播以及能源等多个方面。




当前时间序列的研究方向主要分为 4 个部分。第 1 部分是时序未来预测,可以根据我们已知的历史序列来预测未来的序列,包括光伏预测、气象预测、股票预测等。第 2 部分是时序空值填补,包括舆情监测、传感器故障、工业设备维护等,如工业场景下的传感器故障导致部分运行数据缺失。第 3 部分是时间序列的异常检测(时序异常流量),这也是网络流量方面十分常见的现象,如网络异常攻击、异常环境监测、金融欺诈识别等。第 4 部分是时间序列的分类,例如医学中的心电图分类,语音分类以及地震监测等。




接下来,我们将探讨时间序列与传统语言序列之间的显著差异。人类语言序列通常由句子组成,是离散的表示形式,具有高语义密度。相比之下,时间序列大多由自然信号组成,可能包含连续的数值点,其主要特征是语义密度相对较低。


午间消纳困难与晚峰电力供应紧张矛盾凸显,新能源预测面临 3 大挑战

在探讨如何解决这一问题时,我将重点介绍我们团队在时间序列新能源方向的的研究进展,具体内容为光伏发电出力的预测。


由于光伏发电具有午间发电量大、晚间几乎无出力的特性,增加了整个电力系统的调节难度。特别是在午后,新能源的消纳变得较为困难,同时晚峰时段的电力供应也面临紧张,这种矛盾尤为突出。因此,对于日前发电计划的制定、日内电力平衡的调整以及电力市场的运行,对光伏发电预测的准确性需求空前强烈。



光伏发电当前背景概况

然而目前对于新能源预测面临 3 大重要挑战。首先是是数值天气预报目前不满足高精度光伏电站的预测需求;其次是集中式光伏电站模型不足以描述功率波动,难以适应多时刻多气象条件下预测需要;第三是分布式光伏电站缺乏地面辐照度数据,时空特征分布不足,无法满足多时间尺度预测。

构建集中式光伏电站与分布式光伏多时间尺度功率预测模型

面对一系列挑战,我们提出了多项模型研究方案,旨在构建集中式光伏电站与分布式光伏多时间尺度功率预测模型。我们首先收集了多源气象数据,涵盖不同时间尺度和气象类型的数据,包括卫星云图、数值天气预报数据、地面测量数据以及光伏电站的测量数据。


其次,基于这些数据,我们在上一层构建了辐照度预测模型,用于指导集中式和分布式光伏电站的超短期预测。在此基础上,我们进一步构建了超短期、中期、短期及其他时间尺度的预测模型。最后,我们搭建了一个全时间尺度的预测平台。


总体研究思路架构图

多源气象数据

首先,针对光伏电站的地表太阳辐照度超短期预测模型,当前的主要问题在于数值天气预报通常每 12 小时更新一次,且其空间分辨率和精度较低,难以满足光伏电站预测空间和时间分辨率需求。


为解决这一问题,我们结合了葵花 8 号 (Himawari-8) 卫星云图和数值天气预报数据。葵花 8 号的云图具有 4km*4km 的空间分辨率和 10 分钟的时间分辨率,但存在 20 分钟的延迟。而数值天气预报的时间分辨率为 15 分钟,空间分辨率为 9km*9km,更新频率为每 12 小时一次。


光伏电站的地表太阳辐照度超短期预测模型技术路线

辐射度预测模型

面对这些差异,我们开发了超短期预测模型,采用多种插值方法对多源气象数据进行平行对齐,解决了数据延迟的问题。通过基于 Res-UNet 和双线性插值的地表短波辐照度预测方法,我们在多种气象条件下预测的 MAE 和 RMSE 分别平均降低了 31.31% 和 22.18%。右下图展示了河北涉县东皇中电投站点的实际案例,结果表明,Res-UNet 相较于 NWP 和 UNet 更能准确预测辐照度的抖动性和峰值。


光伏电站的地表太阳辐照度超短期预测模型架构及案例

光伏功率预测模型

对于集中式光伏电站的超短期预测模型,其问题主要体现在对数值天气预报的严重依赖和精度不足。针对这一问题,我们提出了基于双编码变换器的集中式光伏超短期功率预测方法,结合地面观测数据与卫星云图中的云层变化特征数据,打破了光伏预测单纯依赖数值天气预报数据的局限性。


UNet 云图特征提取骨干网络与多源数据融合双编码变换器


在集中式光伏电站短期功率预测方面,单一模型的预测误差较大,易受突发天气的影响。为此,我们提出了基于分时-长短期记忆网络的集中式光伏短期功率预测方法,综合运用辐照度、环境温度、湿度等历史气象数据与光伏发电功率的时间相关性特征,解决了单一预测模型难以适应复杂多变气象条件问题,有效提升了复杂气象条件下的预测精度。


集中式光伏电站短期预测模型技术路线

针对中长期预测,主要挑战是如何捕捉光伏发电的季节性、周期性和长期趋势变化。为解决这一问题,我们提出了基于双重注意力编码器的集中式光伏中期功率预测方法,综合运用周期性、季节性和趋势性气象特征数据,实现了对不同季节、连续多时间特征的精准捕捉,率先实现了时间序列周期和趋势自动提取。相关成果已发表在 AAAI 会议上。
论文地址:
https://ojs.aaai.org/index.php/AAAI/article/view/25845



基于交互式并行注意力和进化季节性、趋势分解的中期功率预测方法


对于分布式光伏电站的全时间尺度预测模型,主要问题在于其规模小、分布广,缺乏精确的现场气象观测数据。当前的预测模型未充分考虑多源数据的时空融合,导致精度不足。为此,我们分别提出了针对超短期、短期和中期的分布式光伏电站功率预测模型。


我们还提出了多层图注意力机制,批量自动提取海量分布式光伏与周边集中式光伏电站实测气象数据、卫星云图的时空相关性;提出了基于双重注意力网络的分布式光伏短期功率预测模型,通过站内和站间注意力机制,融合分布式电站的数值天气预报数据和集中式光伏电站的地面量测数据,实现预测模型在地理空间特征融合;提出了基于地理感知多层注意力机制的分布式光伏中期功率预测方法,通过灰色关联分析筛选强相关集中式光伏电站,采用站间-站内多层次细粒度注意力机制,自动提取集中式光伏电站气象特征与分布式光伏电站功率的时空相关性。



分布式光伏电站全时间尺度预测模型技术路线

综合性平台

最终,我们开发了一套全电压等级多时间尺度省级辐照度资源与光伏发电监视、预测和调控系统平台,包括光伏资源及运行数据监测功能模块、集中式光伏全时间尺度预测功能模块、分布式光伏全时间尺度预测功能模块以及光伏一体化控制功能模块。


* 光伏资源及运行数据监测功能模块:实现了气象数据实测及展示,集中式光伏电站与海量低压分布式光伏全景监视。

* 集中式光伏全时间尺度预测功能模块:实现了光伏全时间尺度的实时监测、异常预警、模型自学习等。

* 分布式光伏全时间尺度预测功能模块:实现了 NWP 数据管理,光伏站实测数据、基础数据管理,区域功率预测,光伏站功率预测,系统管理等功能。

* 光伏一体化控制功能模块:实现了全面数据监测与协同优化调度,集中式与分布式预测相结合,自动调节与优化,异常检测与警报,保障电网安全稳定运行和新能源高水平消纳。


全电压等级多时间尺度省级辐照度资源与光伏发电监视、预测和调控系统平台

时间序列在非新能源领域取得的两大工作进展

接下来,我将主要介绍时间序列在非新能源领域取得的工作进展。一方面,我们提出了基于语义增强和多流管道的通用无损压缩框架,主要包括字节流语义增强、多流管道加速、显存优化 3 个研究内容。


在字节流语义增强方面,我们开发了一系列新的方法来获取复杂的语义信息,其中包括 Patch 维度融合和自适应滑动窗口等技术。


在多流管道加速方面,我们研发了针对 GPU 多复制引擎的多流加速模块和面向 CPU 多核的队列模型。



字节流语义增强和多流管道框架


在显存优化方面,我们首次提出了多流场景下显存优化策略。具体而言,我们首先使用分析器分析内存分配和释放的顺序,以识别可以共享的内存块。我们关注的是那些很少但占用大部分内存的内存块,以最大限度地提高内存重用率。


基于此,我们设计一个共享池策略来管理流之间的共享内存块,它使用的大型连续内存块被释放回共享池并标记为保留块;下一个阻塞流可以通过将其指针调整到这些块的地址来访问这些保留块。当 S2 请求新的内存空间时,它会在共享池中搜索可用的保留块。如果找到合适的块,malloc 会在下一个流中重用它们,从而显著节省内存。



显存优化框架

我们取得的主要成果有:对深度学习的压缩器,在图像、文本、音频、视频、异构混合数据上,平均有 3% 以上的压缩率和 35% 以上的压缩速度增强,与 PAC 压缩器结合达到目前的 SOTA;语义增强方法可以拓展到时间序列等任务中,进一步提升时序预测的精度;多流管道加速可以拓展到有损压缩等领域,提升整体压缩速度。



压缩结果

另一方面,我们提出了面向通用时间序列的多尺度模型 CSIformer。首先,我们设计了自适应 Patch 划分网络,通过学习中心点和左右边界,实现对传统超参的自动适配。此外,我们还提出了自适应 Stride 策略,利用掩码矩阵实现对不同语义密度块的步长调整。最后,为了增强对长序列信息的捕获和感知,我们还设计了金字塔融合策略,从而提升了模型在长序列中的表现。



多尺度模型 CSIformer

在光伏预测的多级序列分解模型方面,我们重点研究了小波分解单元 (WTDU)、季节趋势分解单元 (STDU) 以及 SEEDTrans 架构。值得注意的是,该模型在中国河北的 6 个发电站中,预测精度相比传统 ARIMA 模型提高了 40% 以上。


关于万萌

万萌,北京科技大学在读博士,现任中国科学院计算机网络信息中心人工智能部工程师,于北京邮电大学和英国南安普顿大学分别获得软件工程学士和硕士学位。



他主要从事时间序列预测、人工智能平台等相关研究,包括光伏发电处理预测、高分子材料计算与模拟、生态碳循环等。先后参与了「中国科技云软件资源池建设」、「人工智能创新应用」等项目课题。


happy科研公众号:

1、新书PDF,官方定价均超200刀:(1)大尺度大气模式中的快速过程:进展、挑战和机遇(2)云及其气候影响——辐射、环流和降水(3)谢尚平新书:《海气耦合动力学:从厄尔尼诺到气候变化》
2、气象局面试真题、民航空管题库等
3、数据集,中国气象背景数据集(1915个站点)等
4、送书
5、录屏分享(可委托录制报告)
6、课题组科研进展
... ...

happy科研
离经叛道的领导者。商务咨询:FY861335181
 最新文章