标题 | ChaosBench: a Multi-Channel,Physics-Based Benchmark for Subseasonal-to-Seasonal Climate Prediction |
---|---|
作者 | Juan Nathaniel; Yongquan Qu; Tung Nguyen;Sungduk Yu; Julius Busecke;Aditya Grover;Pierre Gentine |
机构 | Columbia University;UCLA;UCI;LDEO;Intel Labs |
邮箱 | jn2808@columbia.edu |
论文 | https://arxiv.org/abs/2402.00712 |
代码 | https://leap-stc.github.io/ChaosBench |
摘要
准确预测次季节到季节尺度的气候对于气候变化中的防灾和稳健决策至关重要。然而,超出天气时间尺度的预测具有挑战性,因为它涉及初始条件以外的问题,包括边界交互、蝴蝶效应以及我们固有的物理理解的缺乏。目前,现有基准的预测范围往往较短,最多 15 天,不包括广泛的操作基线,并且缺乏基于物理的可解释性约束。因此,我们提出了 ChaosBench,这是一个具有挑战性的基准,可将数据驱动的天气模拟器的可预测范围扩展到 S2S 时间尺度。首先,ChaosBench 由典型的地表大气 ERA5 之外的变量组成,还包括跨度超过 45 年的海洋、冰和陆地重分析产品,以允许在尊重边界条件的情况下进行完整的地球系统仿真。除了确定性和概率性指标之外,我们还提出基于物理的方法,以确保物理上一致的集合,从而解释蝴蝶效应。此外,我们评估了来自四个国家气象机构的各种基于物理的预测,作为我们的数据驱动对应机构(例如 ViT/ClimaX、PanguWeather、GraphCast 和 FourCastNetV2)的基线。总的来说,我们发现最初为天气尺度应用开发的方法在 S2S 任务上失败了:它们的性能完全崩溃到不熟练的气候学。尽管如此,我们概述并演示了几种可以扩展现有天气模拟器的可预测范围的策略,包括使用集合、对误差传播的鲁棒控制以及使用物理信息模型。我们的基准测试、数据集和说明可在 https://leap-stc.github.io/ChaosBench 上获取。
1 问题背景
当前的天气和气候预测方法严重依赖于数值天气预测(Numerical Weather Prediction)形式的基于物理的预测模型。许多数值天气预测都是基于描述热力学、流体流动等的控制方程的离散化。然而这些方法在高时空分辨率上的计算开销非常大,并且使用门槛非常高。因此,人们越来越有兴趣应用数据驱动模型来模拟 NWP,因为它们往往具有更快的推理速度、更少的资源需求并且更易于访问。
2 问题
由于边界交互、蝴蝶效应以及对天气物理理解的缺乏等问题,导致预测未来的天气充满挑战性。目前存在的数据驱动的天气预测benchmark具有以下缺点:
1.预测的时间范围在1~15天或者几年到几十年,缺乏预测时间范围在次季节到季节的benchmark 缺乏基于物理的可解释性约束; 包含的baseline范围不够广泛。
图1 ChaosBench与现有的数据驱动气候预测benchmark的对比
边界交互:气象或气候系统中,气体、液体和固体之间在边界层或界面上的相互作用。特别是地表和大气的交互、海洋与大气的交互。
3 ChaosBench亮点
除了常用的ERA5数据集,还引入了海洋、冰和陆地的重分析产品来进行地球系统的仿真,更好地建模边界交互。 除了常用的确定性指标和概率性指标,引入基于物理的指标,来获得更好的物理一致性,从而解释蝴蝶效应。 Baseline选择了基于物理的模型、基于数据驱动的Sota模型:ViT/ClimaX、PanguWeather、GraphCast和FourCastNetV2以及传统的气候学预测方法。
图2 ChaosBench框架
重分析产品:是用于监测、分析和预测地球系统不同组件的数值产品。它们是基于数值模型和观测数据的融合,能够重建过去的气候和环境状况,能够提供多年来地球系统关键变量的时间序列数据。
4 ChaosBench
4.1 数据集
ChaosBench使用了地表大气 (ERA5)、海冰 (ORAS5) 和陆地 (LRA5) 的全球再分析产品。
ERA5:提供了全球大气的综合记录,变量包括 10 个压力级别下的温度 、比湿度、位势高度和3D 风速,共 60 个变量。
ORAS5:海洋再分析系统 5 提供了包含多个深度级别的海冰变量的广泛记录 。共21个变量。
LRA5:ERA5-土地再分析提供了控制全球陆地过程的变量的详细记录,并针对洪水预报或碳通量等地表应用量身定制了具体修正。共43个变量。
4.2 模拟
选择了来自四个国家气象局的物理预测模型:
UKMO:英国气象局使用全球季节性预报系统版本 6 (GloSea6) 模型 生成 60 天准备时间内的每日 3+1 集合/控制预报。 NCEP: 国家环境预测中心使用气候预测系统 2 (CFSv2) 模型 在 45 天的准备时间内生成每日 15+1 集合/控制预测。 CMA: 中国气象局使用北京气候中心(BCC)全耦合BCC-CSM2-HR模型,以3天为间隔生成3+1集合/控制预报,提前期为60天。 ECMWF: 欧洲中期天气预报中心使用可操作的综合预报系统(IFS),其中包括先进的数据同化策略和地球系统的全球数值模型。特别是,我们使用 CY41R1 版本的 IFS 每周两次生成 50+1 集合/控制预报,交付时间为 46 天。
图3 基于物理的模拟将地球系统的不同部分及其操作选择(例如数据同化)结合起来。
5 Benchmark Metrics
5.1 Deterministic Metrics
我们提供机器学习和气候科学文献中流行的确定性指标,包括 RMSE、Bias、ACC 和 MS-SSIM。
Root Mean Squared Error (RMSE) 可用于惩罚异常值,这对于极端事件预测等天气和气候应用尤其重要。 Bias帮助我们识别模型中存在的错误指定和系统错误。 Anomaly Correlation Coefficient (ACC) 衡量预测异常与观测异常之间的相关性。该指标在天气和气候应用中特别有用,其中与标准的偏差(例如温度异常)通常会揭示有趣的见解。 **Multi-Scale Structural Similarity (MS-SSIM)**比较了跨尺度的预测和真实标签之间的结构相似性。这在天气系统中特别有用,因为它们以多种尺度发生,从气旋等大型系统到局部雷暴等较小的特征。
5.2 Physics Metrics
图4 使用ClimaX预测1、44天后700hpa下标准化湿度的GT、预测结果及残差
由图四可以看到预测44天后的标准化湿度相对于预测1天后的标准化湿度,44天后的预测会更平滑,残差变得更大。
图5 使用Climax预测未来1~44天的700hpa下标准化湿度结果经傅里叶变化后进行可视化
可以看到低频信号的功率谱随着时间增加仍然保持一致,但是高频信号会有一定的波动。这种现象解释了为什么长期预测擅长捕捉大规模模式而不是细粒度细节。
针对上述现象,论文提出提出两个基于物理的度量来测量预测 和目标 的功率谱之间的偏差或差异。其中 是来自 2D 傅里叶变换的前q的高频频率的集合。在进行计算前,需要对预测 和目标进行标准化,得到类似概率密度函数的形式。
**Spectral Divergence (SpecDiv)**:
**Spectral Residual (SpecRes)**:
Probabilistic Metrics
除了 RMSE、Bias、ACC、MS-SSIM、SpecDiv 和 SpecRes 的概率版本(我们获取它们对集合成员的期望之外,我们还使用几个概率指标来评估集合预测的关键性 用于远程 S2S 预测。
Continuous Ranked Probability Score (CRPS) 评估集成分布相对于目标的准确性。低 CRPS 值要求预测可靠,其中预测的不确定性与实际的不确定性一致,并且不确定性越小越好。 Continuous Ranked Probability Skill Score (CRPSS) 评估相对于气候变化的概率预测技能;CRPSS > 0 表明熟练,反之亦然。 Spread 通过测量集合成员之间的变异性来量化集合预测的不确定性,这有助于了解可能的结果和置信度的范围。 Spread/Skill Ratio平衡集合传播与预测技能(例如,RMSE);理想情况下,经过良好校准的集合应该具有与预测技能相匹配的分布。
6 Benchmark结果
论文中以850hpa下的温度(记为t-850)、500hpa下的位势高度(记为z-500)以及700hpa下的比湿度(记为q-700)作为报告的主要结果。主要使用四种最先进的模型进行比较,包括 ViT/ClimaX、PanguWeather、GraphCast 和 FourCastNetV2。(仅展示部分结论)
最小化误差传播可促进稳定性。人们提出了不同的训练和推理策略来提高数据驱动的天气模拟器的准确性和稳定性。其中最主要的是自回归和直接方法。如表所示,我们发现直接训练的模型(例如 ViT/ClimaX)比自回归使用的模型(例如 PW、GC、FCN2)具有更好的性能。这表明误差传播是误差的重要来源,而控制稳定性是扩展天气模拟器可预测范围的关键。一旦实现稳定性,剩余的误差源,包括观测和/或建模框架中的不确定性,可以通过更多的数据、更好的模型或通过数据同化来改善。
图6. 使用不同训练策略的数据驱动
模型的性能指标
预测能力崩溃 超过 15 天后,各个业务中心的控制预报在 S2S 规模上的表现比气候学差。类似的现象在数据驱动模型中也很明显。与基于物理学的预测不同,这些预测表现出明显更高的光谱发散,这表明在长期部署过程中,多尺度结构的预测能力较低。这导致了前面讨论的模糊伪影。
图7. 基于物理的模型与基于数据驱动的模型的光谱散度
物理限制可以提高性能。 我们发现明确结合物理知识的模型(例如,学习像素信息之外的光谱信号)在各个指标(例如 FNO)上具有更好的性能,如表 S8 中所总结的,在相同的参数预算为 106 的情况下。这种现象并不令人惊讶,并且已在 例如,基于物理的深度学习在现实世界中的许多应用。
7 总结
我们推出了 ChaosBench,这是一个具有挑战性的基准,可将天气模拟器的可预测范围扩展到 S2S 时间尺度,在 S2S 时间尺度中,许多具有重大社会经济影响的过程往往会发生,包括极端事件。除了为完整的地球系统仿真提供 ERA5 之外的各种数据集之外,我们还对最先进的数据驱动和基于物理的模型进行广泛的基准测试。通过各种消融,我们系统地发现,可以通过集合预测、控制指数误差增长以及将物理知识纳入我们的建模方法来扩展技能。
未来工作:我们的输入数据集具有相对粗糙的时空分辨率,以匹配基于物理的 S2S 预测。尽管如此,我们还是将数据处理管道开源,允许用户轻松处理所需分辨率的输入(更多详细信息,请参阅第 B.4 节)。我们正在规划多源再分析产品(例如 MERRA-2 [49]),利用不同的数据集优势,例如不同观测集的同化。一如既往,我们欢迎开源社区为解决这个重要但尚未得到充分研究的问题做出任何贡献。任何评论、反馈和/或未来的功能请求都可以直接发送给相应的作者或通过 Github 问题跟踪器 https://github.com/leap-stc/ChaosBench。
思考
文章针对的问题是天气预测,一个具有高现实价值的任务。论文捕捉到次季节到季节尺度上其他数据驱动benchmark的不足,并根据这些不足做出改进和补全,完善了对次季节到季节尺度上天气预测的benchmark,具有一定的现实意义。除此之外,实验的完整和论文的写作也非常加分。这些都是值得我认真学习的。