[论文分享]NIPS 2024 Oral ChaosBench：多通道、基于物理的次季节-季节气候预测benchmark

文摘 2024-10-22 18:56 广东

标题	ChaosBench: a Multi-Channel,Physics-Based Benchmark for Subseasonal-to-Seasonal Climate Prediction
作者	Juan Nathaniel; Yongquan Qu; Tung Nguyen;Sungduk Yu; Julius Busecke;Aditya Grover;Pierre Gentine
机构	Columbia University;UCLA;UCI;LDEO;Intel Labs
邮箱	jn2808@columbia.edu
论文	https://arxiv.org/abs/2402.00712
代码	https://leap-stc.github.io/ChaosBench

摘要

准确预测次季节到季节尺度的气候对于气候变化中的防灾和稳健决策至关重要。然而，超出天气时间尺度的预测具有挑战性，因为它涉及初始条件以外的问题，包括边界交互、蝴蝶效应以及我们固有的物理理解的缺乏。目前，现有基准的预测范围往往较短，最多 15 天，不包括广泛的操作基线，并且缺乏基于物理的可解释性约束。因此，我们提出了 ChaosBench，这是一个具有挑战性的基准，可将数据驱动的天气模拟器的可预测范围扩展到 S2S 时间尺度。首先，ChaosBench 由典型的地表大气 ERA5 之外的变量组成，还包括跨度超过 45 年的海洋、冰和陆地重分析产品，以允许在尊重边界条件的情况下进行完整的地球系统仿真。除了确定性和概率性指标之外，我们还提出基于物理的方法，以确保物理上一致的集合，从而解释蝴蝶效应。此外，我们评估了来自四个国家气象机构的各种基于物理的预测，作为我们的数据驱动对应机构（例如 ViT/ClimaX、PanguWeather、GraphCast 和 FourCastNetV2）的基线。总的来说，我们发现最初为天气尺度应用开发的方法在 S2S 任务上失败了：它们的性能完全崩溃到不熟练的气候学。尽管如此，我们概述并演示了几种可以扩展现有天气模拟器的可预测范围的策略，包括使用集合、对误差传播的鲁棒控制以及使用物理信息模型。我们的基准测试、数据集和说明可在 https://leap-stc.github.io/ChaosBench 上获取。

1 问题背景

当前的天气和气候预测方法严重依赖于数值天气预测（Numerical Weather Prediction）形式的基于物理的预测模型。许多数值天气预测都是基于描述热力学、流体流动等的控制方程的离散化。然而这些方法在高时空分辨率上的计算开销非常大，并且使用门槛非常高。因此，人们越来越有兴趣应用数据驱动模型来模拟 NWP，因为它们往往具有更快的推理速度、更少的资源需求并且更易于访问。

2 问题

由于边界交互、蝴蝶效应以及对天气物理理解的缺乏等问题，导致预测未来的天气充满挑战性。目前存在的数据驱动的天气预测benchmark具有以下缺点：

1.预测的时间范围在1~15天或者几年到几十年，缺乏预测时间范围在次季节到季节的benchmark
缺乏基于物理的可解释性约束；
包含的baseline范围不够广泛。

图1 ChaosBench与现有的数据驱动气候预测benchmark的对比

边界交互：气象或气候系统中，气体、液体和固体之间在边界层或界面上的相互作用。特别是地表和大气的交互、海洋与大气的交互。

3 ChaosBench亮点

除了常用的ERA5数据集，还引入了海洋、冰和陆地的重分析产品来进行地球系统的仿真，更好地建模边界交互。
除了常用的确定性指标和概率性指标，引入基于物理的指标，来获得更好的物理一致性，从而解释蝴蝶效应。
Baseline选择了基于物理的模型、基于数据驱动的Sota模型：ViT/ClimaX、PanguWeather、GraphCast和FourCastNetV2以及传统的气候学预测方法。

图2 ChaosBench框架

重分析产品：是用于监测、分析和预测地球系统不同组件的数值产品。它们是基于数值模型和观测数据的融合，能够重建过去的气候和环境状况，能够提供多年来地球系统关键变量的时间序列数据。

4 ChaosBench

4.1 数据集

ChaosBench使用了地表大气 (ERA5)、海冰 (ORAS5) 和陆地 (LRA5) 的全球再分析产品。

ERA5：提供了全球大气的综合记录，变量包括 10 个压力级别下的温度、比湿度、位势高度和3D 风速，共 60 个变量。

ORAS5：海洋再分析系统 5 提供了包含多个深度级别的海冰变量的广泛记录。共21个变量。

LRA5：ERA5-土地再分析提供了控制全球陆地过程的变量的详细记录，并针对洪水预报或碳通量等地表应用量身定制了具体修正。共43个变量。

4.2 模拟

选择了来自四个国家气象局的物理预测模型：

UKMO：英国气象局使用全球季节性预报系统版本 6 (GloSea6) 模型生成 60 天准备时间内的每日 3+1 集合/控制预报。
NCEP: 国家环境预测中心使用气候预测系统 2 (CFSv2) 模型在 45 天的准备时间内生成每日 15+1 集合/控制预测。
CMA: 中国气象局使用北京气候中心（BCC）全耦合BCC-CSM2-HR模型，以3天为间隔生成3+1集合/控制预报，提前期为60天。
ECMWF: 欧洲中期天气预报中心使用可操作的综合预报系统（IFS），其中包括先进的数据同化策略和地球系统的全球数值模型。特别是，我们使用 CY41R1 版本的 IFS 每周两次生成 50+1 集合/控制预报，交付时间为 46 天。

图3 基于物理的模拟将地球系统的不同部分及其操作选择（例如数据同化）结合起来。

5 Benchmark Metrics

5.1 Deterministic Metrics

我们提供机器学习和气候科学文献中流行的确定性指标，包括 RMSE、Bias、ACC 和 MS-SSIM。

Root Mean Squared Error (RMSE) 可用于惩罚异常值，这对于极端事件预测等天气和气候应用尤其重要。
Bias帮助我们识别模型中存在的错误指定和系统错误。
Anomaly Correlation Coefficient (ACC) 衡量预测异常与观测异常之间的相关性。该指标在天气和气候应用中特别有用，其中与标准的偏差（例如温度异常）通常会揭示有趣的见解。
**Multi-Scale Structural Similarity (MS-SSIM)**比较了跨尺度的预测和真实标签之间的结构相似性。这在天气系统中特别有用，因为它们以多种尺度发生，从气旋等大型系统到局部雷暴等较小的特征。

5.2 Physics Metrics

图4 使用ClimaX预测1、44天后700hpa下标准化湿度的GT、预测结果及残差

由图四可以看到预测44天后的标准化湿度相对于预测1天后的标准化湿度，44天后的预测会更平滑，残差变得更大。

图5 使用Climax预测未来1~44天的700hpa下标准化湿度结果经傅里叶变化后进行可视化

可以看到低频信号的功率谱随着时间增加仍然保持一致，但是高频信号会有一定的波动。这种现象解释了为什么长期预测擅长捕捉大规模模式而不是细粒度细节。

针对上述现象，论文提出提出两个基于物理的度量来测量预测和目标的功率谱之间的偏差或差异。其中是来自 2D 傅里叶变换的前q的高频频率的集合。在进行计算前，需要对预测和目标进行标准化，得到类似概率密度函数的形式。

**Spectral Divergence (SpecDiv)**：

**Spectral Residual (SpecRes)**：

Probabilistic Metrics

除了 RMSE、Bias、ACC、MS-SSIM、SpecDiv 和 SpecRes 的概率版本（我们获取它们对集合成员的期望之外，我们还使用几个概率指标来评估集合预测的关键性用于远程 S2S 预测。

Continuous Ranked Probability Score (CRPS) 评估集成分布相对于目标的准确性。低 CRPS 值要求预测可靠，其中预测的不确定性与实际的不确定性一致，并且不确定性越小越好。
Continuous Ranked Probability Skill Score (CRPSS) 评估相对于气候变化的概率预测技能；CRPSS > 0 表明熟练，反之亦然。
Spread 通过测量集合成员之间的变异性来量化集合预测的不确定性，这有助于了解可能的结果和置信度的范围。
Spread/Skill Ratio平衡集合传播与预测技能（例如，RMSE）；理想情况下，经过良好校准的集合应该具有与预测技能相匹配的分布。

6 Benchmark结果

论文中以850hpa下的温度（记为t-850）、500hpa下的位势高度（记为z-500）以及700hpa下的比湿度(记为q-700)作为报告的主要结果。主要使用四种最先进的模型进行比较，包括 ViT/ClimaX、PanguWeather、GraphCast 和 FourCastNetV2。(仅展示部分结论)

最小化误差传播可促进稳定性。人们提出了不同的训练和推理策略来提高数据驱动的天气模拟器的准确性和稳定性。其中最主要的是自回归和直接方法。如表所示，我们发现直接训练的模型（例如 ViT/ClimaX）比自回归使用的模型（例如 PW、GC、FCN2）具有更好的性能。这表明误差传播是误差的重要来源，而控制稳定性是扩展天气模拟器可预测范围的关键。一旦实现稳定性，剩余的误差源，包括观测和/或建模框架中的不确定性，可以通过更多的数据、更好的模型或通过数据同化来改善。

图6. 使用不同训练策略的数据驱动

模型的性能指标

预测能力崩溃 超过 15 天后，各个业务中心的控制预报在 S2S 规模上的表现比气候学差。类似的现象在数据驱动模型中也很明显。与基于物理学的预测不同，这些预测表现出明显更高的光谱发散，这表明在长期部署过程中，多尺度结构的预测能力较低。这导致了前面讨论的模糊伪影。

图7. 基于物理的模型与基于数据驱动的模型的光谱散度

物理限制可以提高性能。 我们发现明确结合物理知识的模型（例如，学习像素信息之外的光谱信号）在各个指标（例如 FNO）上具有更好的性能，如表 S8 中所总结的，在相同的参数预算为 106 的情况下。这种现象并不令人惊讶，并且已在例如，基于物理的深度学习在现实世界中的许多应用。

7 总结

我们推出了 ChaosBench，这是一个具有挑战性的基准，可将天气模拟器的可预测范围扩展到 S2S 时间尺度，在 S2S 时间尺度中，许多具有重大社会经济影响的过程往往会发生，包括极端事件。除了为完整的地球系统仿真提供 ERA5 之外的各种数据集之外，我们还对最先进的数据驱动和基于物理的模型进行广泛的基准测试。通过各种消融，我们系统地发现，可以通过集合预测、控制指数误差增长以及将物理知识纳入我们的建模方法来扩展技能。

未来工作：我们的输入数据集具有相对粗糙的时空分辨率，以匹配基于物理的 S2S 预测。尽管如此，我们还是将数据处理管道开源，允许用户轻松处理所需分辨率的输入（更多详细信息，请参阅第 B.4 节）。我们正在规划多源再分析产品（例如 MERRA-2 [49]），利用不同的数据集优势，例如不同观测集的同化。一如既往，我们欢迎开源社区为解决这个重要但尚未得到充分研究的问题做出任何贡献。任何评论、反馈和/或未来的功能请求都可以直接发送给相应的作者或通过 Github 问题跟踪器 https://github.com/leap-stc/ChaosBench。

思考

文章针对的问题是天气预测，一个具有高现实价值的任务。论文捕捉到次季节到季节尺度上其他数据驱动benchmark的不足，并根据这些不足做出改进和补全，完善了对次季节到季节尺度上天气预测的benchmark，具有一定的现实意义。除此之外，实验的完整和论文的写作也非常加分。这些都是值得我认真学习的。

http://mp.weixin.qq.com/s?__biz=MzkxODQ0MTQzMg==&mid=2247489893&idx=1&sn=481c9efff6591b7d1fab536380467c70

EvoIGroup

Evolutionary Intelligence (EvoI) Group。主要介绍进化智能在网络科学，机器学习，优化和实际（工业）应用上的研究进展。欢迎投稿推文等。联系方式：evoIgroup@163.com。

最新文章

ICLR2025与演化计算

[论文分享]NeurIPS 2024 用于时间序列预测的检索增强扩散模型

本周进化领域文章更新

[论文分享] ICML 2024 一种解决无监督组合优化中普遍条件：基数约束、最小值、覆盖等的方法

[论文分享]NIPS 2024 CycleNet：通过对周期性模式建模增强时间序列预测

[论文分享]NeurIPS 2024 TIME-FFM：面向基于语言模型的联邦基础模型的时间序列预测

本周进化领域文章更新

[论文分享]IEEE TEVC 2023 穷尽式符号回归

[论文分享]NeurIPS 2023 ICPI：语言模型可以实现强化学习领域内的策略迭代

本周进化领域文章更新

[论文分享]IEEE TEVC 2024 基于自回归学习的自动化元启发式算法设计

[论文分享]NIPS 2024 Oral ChaosBench：多通道、基于物理的次季节-季节气候预测benchmark

[论文分享]ICCAD 2024 基于边的可微分OPC

本周进化领域文章更新

[论文分享]ICML 2024 Leddam: 具有序列间依赖性和序列内变化建模的可学习时间序列分解

[论文分享]Arxiv速递 TSI-Bench: 时间序列填补基准测试

[项目成果]PySDKit：信号分解算法的Python库

[论文分享]Arxiv 2024 Quiet-STaR: 语言模型可以学会先思考后回答

遗传算法的应用（来自2024诺贝尔化学奖得主David Baker）

本周进化领域文章更新

[成果分享]刘静教授团队研究成果入选机器学习顶级会议NeurIPS 2024

[论文分享]ICLR 2024 SNIP:桥接数学符号和数字领域与统一的预训练

[论文分享]TEVC 2024 一种多样性增强的三阶段框架用于约束多目标优化

本周进化领域文章更新

[论文分享]Arxiv 2024 PhaseEvo: 迈向统一的大型语言模型上下文提示优化

本周进化领域文章更新

[论文分享]ICLR 2024 ModernTCN：用于通用时间序列分析的现代纯卷积结构

[论文分享] ICML 2024 MVMoE: 基于混合专家模型的多任务车辆路径规划求解器

本周进化领域文章更新

[论文分享]ICML 2024 Timer：生成式预训练Transformer是大型时间序列模型

[论文分享]NeurIPS 2022 STaR：语言模型使用推理引导推理

[论文分享]ICLR 2024 DYVAL：大语言模型在推理任务中的动态评估

本周进化领域文章更新

[论文分享]Arxiv速递用于高效探索性景观分析的希尔伯特曲线邻域采样

[论文分享]ICLR 2023 MICN：用于长时间序列预测的多尺度局部和全局上下文建模

Nature正刊（演化深度持续学习）Loss of plasticity in deep continual learning

本周进化领域文章更新

[论文分享]AAAI 2024 高维偏微分方程解的可解释方法

[论文分享]ICML 2024 长期时间序列预测的损失整形约束

[论文分享]GECCO 2024 深度神经交叉：一种利用基因相关性的多亲本算子

本周进化领域文章更新

[论文分享] NeurIPS 2020 POMO：用于强化学习的多优化策略优化

[论文分享]Arxiv 2023 使用AlphaZero式的树形搜索指导LLM推理

本周进化领域文章更新

[论文分享]ESWA 2023 SAITS：基于自注意力的时间序列插补

WCCI2024最佳论文！

GECCO2024最佳论文出炉！

[论文分享]Arxiv2024 针对图神经网络后门攻击的鲁棒性启发防御

[论文分享] ICLR 2022 用于分布漂移时间序列准确预测的可逆实例标准化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉