顶刊!IF=44.8,机器学习在气候物理学中的应用
气候科学已经因计算能力的指数级增长而发生了革命性的变化,这使得对气候系统进行更复杂、更高分辨率的模拟成为可能,并且自第一颗气象卫星发射以来,观测数据也呈指数级增长。大数据和相关算法,在机器学习(ML)领域下汇聚,提供了以前所未有的方式和细节研究气候系统的物理学的机会。此外,ML可以提出因果问题,以确定一个或多个变量是否引起或影响一个或多个结果,并提高超越经典限制的预测技能。而且,当ML与模型实验或模型参数化的稳健研究相结合时,可以加速计算,提高准确性,并以传统系统计算成本的一小部分生成非常大的集合。在这篇综述中,我们概述了ML在气候物理学中的成就。我们讨论了ML如何被用来解决观测数据重建、次网格尺度现象的表示以及气候(和天气)预测等长期存在的问题。最后,我们考虑了利用ML研究复杂系统的益处和主要挑战。
作者和单位信息
Annalisa Bracco: 佐治亚理工学院地球与大气科学学院,亚特兰大,美国 Julien Brajard: Nansen环境与遥感中心(NERSC),卑尔根,挪威 Henk A. Dijkstra: 乌特勒支大学海洋与大气研究所,乌特勒支,荷兰 Pedram Hassanzadeh: 芝加哥大学地球物理科学系及计算与应用数学委员会,芝加哥,美国 Christian Lessig: 欧洲中期天气预报中心(ECMWF),波恩,德国 Claire Monteleoni: 法国国家信息与自动化研究所(INRIA),巴黎,法国;科罗拉多大学波尔德分校计算机科学系,波尔德,美国 Bracco, A., Brajard, J., Dijkstra, H.A. et al. Machine learning for the physics of climate. Nat Rev Phys (2024). https://doi.org/10.1038/s42254-024-00776-3IF: 44.8 Q1
关键点:
气候物理学中机器学习的进步已经扩展了观测数据记录的时间、空间和可观测性,使它们更长、更全球性、更完整。 利用机器学习从数据或高分辨率模拟中学习参数化的创新方法可以促进混合模型的发展,这些模型将能够提供更详细、物理上一致的气候系统模拟。 机器学习的使用已经使得从天气到年际尺度现象(如厄尔尼诺南方涛动)的预测中的经典可预测性障碍被打破,在使用少得多的计算资源的情况下,实现了更长预测时间的更高预测技能。
机器学习在气候物理学中的应用
本文综述了机器学习(ML)在气候物理学中的应用,探讨了ML如何革命性地改变了气候科学,特别是在数据处理、模型参数化和气候预测方面。以下是对文章的详细解读:
引言
气候通常被定义为多年平均的天气状况。在未来几十年中,准确预测气候系统的变化将成为科学界的一个关键优先事项。社会需要详细的区域性未来天气和气候极端事件的预测;对达到气候临界点的可能性的受限估计;对自然和工程解决方案对气候挑战的影响评估;以及与减排和大规模采用碳移除技术相关的不确定性、风险和经济及社会影响的估计,以更好地通知缓解和适应策略。然而,气候系统是一个多尺度和高维系统,涉及许多相互耦合的自由度,因此观察或模拟气候系统的演变是困难的。机器学习(ML)通过围绕三个主题的应用帮助克服这一挑战:扩展或更好地解释观测;推进小尺度过程(如湍流运动)的参数化发展;以及加速或改进多尺度预测。
机器学习在数据重建中的应用
观测气候系统是理解气候物理学和模拟气候变化的关键,通过监测关键气候变量(如温度或降水)来实现。然而,观测数据在空间、时间或尺度上往往是不完整的,因此需要重建工作将不完整的数据转化为相应的完整数据集。ML在重建方面的应用带来了许多进展,包括能够放宽传统重建方法的约束,如线性和高斯性;获得有效的生成技术,以传统方法的一小部分计算成本产生大量的实现集合;以及推导出尚未直接观测到的新物理量的可能性。
ML在重建中的应用主要分为三类:空间重建(空间插值)、时间重建(时间插值)和尺度重建(下尺度或超分辨率)。这些方法在气候物理学中的应用包括海面高度、海冰厚度和海洋表面温度等数据的重建。ML技术在这些领域的应用已经显示出比传统方法更高的准确性和鲁棒性。
数据驱动的次网格尺度参数化
气候科学的进展已经到了一个阶段,即基于气候模型输出的全球气候未来演变的定量预测已经成为常态,但这些预测仍然存在不确定性。气候系统的多尺度性质意味着模型必须正确表示许多动态过程和相互作用机制,其中一些发生在非常小的尺度上。由于对非常小尺度上发生的过程的理解不完整,以及计算资源有限,许多这样的过程(以下简称次网格尺度,SGS)在影响解析尺度方面被近似或参数化。
ML可以通过两种方式改善SGS参数化:一是利用ML和数据改善基于物理的参数化的参数估计;二是当参数化存在结构不确定性时(例如,使用了错误的方程),ML可以从数据中学习解析和SGS过程之间关系的全部函数形式。这些过程可以离线或在线完成。离线方法类似于监督学习,SGS参数化在与气候模型脱钩的情况下开发并在训练后耦合。在线学习方法则在参数化与气候模型耦合的同时进行,损失函数通常是真实气候与模拟气候之间的轨迹(或某些统计量)的不匹配。
数据驱动的预测和预报
预测气候系统的未来演变是气候科学的中心任务。气候预测是一个边界值问题,因此模型必须对约束长期气候演变的条件如何演变做出假设,例如估计未来的温室气体排放。天气预测则是一个初始值问题,主要依赖于对当前天气系统状态的准确知识。在这两种情况下,通过集合运行来量化不确定性,从而减少预测或预报的泛化误差。
ML已经提高了预测和预报能力,超越了传统认为的可预测性障碍。特别是在短期和中期(约14天)的进展尤为迅速,预计这些进展将扩展到年度、十年度和更长时间的气候时间尺度。ML模型在天气预测中的应用已经显示出比传统模型更好的预测技能,尤其是在低计算成本的情况下。
展望
ML为解决广泛的气候科学问题提供了新的方法。随着ML技术的快速发展和对气候科学投资的增加,这些发展有望在未来几年加速。ML技术已经打破了气候预测中的长期可预测性障碍;为发现气候系统组成部分的方程提供了新的动力;并通过混合模型或模拟器彻底改变了天气预报,这些模型或模拟器与传统模型一样好或更好,但计算成本只有传统模型的一小部分。
ML在气候系统建模中面临的一个关键挑战是数据的缺乏。对于气候系统,我们只有不到50年的密集观测数据(卫星时代),这些观测数据强烈偏向于大气和海洋表面,是时空相关的,并且属于单一实现。这种数据稀缺限制了ML模型在重建和同化应用中的泛化能力,但特定的局部重建工作已经显示出非常好的表现。数据的有限可用性也阻碍了传统和ML方法对气候系统的建模,传统模型依赖于观测数据来调整参数和参数化,以及进行验证。因此,我们建议ML方法与传统模型一样进行验证:在将模型输出与单一观测到的气候实现进行比较后,还必须使用考虑守恒定律和物理一致性的其他诊断方法。
为了解决数据不足的问题,有几个有希望的方法。首先,开发混合模型,其中保留传统组件,并通过ML组件进行改进或补充,例如数据驱动的参数化。其次,开发至少部分依赖于气候模型模拟的模拟器。对于这两种方法,考虑将多少物理知识纳入ML算法是很重要的。在模拟器(如ACE)和基于数据的天气预报方面的工作表明,当有足够的数据时,可以学习系统的内在物理属性。目前尚不清楚这一发现是否适用于大多数物理属性,或者是否包括物理约束会改善结果。然而,这是一个令人兴奋的未来研究领域,因为大多数对称性和守恒属性仅针对气候系统的简化实现进行了验证。第三种解决数据不足的方法是开发全面的ML模型,这些模型结合了尽可能多的数据,例如全球和本地的再分析、模拟和观测,并允许各种数据源相互补充和校正。从方法论上讲,这种方法属于大规模表示学习的范畴,并且是天气的基础模型,可以扩展到气候。它可以提供一个任务独立的气候系统表示,可以适应从预测到过程理解的一系列任务。这方面的初步发展已经开始,预计在未来几年这些努力将成倍增加。一个主要的挑战仍然是存储所有模型模拟所需的数据,这些数据需要在ML最有用的时间和空间分辨率上。最后,第四个方向是利用和结合ML处理数据不平衡的常见方法,如重新采样、加权损失函数和罕见事件抽样的数学框架。
气候模拟器的开发引起了极大的兴趣,这些模拟器是基于传统气候模拟的输出进行训练的,建立在天气预报数值方法的快速进展之上。ML模拟器已经能够以传统方法的一小部分计算成本提供特定变量的稳定预测;然而,尚未开发出涵盖气候系统所有组成部分的ML模拟器。模拟器有望为气候科学带来许多好处。首先,它们比传统气候模型快几个数量级,因此可以进行更大的集合。其次,它们可以在不同气候变化情景的模拟之间或不同模型执行的模拟之间进行插值。第三,模拟器可以压缩模型输出并有效分发结果,允许在比传统气候模型模拟通常存储的更高空间和时间分辨率上重建状态信息。如果极高的分辨率模拟成为现实,这种压缩将至关重要,以实现无缝的天气到气候预测系统,或为决策提供气候数据,例如评估快速变化的能源基础设施的风险和经济影响,大规模部署的二氧化碳移除技术相关的气候反馈,或区域极端事件的变化。
已经有很多努力开发混合物理-ML模型。在这些混合模型中,传统模型组件确保了泛化能力和物理一致性,而ML组件可以减少模型偏差,并以较低的成本获得不确定性和长尾分布的表示。预计将继续在开发新的参数化算法方面取得进展,特别是那些代表整个气候子系统的参数化方法。复杂系统的一个关键挑战是表示高度非线性过程之间的相互作用。原则上,ML模型可以在高分辨率(准)解析模型数据或观测数据上进行训练,或两者兼而有之,全面学习整个子系统。然而,由于将神经网络与气候模型耦合的挑战以及考虑多个基于ML的参数化的相互作用,具有与当前气候模拟一样小或更小偏差的混合模型的出现一直较慢。新的NeuralGCM在这方面显示出了希望。
基于观测的气候预测系统也可能出现。在这种情况下,ML将被用来提取现有观测中的新模式,并探索在传统模型中表现不佳的反馈和动态。完全基于数据的方法对于生产再分析产品特别有用,这些产品尽管受到观测约束,但在很大程度上仍由预报模型决定,并且受到限制。训练有素的ML模型可以为发现和突破做出贡献;例如,基于ML的ENSO预测为气候系统中慢速和快速过程之间的关系提供了新的见解,揭示了物理行为。改进对ENSO等气候模式的理解将有助于将其演变置于上下文中。开发这些现象的数据驱动指数可以回答有关其过去、现在和未来的未解决问题,而因果ML可以指出不同时间滞后的距离异常模式之间的关系。解码这些信息将需要利用XAI的发展工具。
在气候学和物理学的许多领域一样,ML方法的可解释性和解释性缺乏是一个关键问题。我们认为,将ML的进步与采用现有的、经过充分测试的诊断和指标结合起来,将有助于建立对ML模型的信任。气候变化是无可争议的,其潜在后果在任何社会领域都受到关注,准确的气候预测是不可或缺的。气候物理学领域正处于深刻而迅速变化的早期阶段,ML有望为操作使用提供更低计算成本的预测,更可靠和更长期的预测,以及具有减少偏差和更好表示次网格尺度过程的改进模型模拟。
以上是对文章的详细解读,如有不当之处欢迎批评指出!也可以私信小编。