天气和气候的神经环流模型 | Neural general circulation models for weather and climate
Dmitrii Kochkov1,6 ✉, Janni Yuval1,6 ✉, Ian Langmore1,6, Peter Norgaard1,6, Jamie Smith1,6, Griffin Mooers1, Milan Klöwer2, James Lottes1, Stephan Rasp1, Peter Düben3, Sam Hatfield3, Peter Battaglia4, Alvaro Sanchez-Gonzalez4, Matthew Willson4, Michael P. Brenner1,5 & Stephan Hoyer1,6 ✉
摘要:通用环流模型(GCMs)是天气和气候预测的基础。GCMs是基于物理的模拟器,它们结合了用于大尺度动力学的数值求解器和用于小尺度过程(如云形成)的调节表示。最近,训练于再分析数据的机器学习模型在确定性天气预报方面已达到或超过了GCMs的技能。然而,这些模型尚未显示出改进的集合预报或在长期天气和气候模拟中的足够稳定性。本文介绍了一种结合用于大气动力学的可微分求解器和机器学习组件的GCM,并展示了它可以生成与最好的机器学习和基于物理的方法相媲美的确定性天气、集合天气和气候预报。NeuralGCM在1到10天的预报中与机器学习模型具有竞争力,在1到15天的预报中与欧洲中期天气预报中心的集合预报具有竞争力。通过规定的海表温度,NeuralGCM可以准确地跟踪多年的气候指标,并且140公里分辨率的气候预报显示出现了现实的热带气旋频率和轨迹。对于天气和气候,我们的方法提供了比传统GCM大几个数量级的计算节省,尽管我们的模型不能推断到显著不同的未来气候。我们的结果表明,端到端深度学习与传统GCM执行的任务兼容,并且可以增强对理解和预测地球系统至关重要的大尺度物理模拟。
1. 引言
解决地球大气的方程使用通用环流模型(GCMs)是天气和气候预测的基础。70年来,GCMs通过改进的数值方法和更详细的物理模型不断改进,同时利用更快的计算机在更高的分辨率下运行。在GCMs中,未解决的物理过程如云、辐射和降水通过半经验参数化表示。调整GCMs以匹配历史数据仍然是一个手动过程,GCMs保留了许多持久的错误和偏差。减少长期气候预测不确定性和估计极端天气事件的分布的困难对气候缓解和适应提出了重大挑战。
机器学习的最新进展为天气预报提供了一种替代方法。这些模型完全依赖于机器学习技术,使用约40年的欧洲中期天气预报中心(ECMWF)再分析v5(ERA5)历史数据进行模型训练和预报初始化。机器学习方法在1到10天的天气预报方面表现出了惊人的成功,以传统模型的一小部分计算成本实现了最先进的确定性预报。机器学习大气模型还需要显著更少的代码,例如GraphCast有5,417行,而国家海洋和大气管理局的FV3大气模型有376,578行(详细信息见补充信息部分A)。
然而,与GCMs相比,机器学习方法存在显著的局限性。现有的机器学习模型集中于确定性预测,在其训练的聚合指标方面超过了确定性数值天气预报。然而,它们没有产生校准的不确定性估计,这对于有用的天气预报至关重要。使用均方误差损失的确定性机器学习模型通过在不确定性上取平均值来获得奖励,当优化多天预报时产生不现实的模糊预测。与物理模型不同,机器学习模型误导了派生(诊断)变量,如地转风。此外,尽管在更长时间尺度上使用机器学习方法取得了一些成功,但这些模型尚未显示出能够超过现有GCMs的能力。
结合GCMs和机器学习的混合模型很有吸引力,因为它们建立在传统大气模型的可解释性、可扩展性和成功记录的基础上。在混合模型方法中,机器学习组件替代或校正了GCM的传统物理参数化。到目前为止,这种模型中的机器学习组件已“离线”训练,通过独立于动力学相互作用学习参数化。然后将这些组件插入现有的GCM中。训练期间机器学习组件与控制方程之间缺乏耦合可能会导致严重问题,如不稳定性和气候漂移。到目前为止,混合模型大多仅限于理想化的情景,如水星。在现实条件下,机器学习校正减少了一些非常粗糙GCMs的偏差,但性能仍远远不如最先进的模型。
本文介绍了NeuralGCM,这是一种地球大气的完全可微分混合GCM。NeuralGCM在ERA5中抽样的长达5天的天气轨迹上进行训练。可微性使得端到端“在线训练”成为可能,在大尺度动力学控制方程的相互作用上下优化机器学习组件,我们发现这使得预报准确且稳定。NeuralGCM生成的物理一致预报在从1天到15天的天气到十年气候预测的各个时间尺度上与最先进模型相当。
2. NeuralGCMs
NeuralGCM的示意图如图1所示。NeuralGCM的两个关键组件是可微的动力核心,用于求解离散化的控制动力方程,和一个学习的物理模块,该模块使用神经网络参数化物理过程,详见方法部分、补充信息部分B和C及补充表1。动力核心模拟在重力和科里奥利力影响下的大尺度流体运动和热力学。学习的物理模块(补充图1)使用神经网络预测未解决过程(如云形成、辐射传输、降水和次网格尺度动力学)对模拟场的影响。
NeuralGCM中的可微动力核心允许端到端训练方法,通过在多个时间步后使用随机梯度下降来最小化模型预测与再分析之间的差异(补充信息部分G.2)。我们逐渐增加回放长度从6小时到5天(补充信息部分G和补充表5),我们发现这至关重要,因为我们的模型在早期训练中在多天预测或长时间回放方面不准确或不稳定。通过数百次模拟步的扩展反向传播使得我们的神经网络能够考虑学习的物理与动力核心之间的相互作用。我们训练确定性和随机NeuralGCM模型,每个使用不同的训练协议,详见方法部分和补充表4。
我们在水平分辨率为2.8°、1.4°和0.7°的网格间距下训练了一系列NeuralGCM模型(补充图7)。我们在适用于天气预报和气候模拟的时间尺度范围内评估NeuralGCM的性能。对于天气,我们与最先进的传统基于物理的天气模型、ECMWF的高分辨率模型(ECMWF-HRES)和集合预报系统(ECMWF-ENS)以及最近的两个基于机器学习的方法GraphCast和Pangu进行比较。对于气候,我们与全球云解析模型和大气模型比较项目(AMIP)运行进行比较。
3. 中期天气预报
我们的评估设置集中于量化准确性和物理一致性,遵循WeatherBench2。我们使用保守再网格化将所有预报重新网格化到1.5°网格,并平均所有732个预报,这些预报在2020年的中午和午夜UTC进行,对于所有机器学习模型都是保留的训练数据集。NeuralGCM、GraphCast和Pangu与ERA5作为真实值进行比较,而ECMWF-ENS和ECMWF-HRES与ECMWF操作分析进行比较,以避免对操作预报进行不同于ERA5的偏差的惩罚。
模型准确性
我们使用ECMWF的集合(ENS)模型作为参考基线,因为它在大多数引导时间上都取得了最佳性能。我们使用以下评估指标来评估准确性:(1)均方根误差(RMSE),(2)均方根偏差(RMSB),(3)连续等级概率评分(CRPS)和(4)扩展技能比,结果如图2所示。我们提供了更深入的评估,包括记分卡、其他变量和
水平的指标以及地图在扩展数据图1和2,补充信息部分H和补充图9-22中。
对于给定初始条件产生单一天气预报的确定性模型,可以有效地使用短期引导时间的RMSE技能进行比较。对于前1到3天,取决于大气变量,通过准确跟踪天气模式演变最小化RMSE。在这个时间尺度上,我们发现NeuralGCM-0.7°和GraphCast取得了最佳结果,不同变量之间略有变化(图2a)。在更长的引导时间内,由于附近天气轨迹的混沌发散,RMSE迅速增加,使得RMSE对确定性模型的信息量减少。RMSB计算了随时间的持久误差,这提供了模型在更长引导时间上的表现指示。这里NeuralGCM模型也与先前的方法相比有利(图2c),特别是对热带特定湿度的偏差明显减少(图2d)。
集合对捕捉天气预报的不确定性本质尤其在更长的引导时间上至关重要。在大约7天之后,ECMWF-ENS和NeuralGCM-ENS预报的集合均值具有显著较低的RMSE,表明这些模型更好地捕捉了可能天气的平均值。对集合模型更好的指标是CRPS,这是一种对全边际概率分布敏感的适当评分规则。我们的随机模型(NeuralGCM-ENS)在1.4°分辨率下运行,在几乎所有变量、引导时间和垂直层上,集合均值RMSE、RSMB和CRPS相较于ECMWF-ENS具有较低的误差(图2a,c,e和补充信息部分H),具有相似的技能空间模式(图2b,f)。像ECMWF-ENS一样,NeuralGCM-ENS的扩展技能比大约为1(图2d),这是校准预报的必要条件。
案例研究
预报的一个重要特征是它们与现实天气模式的相似性。图3展示了一个案例研究,说明了NeuralGCM在三种重要天气现象上的表现:热带气旋、大气河流和热带辐合带。图3a显示,与来源数据ERA5和基于物理的ECMWF-HRES预报相比,所有机器学习模型都显著模糊,但NeuralCGM-0.7°在0.7°的较粗分辨率下仍优于纯机器学习模型(GraphCast和Pangu的分辨率为0.25°)。模糊预报对应于物理不一致的大气条件,并误导极端天气。类似趋势适用于其他气象感兴趣的派生变量(补充信息部分H.2)。从NeuralGCM和ECMWF的集合均值预报在平均意义上更接近ERA5,因此在长引导时间内本质上是平滑的。相比之下,正如图3和补充信息部分H.3所示,ECMWF和NeuralGCM集合中的个别实现即使在长引导时间内仍然清晰。像ECMWF-ENS一样,NeuralGCM-ENS为每种天气现象生成了统计上代表性的一系列未来天气情景,尽管其分辨率为1.4°,比ECMWF的0.2°分辨率粗八倍。
光谱
我们可以通过预测模型的功率谱量化不同预报模型的模糊程度。补充图17和18显示,NeuralCGM-0.7°的功率谱始终比其他机器学习预报方法更接近ERA5,但仍比ECMWF的物理预报模糊。NeuralGCM预报的谱在整个预测期间大致恒定,与GraphCast的随引导时间恶化形成鲜明对比。NeuralGCM的谱随着分辨率的增加变得更准确(补充图22),这表明通过在更高分辨率下训练NeuralGCM模型还有进一步改进的潜力。
水分收支
在NeuralGCM中,平流由动力核心处理,而机器学习参数化模型局部过程在大气的垂直列中。因此,与纯机器学习方法不同,可以从水平传输和其他解决的动力学倾向中隔离局部源和汇(补充图3)。这使得我们的结果更具可解释性,并促进了水分收支的诊断。具体来说,我们诊断降水减去蒸发(补充信息部分H.5),而不是像机器学习方法直接预测这些。
对于短期天气预报,降水减去蒸发的平均值具有接近ERA5数据的现实空间分布(扩展数据图4c-e)。NeuralGCM-0.7°的降水减去蒸发率分布在副热带地区与ERA5分布密切匹配(扩展数据图4b),尽管在热带地区低估了极端事件(扩展数据图4a)。需要注意的是,当前版本的NeuralGCM直接预测大气柱的倾向,因此不能区分降水和蒸发。
地转风平衡
我们检查了NeuralGCM、GraphCast和ECMWF-HRES捕捉地转风平衡的程度,这是驱动中纬度大尺度动力的主要力之间的近平衡。最近的一项研究指出,Pangu错误表示了地转风和非地转风的垂直结构,并指出引导时间越长,误差越大。同样,我们观察到GraphCast显示的误差随引导时间增加而恶化。相比之下,NeuralGCM更准确地描绘了地转风和非地转风的垂直结构及其比例,与ERA5数据相比,特别是在不同回放期间。尽管如此,ECMWF-HRES仍比NeuralGCM与ERA5数据对齐更好。在NeuralGCM中,地转风的垂直结构表示在最初几天仅略有退化,之后没有明显变化,特别是在第5天之后。
泛化到未见数据
物理一致的天气模型在未训练的天气条件下仍应表现良好。我们预计NeuralGCM比仅使用机器学习的大气模型泛化能力更强,因为NeuralGCM使用在空间上局部作用于大气单个垂直柱的神经网络。为探索这一假设,我们比较了训练到2017年的NeuralCGM-0.7°和GraphCast版本在训练期(2018-2022)之外的5年天气预报(补充图36)。与GraphCast不同,NeuralGCM在从训练数据初始化的未来进一步增加错误时没有显示出明显的趋势。为延长这一测试到5年以上,我们使用2000年前的数据训练了一个NeuralGCM-2.8°模型,并在21年未见的年份中测试其技能(补充图35)。
4. 气候模拟
尽管我们的确定性NeuralGCM模型经过训练以预测未来3天的天气,但它们通常能够模拟超越中期天气时间尺度的大气。对于扩展气候模拟,我们规定了历史海表温度(SST)和海冰浓度。这些模拟在从几个月到几十年的时间尺度上显示出许多大气的现象。
对于NeuralGCM的气候模拟,我们使用2.8°和1.4°的确定性模型,这些模型相对便宜,并允许我们探索更大的参数空间以找到稳定的模型。以前的研究发现,使用混合模型进行扩展模拟具有挑战性,因为数值不稳定和气候漂移。为量化我们选择模型的稳定性,我们运行多个初始条件,并报告其中完成没有不稳定性的数量。
季节循环和出现的现象
为评估NeuralGCM模拟季节循环各方面的能力,我们使用NeuralGCM-1.4°进行2年的模拟。我们从2019年间隔每10天设置的37个初始条件中选择了35个成功完成了完整2年的模拟而没有不稳定;关于不稳定的案例研究,见补充信息部分H.7和补充图26和27。我们将NeuralGCM-1.4°在2020年的结果与ERA5数据和X-SHiELD全球云解析模型的输出进行比较,后者耦合了一个向再分析倾向的海洋模型。这个X-SHiELD运行已用作训练机器学习气候模型的目标。为比较,我们在1.4°分辨率下重新网格化模型后进行评估。这个比较略有利于NeuralGCM,因为NeuralGCM被调整以匹配ERA5,但ERA5与实际大气之间的差异相对于模型误差较小。
图4a显示了2020年NeuralGCM的35个模拟的全球平均温度的时间变化,与ERA5再分析和标准气
候基准进行比较。NeuralGCM的全球平均温度的季节性和变化性与ERA5中观察到的数量相似。NeuralGCM的集合平均温度RMSE在与ERA5基准时为0.16 K,相较于气候的RMSE为0.45 K显著改善。我们发现NeuralGCM准确模拟了季节循环,证据如全球可降水量(补充图30a)和全球总动能(补充图30b)的年度循环。此外,模型捕捉了大气的基本动力学,包括哈德利环流和纬向平均纬向风(补充图28),以及不同季节的涡动能空间模式(补充图31),以及季风环流的显著季节行为(补充图29;更多细节见补充信息部分I.1)。
接下来,我们比较了NeuralGCM单一实现与X-SHiELD单一实现(唯一可用)的年度偏差,后者在2019年10月中旬初始化。我们考虑了2020年1月19日至2021年1月17日的时间段,这是X-SHiELD数据可用的时间框架。全球云解析模型如X-SHiELD,特别是模拟水文循环的分辨率被认为是最先进的。NeuralGCM的可降水量年度偏差(RMSE为1.09 mm)显著小于X-SHiELD(RMSE为1.74 mm)和气候(RMSE为1.36 mm)的偏差。此外,NeuralGCM在上对流层和下对流层的温度偏差低于X-SHiELD(扩展数据图6)。我们还间接比较了X-SHiELD的降水偏差与NeuralGCM-1.4°的降水减去蒸发偏差,后者显示NeuralGCM略大偏差和网格尺度伪影(扩展数据图5)。
最后,为评估NeuralGCM在年度模型集成中生成热带气旋的能力,我们使用热带气旋追踪器TempestExtremes,如补充信息部分I.2,补充图34和补充表6所述。图4e-g显示,即使在1.4°的粗分辨率下,NeuralGCM也生成了现实的热带气旋轨迹和数量(对应时期ERA5为83个气旋,而X-SHiELD为40个)。关于热带气旋的附加统计分析见扩展数据图7和8。
十年模拟
为评估NeuralGCM模拟历史温度趋势的能力,我们进行了40年的AMIP模拟。我们从1980年间隔每10天设置的37个初始条件中选择了22个在整个40年期间稳定的模拟,并对这些结果进行分析。我们与22次规定SST的CMIP6模拟进行比较,列表见补充信息部分I.3。
我们发现NeuralGCM的所有40年模拟以及22次AMIP模拟的平均值准确捕捉了ERA5数据中观察到的全球变暖趋势。与ERA5数据的年度温度趋势之间有很强的相关性,表明NeuralGCM有效捕捉了SST强迫对气候的影响。当比较1981-2014年的平均空间偏差时,我们发现NeuralGCM-2.8°的所有22次运行的偏差都小于CMIP6 AMIP运行,即使在去除CMIP6 AMIP运行中的全球温度偏差时这一结果仍然存在(图4c和补充图32和33)。
接下来,我们调查了热带变暖趋势的垂直结构,气候模型通常高估上对流层的趋势。如图4d所示,通过线性回归计算的趋势,NeuralGCM的趋势比AMIP运行更接近ERA5。特别是在上对流层的偏差减少。然而,NeuralGCM在预测中的传播比AMIP运行更广,即使在温度通常受规定SST约束更严格的近地表水平上也是如此。
最后,我们通过进行SST增加的AMIP模拟评估NeuralGCM泛化到未见的更暖气候的能力(补充信息部分I.4.2)。我们发现NeuralGCM对适度SST增加(+1 K和+2 K)的气候变暖反应显示了一些稳健特征;然而,对于更大SST增加(+4 K),NeuralGCM的反应偏离了预期。此外,SST增加的AMIP模拟显示气候漂移,强调了NeuralGCM在这一背景下的局限性(补充图38)。
5. 讨论
NeuralGCM是一种结合传统GCM优势和机器学习的天气预报和气候模拟的可微混合大气模型。据我们所知,NeuralGCM是第一个能够生成准确集合天气预报的基于机器学习的模型,其CRPS优于最先进的基于物理的模型。它也是第一个实现与全球云解析模型相当的空间偏差、能够模拟现实的热带气旋轨迹并能够进行AMIP模拟并显示出现实的历史温度趋势的混合模型。总体而言,NeuralGCM表明结合机器学习是一种改进GCM的可行替代方法。
与具有相似技能的传统GCM相比,NeuralGCM在计算效率和低复杂性方面具有优势。NeuralGCM以比ECMWF集成预报系统和全球云解析模型低8到40倍的水平分辨率运行,节省了3到5个数量级的计算资源。例如,NeuralGCM-1.4°在24小时内使用单个张量处理单元模拟了70,000个模拟天数,而X-SHiELD在13,824个中央处理单元核心上仅模拟了19个模拟天数。可以利用这一点来进行以前不可能完成的大型集合预报。NeuralGCM的动力核心使用全局谱方法,学习的物理通过在单个垂直列上作用的全连接神经网络进行参数化。存在实质性的余地,可以使用高级数值方法和机器学习架构追求更高的准确性。
我们的结果为有争议的假设提供了强有力的证据,即学习预测短期天气是调整气候参数化的一种有效方式。训练在72小时预报上的NeuralGCM模型能够进行现实的多年模拟。当提供历史SST时,它们捕捉了诸如季节性环流、季风和热带气旋等基本大气动力。然而,我们可能需要替代的训练策略,以学习对气候有重要但对天气时间尺度影响微妙的过程,如云反馈。
NeuralGCM的方法与结合更多物理或更多机器学习兼容,如需要进行操作天气预报和气候模拟。对于天气预报,我们预计使用观测数据进行端到端学习将允许更好和更相关的预测,包括降水等关键变量。这些模型可以包括作为传统数据同化和模型诊断校正的神经网络。对于气候预测,NeuralGCM需要重新表述以实现与其他地球系统组件(例如海洋和陆地)的耦合,并整合大气化学成分(例如温室气体和气溶胶)的数据。当前基于机器学习的气候模型也面临研究挑战,包括模拟前所未有气候(即泛化)、遵守物理约束和解决数值不稳定性和气候漂移的能力。NeuralGCM结合物理模型(例如辐射)的灵活性提供了解决这些挑战的有希望的途径。
基于物理定律和经验关系的模型在科学中无处不在。我们相信NeuralGCM的可微混合建模方法具有改变包括材料发现、蛋白质折叠和多物理工程设计在内的广泛应用的潜力。