AI天气模型学会大气动力学了吗?记得看到最后。
背景
为了探索未来气候变化趋势,科学家们开发了耦合模式(Coupled Model,可以模拟大气、海洋、陆地等多圈层的变化和耦合关系),观察其对我们假设的未来不同温室气体排放情况的响应,从而帮助我们模拟未来气候。
这类数值模式侧重对物理过程的数学表达,这种表达理论上具有普适性,与时间尺度和气候背景无关。例如,ECMWF开发的大气模式IFS,既可以作为模拟气候变化的耦合模式EC-Earth3的组件,又可以作为ECMWF天气预报模式的核心。
反向思考,AI天气预报模型是否也有这样的普适性?这个问题的答案可以直接反映盘古、GraphCast这样的AI模型是否真正学习了大气中的通用物理规律。
结果
ECMWF的一众研究员探索了这样一件事(arXiv:2409.18529):如果将耦合模式的未来模拟数据作为初始场,输入AI天气预报模型,将会观察到什么现象?
论文采用了三种AI模型:
Google GraphCast
华为盘古
ECMWF AIFS
并在三种初始场下评估模型:
ERA5的1955年再分析数据; ECMWF的2023年分析数据(全球平均气温较1955年上升1.4°C); IFS-FESOM(一个耦合模式)的2049年模拟数据(全球平均气温较1955年上升2.9°C)。
将每种情形下365天数据分别输入AI模型预报10天,并计算误差。2049年的预估数据尽管是模拟结果,但评估时仍将其作为真值。例如将IFS-FESOM的2049年某时刻模拟场输入AIFS,预报10天内的天气,并与对应时间的模拟数据比较,以此来评估AI模型在不同气候背景下的适应性。
全球平均
第一行是全球气温的RMSE,几家AI模型表现接近,且在1955年和2049年的表现也与2023年类似。本文主要结论“models trained for weather forecasting in present-day climate produce skillful forecasts across different climate states”,基本来源于此。
第二行是重点,展示了全球气温的平均偏差(bias)。AIFS(红色线)的偏差最符合预期:在更冷的1955年预报逐渐偏暖,而在更热的2049年逐渐偏冷。换句话说,模型似乎学到了某种气候态,导致无论初始场如何,模型都会向着它训练时熟悉的数据分布前进。这显然某种程度上否定了AI学习到了一般物理规律的假设。
GraphCast(蓝色线)的偏差与AIFS类似,区别在于2049年,GraphCast先略偏冷接着回调,这并不是个好消息,稍后会谈到这一点。盘古的曲线最为诡异,在三个情景下均显示出偏冷的趋势。
论文没有深入讨论的一点是,当偏差增加时,1955年的RMSE有相应幅度的增长(如10天的RMSE相比2023年增加了0.5°C左右),而2049年在偏差更大的情况下RMSE却与2023年持平。个人猜测这是由于2049年的数据来自数值模拟,而AI模型似乎更贴近数值模拟数据(个人工作经验)。这几个模型都基于以IFS为核心的ERA5或EC分析场训练,很可能可以充当优质的“IFS模拟器”的角色。
一个进一步的猜测是,当用同化了观测的(再)分析场训练AI模型时,它们可能更擅长学习其中属于“背景场”(来自数值预报)的部分。不知是否有人评估过这些AI模型与HRES等数值预报的差异?AI到底是天气模拟器,还是模式模拟器?这会是个有趣的问题。
空间分布
本文最精彩的部分来了。先解释下面这张图:右下角图d是2023年全球平均气温(分析)减去2049年全球平均气温(模拟),不意外的是,全球大部为负值,意味着根据预估,全球气温将在未来明显上升。具体的分布模态不再赘述。而图a-c分别是三个AI模型2049年第10天预报较对应模拟数据的偏差(取365天平均)。
先看陆地。三个模型在陆地的偏差分布与气候变化引起的温度变化高度相关,即2049年,在陆地上气温相比2023年提升显著的区域,AI模型会仅仅10天预报中就将气温调回近年(训练期)的水平。
海洋上,三个AI模型体现了较大差异,AIFS表现最佳,很好地保持了近海面气温的水平;GraphCast在热带海洋反向变化,温度竟然偏暖——这也导致它在前一张图右下角中呈现全球偏差随预报时间回收的表象。盘古在海洋上空仍然偏冷,导致其全球平均气温的冷偏差最显著。
问题来了,到底是什么机制导致AI模型“记住”了当前的气候态?论文中作者简略提及一个例子:在威德尔海域(大西洋最南端,南极北缘),AI模型都呈现显著冷偏差,这是由于在气候预估中,这一片海冰融化,2米气温也因此显著上升,而单纯的大气模型无法对此变化建模。这个理由有些流于表面,因为天气尺度的预报与海冰关系不大,海冰的变化引起的气候变迁已经体现在初始场中。
一个更深入的猜测是,AI模型通过位置编码等形式,学习了下垫面等因素强迫下的大气分布形态。也就是说,尽管AI模型完全训练自大气场,但可能仍学会了一些“超纲”的内容,即背后其他圈层导致的大气特征。这种强大的学习能力可能反而束缚了AI模型对不同气候背景的泛化性。
相关研究
一个相关的研究来自德国AWI(arXiv:2406.17977),尝试用盘古作为大气的降尺度工具。这里只介绍其中一项试验。他们对ERA5作高斯平滑,并作为盘古的初始场:
上图可以看出,随着σ增大,分布逐渐平滑(顺便说一句,科学家们丢到arXiv上的论文有点太不走心了,经纬度都没有标,从分布看图中是欧亚非的某个区域)。然而,将他们输入盘古,仅仅1天后的预报即如下图所示:
盘古在输入丢失如此多细节的情况下,居然像模像样重组出了气温空间分布的细节!这个着实令人吃惊的结果验证了我们之前的猜测:AI模型并不仅仅通过大气动力学来指导天气演化,必然还编码了一些神秘知识——也许是比如陆面、地形对大气的反馈。
当然,这篇论文因此得出的结论更神奇:用高分辨率数据训练出的AI预报模型,居然成为了一个开箱即用的降尺度工具。这在AI领域可称为“zero-shot”,因为这些模型本不是为了降尺度而训练的。
无厘头小试验
我们自己动手做点试验看看盘古对输入的敏感度。我们家有只猫叫“多鱼”(确实有点多余),把它的照片转换成1440×721的灰度图(0-255):
然后假设它控制了全球大气,所有变量在所有高度的分布都运转成自己的照片。将它输入盘古,并以6小时为间隔运行一周,看看结果。以下是自回归1、8、12、28步(6小时、2天、3天、7天后)的2m气温预报:
观察到几个有趣的现象:
数值上,2m气温在一周内逐步调整到合理区间。 2天后,仍能大致看到猫,右上角圆桌的轮廓也仍然存在,但7天后基本已经看不出原图形状。 陆地上的2m气温迅速受地形影响而调整。比如,仅仅2天后,青藏高原区域(猫后腿)已经有显著的高海拔低温区。南极海冰上空也迅速降温。 与陆地相反,海洋上空的温度到7天后也没有体现出显著的纬度分层,如北冰洋的温度仍然偏高。 可能由于Swin Transformer结构的影响,patch的界限越来越明显。
看起来,我们能得出以下几点猜测:
盘古在自回归多次后,“模糊”效果不仅消弭了中小尺度的过程,还将数值本身带往平均态。 soil_type
和topography
这两个输入看起来在盘古中起到了关键作用。如前所述,这是某种静态的“外强迫”,但没有充分与大气互动,却让模型逐渐忽略初始场。
这两点均验证了前文的结论。需要说明的是,这是个很不严谨的试验——输入数据并没有经过标准化,因而猫也只是个噱头,我们还可以尝试输入零、随机数,或将图片标准化到各变量在各高度层的数值水平。另外,如果观察高空环流,会有更有趣的发现,待后续分享。
结语
读书时,我最害怕研读的是数值模式研发类的论文,艰涩难懂。而AI方向的模式研发和评估将格调直接打回解放前,以至于ECMWF也开始浅尝辄止起来,跑几个模型,画几张图,配合“We hypothesize that”,一篇论文就诞生了。
大致可以认为,数值模式的研发是自上而下的:先研究原理,再逐步实现到模式中;而AI模型的研发是自下而上的,先把数据和参数堆上去,然后琢磨这玩意是怎么运作的。这倒也是个机遇:如果你有一些好点子去探索这些AI模型,也许做实验、写论文的时间不会超过研究如何把Latex文件编译上传到arXiv上的时间。