WEATHERGFM: 通过上下文学习来学习的通用型天气基础模型
作者和单位信息
本文的作者包括Xiangyu Zhao、Zhiwang Zhou、Wenlong Zhang、Yihao Liu、Xiangyu Chen、Junchao Gong、Hao Chen、Ben Fei、Shiqi Chen、Wanli Ouyang、Xiao-Ming Wu和Lei Bai,他们分别来自上海人工智能实验室、香港理工大学、上海交通大学和上海气象服务。通讯作者为Wenlong Zhang和Xiao-Ming Wu。
研究背景
地球的天气系统包含了复杂的天气数据模式和多样的天气理解任务,这些对于人类生活具有重要的价值。现有的数据驱动模型专注于单一的天气理解任务(例如,天气预报)。尽管这些模型取得了有希望的结果,但它们未能在一个单一且统一的模型中处理各种复杂的任务。此外,依赖有限的实时观测来处理单一场景的范式限制了模型性能的上限。为了应对这些限制,研究者从最新的视觉基础模型和大型语言模型中采用的上下文学习范式中汲取灵感。
研究意义
本文介绍了一款通用型天气基础模型(WeatherGFM),旨在统一处理广泛的天气理解任务。与以往专注于天气预报的研究不同,提出的方法可以将任务范围扩展到天气预报、天气超分辨率(即天气下尺度化)、天气图像翻译(即合成天气雷达)和后处理。这些任务都属于天气理解领域,但它们的模式是不同的。例如,序列模态数据可以用于天气预报,如基于雷达数据的短期预测。多模态数据可以用于天气图像翻译,如将多模态卫星数据转换为生成雷达数据。单模态数据可以应用于各种常见场景,如雷达图像超分辨率和后处理。
研究方法和数据
为了将多样化的天气数据模式统一到一个通用表示中,研究者引入了天气提示格式,为各种模态分配不同的提示短语。通过利用上下文学习,WeatherGFM在各种已见过的任务和未见过的任务上都取得了有希望的上下文能力。研究者使用SEVIR(Storm EVent ImageRy)数据集和POMINO-TROPOMI、GEOS-CF数据集进行实验,涵盖了包括天气预测、天气超分辨率、天气图像翻译和天气后处理在内的多达10个任务。
研究结论
WeatherGFM通过使用简单的ViT主干,展示了在十种天气理解任务中的出色性能和适应性。它不仅能够进行天气预报和超分辨率任务,还擅长处理天气图像翻译和后处理任务。总体而言,WeatherGFM在多种天气理解任务上取得了有希望的性能。
不足与讨论
尽管WeatherGFM在多个任务上表现出色,但在一些未见过的任务上,如多模态卫星空间超分辨率,模型的输出未能提供有效的气象信息。这些OOD(Out-of-Distribution)测试表明,模型能够通过新提示识别训练分布之外的任务,展示了一定程度的泛化能力。
未来工作方向
未来的研究可以探索如何进一步提高模型在未见过任务上的性能,以及如何扩展模型以处理更广泛的天气和气候数据模态。此外,研究者还可以探索如何利用更大的数据集和更复杂的模型架构来进一步提升WeatherGFM的性能。
文章中提到的SEVIR数据集具体包含哪些信息?
SEVIR数据集(Storm EVent ImageRy dataset)是一个用于天气事件的图像数据集,它包含了超过10,000个天气事件,这些事件由五个空间和时间上对齐的传感器所表示。这些传感器包括:
三个来自GOES-16卫星的通道(C02, C09, C13):这些通道提供了不同波长的红外和可见光图像,用于监测天气现象。 一个由NEXRAD派生的垂直积分液态水(VIL)镶嵌变量:这个变量代表了雷达数据,用于表示云和降水的反射率。 来自GOES GLM传感器的闪电检测:这个传感器提供了闪电活动的观测数据。
SEVIR数据集中的每个事件涵盖了4小时的时间跨度,以5分钟的间隔进行采样(对中度和高强度降水事件进行了过采样)。这些数据是通过NOAA风暴事件数据库随机选取的。SEVIR数据集支持多种气象应用的科学研究,包括未来预测、图像到图像的翻译、超分辨率等。
在本文中,SEVIR数据集被用来支持多种天气理解任务,包括天气预测、空间和时间超分辨率、天气图像翻译和后处理。为了进行这些任务,SEVIR数据集中的图像分辨率被统一采样为256×256。研究者从数据集中筛选出了包含GOES-16卫星三个通道和天气雷达派生变量的事件。最终使用的数据集包括11,508个事件,其中11,308个事件被选为训练集,100个事件为验证集,100个事件为测试集。每个SEVIR事件覆盖了4小时内每5分钟的一个时间点,这意味着每个模态在单个事件中有49张图像。因此,训练集包含了总共2.2M张图像,而验证/测试集包含了总共19.6K张图像。
WeatherGFM模型是如何处理不同天气数据的?
WeatherGFM模型处理不同天气数据的方法是通过统一表示和定义多样化的天气理解任务,并设计了能够处理不同天气数据模态的提示格式。具体来说,WeatherGFM模型采用以下几个关键步骤来处理不同的天气数据:
统一表示:WeatherGFM首先将各种天气理解任务的表示和定义统一起来。这些任务包括天气预报、空间和时间超分辨率、天气图像翻译和后处理。尽管这些任务在输入和输出数据的类型、格式以及序列长度上有所不同,WeatherGFM通过将它们统一在一个一致的数据表示中来处理。
天气提示格式:为了处理单一、多种和时间序列模态的天气数据,WeatherGFM设计了三种提示格式。这些提示格式为不同的数据模态分配了不同的提示短语。例如,天气提示1类似于视觉提示,将单模态图像转换为目标图像;天气提示2可以处理两种不同通道的卫星观测图像,并输出天气雷达观测数据;天气提示3使用时间序列提示来执行与天气预报相关的任务。
上下文学习:WeatherGFM采用视觉提示问答范式来进行统一的天气理解任务的训练。这种范式允许模型通过选择特定任务的提示来确定对查询样本执行什么任务。
混合模态掩码建模:WeatherGFM在Vision Transformers (ViT)的基础上构建,并提出了混合模态掩码图像建模(MMIM)管道来训练多个天气理解任务。模型将输入数据标记化,每个补丁大小为C×p^2,其中p是补丁大小。模型使用任务特定的补丁嵌入层来适应不同的天气相关下游任务。
架构设计:WeatherGFM采用标准的ViT作为主干架构,包括任务特定的补丁嵌入层和多层多头自注意力(MHSA)和多层感知机(MLP)块。每层之前应用层归一化(LN),每层之后应用残差连接。
损失函数:WeatherGFM使用均方误差(MSE)损失来训练天气基础模型,优化目标是最小化输出Xout和目标XT之间的差异。
通过这些方法,WeatherGFM能够有效地处理多达十种天气理解任务,包括天气预报、天气超分辨率、天气图像翻译和后处理。模型还展示了对未见过任务的泛化能力,这对于未来天气和气候基础模型的发展具有重要意义。
以上是对文章的详细解读,如有不当之处欢迎批评指出!也可以私信小编(Earth_Ai)。
声明:本公众号分享的资源均来自于互联网的公开资源,仅供个人学习和研究使用,不代表本人对其版权、真实性、合法性、准确性等方面做出任何保证。任何使用本号分享的资源的个人或组织,需自行承担相应的法律责任和后果;本号不承担任何法律责任和连带责任。使用本号分享的资源即代表您已完全了解并同意本免责声明的所有内容。
上海位温信息科技有限公司
专业的商业气象服务商
(咨询数据详情,可添加微信,请备注:合规数据)
可提供气象产品 :
全国三千多个基准站
3213 个主要城市站点、每小时发 布 1 次,
每天发布 24 次,每次提供当前整点时刻的
城市站点实况天气(实况产品会在整点后
15 分钟、20 分钟、30 分钟进行数据更新),
要素包括:天气现象、气温、体感温度、风速、
风力、风向、相对湿度、气压、1小时降水量、
10分钟降水量、能见度、日出时间、日落时间、
紫外辐射等要素。
探空气象站
海洋气象站
雷达拼图
卫星云图(风云4、葵花8)
格点实况、再分析资料
数值预报:CMA EC GFS
强对流天气预报
强天气落区预报
强对流天气(短时强降水/冰雹/雷暴大风)概率预报图
台风、热带气旋
可提供国内与国外各类气象咨询气象服务
本公司提供服务稳定可靠,您值得拥有。
上海位温信息科技有限公司
专业的商业气象服务商
(咨询数据详情,可添加微信,请备注:合规数据)
可提供气象产品 :
全国三千多个基准站
3213 个主要城市站点、每小时发 布 1 次,
每天发布 24 次,每次提供当前整点时刻的
城市站点实况天气(实况产品会在整点后
15 分钟、20 分钟、30 分钟进行数据更新),
要素包括:天气现象、气温、体感温度、风速、
风力、风向、相对湿度、气压、1小时降水量、
10分钟降水量、能见度、日出时间、日落时间、
紫外辐射等要素。
探空气象站
海洋气象站
雷达拼图
卫星云图(风云4、葵花8)
格点实况、再分析资料
数值预报:CMA EC GFS
强对流天气预报
强天气落区预报
强对流天气(短时强降水/冰雹/雷暴大风)概率预报图
台风、热带气旋
可提供国内与国外各类气象咨询气象服务
本公司提供服务稳定可靠,您值得拥有。