微软发布WeatherReal天气模型基准测试数据集

文摘 2024-09-26 08:58 青海

关注地球与人工智能，设置EarthAi星标

https://arxiv.org/abs/2409.09371

这篇文章介绍了一个名为WeatherReal的新基准数据集，它是基于全球近地面实况观测数据构建的，用于评估天气模型。文章详细描述了数据集的来源、处理方法以及如何利用这些数据评估多种数据驱动的天气预测模型，并与领先的数值模型进行比较。以下是对文章的详细解读：

1. 引言

• 背景：近年来，基于AI的天气预测模型在准确性和计算效率方面已经与数值天气预报系统相匹敌甚至有所超越。
• 问题：尽管这些模型大多在像ERA5这样的再分析数据集上进行训练和评估，但这些数据集与实际观测在关键变量（如近地面温度、风、降水和云）上存在显著差异。

2. WeatherReal数据集

• 组成：WeatherReal包括三个版本的数据集，两个基于全球近地面实况观测，一个来自MSN天气用户的气象报告。
• 特点：提供统一的质量控制和评估框架，通过比较分析和案例研究展示了实况观测在捕捉超本地和极端天气方面的优势。

3. 数据处理

• 提取与重采样：数据被提取并重新采样到小时级别，这是大多数站点的最高时间分辨率。
• 站点合并：基于元数据和观测值的相似性，合并了可能代表同一站点的不同ID。
• 质量控制：实施了全面的自动化质量控制流程，包括值范围检查、时间序列检查、跨变量检查和邻站检查。

4. 数据集分析

• 站点密度和报告频率：分析了WeatherReal-ISD和WeatherReal-Synoptic在2023年的站点密度和2米温度的报告频率。
• 整体数据验证：通过与ERA5数据的比较，展示了WeatherReal数据集在不同变量上的准确性。

5. 示例评估

• 评估方法：使用WeatherReal数据集评估了多种类型的预测，包括Aurora模型、ECMWF、MS-Point和GFS。
• 结果：展示了不同模型在不同预测范围内的表现，包括2米温度、10米风速、平均海平面气压和总云量。

6. 任务和排行榜

• 任务定义：提出了几种可能的任务和评分方法，包括中期预测、短期预测、临近预报和季节预测。
• 中期预测排行榜：提供了基于WeatherReal-ISD数据集评估的中期预测任务的临时排行榜。

7. 讨论

• WeatherReal的优势：强调了使用实况观测数据进行模型评估的重要性，以及WeatherReal在捕捉本地天气特征方面的优势。
• 局限性和未来工作：讨论了数据集的局限性，包括站点分布不均和质量控制算法的改进空间。同时，提出了未来可能的发展方向，如增加更多数据源和改进质量控制算法。

8. 结论

• 贡献：WeatherReal作为一个基准数据集，为天气模型的评估提供了一个可靠和全面的工具，有助于推动数据驱动的天气预测模型的发展。

文章通过详细介绍WeatherReal数据集的创建和应用，展示了如何利用实况观测数据来评估和改进天气预测模型，这对于提高天气预报的准确性和实用性具有重要意义。

这篇文章中提到的WeatherReal数据集与其他数据集相比，有哪些独特之处？

WeatherReal数据集与其他数据集相比，具有以下几个独特之处：

1. 基于实况观测：WeatherReal数据集是从全球近地面实况观测中派生出来的，这些观测数据直接来自气象站点和用户的实时报告，而不是依赖于数值模型的再分析数据。这意味着WeatherReal能够提供更接近真实天气条件的数据，尤其是在捕捉局部和极端天气事件方面。
2. 质量控制：WeatherReal实施了一套精心设计的质量控制流程，包括数据提取、站点合并、值范围检查、时间序列检查、跨变量检查和邻站检查等，以确保数据的可靠性和准确性。
3. 多源数据集成：WeatherReal包括多个版本的数据集，这些数据集来自不同的数据源，包括公开可用的综合表面数据库（ISD）、Synoptic Data PBC提供的观测数据，以及来自MSN天气用户的用户报告。这种多源数据集成提供了更全面的气象信息。
4. 公共评估框架：WeatherReal不仅提供了数据集，还提供了一个公开可访问的质量控制和评估框架，这有助于标准化不同模型之间的比较和评估。
5. 高分辨率和局部性：WeatherReal的数据集能够捕捉到更精细的局部天气变化，这对于提高天气预报的精确度和实用性至关重要。
6. 极端天气事件的表示：WeatherReal通过比较分析和案例研究展示了其在捕捉极端天气事件方面的优势，这对于灾害预警和应急管理具有重要意义。
7. 多变量覆盖：WeatherReal涵盖了多种气象变量，包括温度、露点温度、表面压力、平均海平面压力、风速、风向、总云量和降水量等，这些变量对于天气预测模型的评估至关重要。
8. 促进AI模型发展：WeatherReal的推出旨在推动基于AI的天气预测模型向更实用、更适用于操作性预测的方向发展，这对于提高天气预报的准确性和效率具有积极影响。

WeatherReal的独特之处在于其基于实况观测的数据源、严格的质量控制流程、多源数据集成以及对极端和局部天气事件的捕捉能力，这些特点使其成为一个对天气预测模型评估和改进极具价值的基准数据集。

在数据处理过程中，质量控制的具体步骤是什么？

在WeatherReal数据集的构建过程中，质量控制是确保数据准确性和可靠性的关键步骤。以下是文章中提到的质量控制的具体步骤：

1. 数据提取：

• 从原始ISD数据中提取不同变量。
• 对于总云量，提取所有相关云层的云量数据，并取最大值为总云量。
• 对于降水，提取1、3、6、12、24小时的记录。
• 对于风速和风向，如果风速为零但风向非零，或风速非零但风向为零，将两者都移除。

2. 站点合并：

• 基于元数据（如纬度、经度、海拔和站点名称）选择可能代表同一站点的ID进行合并。
• 计算包括地理距离、海拔差异和站点名称Jaccard相似性指数的相似度指标。
• 合并至少70%观测值一致的站点。

3. 质量控制算法：

• 超饱和检查：移除露点温度高于空气温度的记录。
• 风一致性检查：确保风速和风向记录的一致性。
• 降水一致性检查：确保长时间降水量不小于短时间降水量。
• 尖峰检查：使用固定阈值检测3小时内的异常变化速率。
• 持续性检查：识别长时间记录相同值的观测错误。

• 值范围检查：设置绝对限制以移除超出指定范围的记录。
• 分布间隙检查：通过高斯分布拟合观测数据与ERA5数据的差异，识别异常值。
• 聚类偏差检查：使用DBSCAN算法基于数据密度对观测数据进行聚类，移除稀疏噪声。
• 时间序列检查：
• 跨变量检查：
• 邻站检查：比较一个站点的观测数据与周围站点的数据，以识别异常值。

4. 标志细化：

• 低气压最小值：对于被标记为错误的低气压记录，如果它们是一天中的最低值，并且前后的观测值都显示出单调变化，则恢复这些记录。
• 温度日循环：对于温度数据，进行额外的日循环检查，以减少因显著日变化而被错误标记的记录。

5. 算法集成：

• 将不同算法的检查结果进行交叉验证，以调整它们的级别。
• 结合不同算法的标志，并在最终数据集生成之前进行修剪。

这些步骤确保了WeatherReal数据集在用于天气模型评估之前具有高质量和准确性。通过这些质量控制措施，WeatherReal旨在提供一个可靠、全面且易于访问的基准，以促进基于AI的天气预测模型的发展。

如何利用WeatherReal数据集进行实际的天气预测模型评估？

利用WeatherReal数据集进行实际的天气预测模型评估涉及几个关键步骤，这些步骤确保了评估的准确性和一致性。以下是如何使用WeatherReal数据集进行模型评估的详细步骤：

1. 定义评估任务

首先，明确评估的目标和任务类型。WeatherReal数据集支持多种天气预测任务，包括但不限于：

• 中期天气预报（3-10天）
• 短期天气预报（0-3天）
• 临近预报（0-2小时）
• 季节性预测

2. 选择合适的数据集版本

WeatherReal包含多个版本的数据集，包括：

• WeatherReal-ISD：基于公开可用的综合表面数据库（ISD）。
• WeatherReal-Synoptic：来自Synoptic Data PBC的观测数据。
• MSN天气用户报告：来自用户的实际天气报告。

根据评估需求选择合适的数据集。例如，如果需要全球覆盖，可以选择ISD或Synoptic版本。

3. 数据预处理

• 数据对齐：确保模型输出与WeatherReal数据集在时间、空间和变量上对齐。
• 插值：如果模型输出的网格与WeatherReal数据集中的站点位置不完全匹配，可能需要进行空间插值。

4. 选择评估指标

根据预测任务的性质选择合适的评估指标。常见的评估指标包括：

• 均方根误差（RMSE）：衡量预测值与观测值之间的偏差。
• 平均绝对误差（MAE）：衡量预测误差的绝对值的平均。
• 准确率：预测值在特定阈值范围内与真实值相符的比例。
• 公平威胁评分（ETS）：特别适用于降水量的评估。

5. 运行模型预测

使用选定的天气预测模型进行预测。模型可以是传统的数值天气预报模型，也可以是基于机器学习或深度学习的数据驱动模型。

6. 计算评估指标

将模型的预测结果与WeatherReal数据集中的观测数据进行比较，计算上述评估指标。

7. 分析和解释结果

• 性能比较：将不同模型的评估结果进行比较，分析各自的优缺点。
• 误差分析：深入分析模型在特定情况下的预测误差，识别模型可能的改进方向。

8. 报告和改进

• 撰写评估报告：记录评估过程、结果和发现。
• 模型迭代：根据评估结果调整和优化模型，进行迭代改进。

9. 利用排行榜和社区反馈

• 参与排行榜：在WeatherReal的官方排行榜上提交模型的评估结果，与其他研究者和模型进行比较。
• 社区反馈：利用社区的反馈和建议进一步改进模型。

通过这些步骤，研究人员和开发者可以有效地利用WeatherReal数据集来评估和改进天气预测模型，推动天气预报技术的创新和发展。

翻译：Kimi

（加微信交流群，请备注：姓名-行业-单位）

声明：本公众号分享的资源均来自于互联网的公开资源，仅供个人学习和研究使用，不代表本人对其版权、真实性、合法性、准确性等方面做出任何保证。任何使用本号分享的资源的个人或组织，需自行承担相应的法律责任和后果；本号不承担任何法律责任和连带责任。使用本号分享的资源即代表您已完全了解并同意本免责声明的所有内容。




上海位温信息科技有限公司
专业的商业气象服务商


（咨询数据详情，可添加微信，请备注：合规数据）


可提供气象产品 ：
全国三千多个基准站
3213 个主要城市站点、每小时发 布 1 次，
每天发布 24 次，每次提供当前整点时刻的
城市站点实况天气（实况产品会在整点后
15 分钟、20 分钟、30 分钟进行数据更新），
要素包括：天气现象、气温、体感温度、风速、
风力、风向、相对湿度、气压、1小时降水量、
10分钟降水量、能见度、日出时间、日落时间、
紫外辐射等要素。
探空气象站
海洋气象站
雷达拼图
卫星云图（风云4、葵花8）
格点实况、再分析资料
数值预报:CMA EC GFS
强对流天气预报
强天气落区预报
强对流天气（短时强降水/冰雹/雷暴大风）概率预报图
台风、热带气旋
可提供国内与国外各类气象咨询气象服务
本公司提供服务稳定可靠，您值得拥有。

http://mp.weixin.qq.com/s?__biz=Mzg3NjY4NDQxMw==&mid=2247489583&idx=1&sn=3f7e25d69733dd7c2709714ea71a21ef

EarthAi

AI4Earth、人工智能、气象数值预报、学术论文！产业资讯等等……

最新文章

通过潜在表示编码压缩高分辨率数据以降低大规模AI天气预报模型的尺度

“旷冥”新能源大模型正式发布

JAS | 赤道波动识别 | 投影法

arxiv | 气候网络中的临界点检测

DUNE：一种基于深度UNet++集成方法的机器学习月度、季节性和年度气候预测

中国近年气象科技，创新成果大曝光！

arxiv | 基于热浪情景的AI气候模型评估

最新硬核研究！核战争对热带气旋响应的模拟研究!

Nature | 气候过冲或难实现气温下降！

破译超强厄尔尼诺：开发一种整合局部和全球气候信号的新型预测模型

谷歌团队：气候模式集合的动力-生成式降尺度

ClimDetect：气候变化检测与归因的基准数据集

Python绘制Nino区

全球人工智能天气模型的可预测性

使用扩散模型的连续集合天气预报

中科院“苍龙”模型（CAS-Canglong）：预测海温

Python计算非绝热加热率

GMD | 北师大团队研究表明不同系列GPU卡在大气环境模拟准确度存在明显差异

全国首个海浪AI预报系统已投入业务化运行，AI助力海浪预报多项突破

人工智能在大气科学中的应用：处理气象数据干旱监测、风能与太阳能资源评估、遥感降水、ERA5再分析

“演天”气象预报大模型应用平台

毕业七年就拿诺奖！没卡在非升即走

LightWeather：利用绝对位置编码实现高效且可扩展的全球天气预报

利用Python计算滑动相关

RAIN：用于改进数值天气和气候模型的强化算法

Python | 基于高程计算坡度和坡向

华为天气开启星空探索计划，联合行业大咖邀您探索宇宙之美

内蒙古通用航空气象预报业务启动

CLLMate：用于天气和气候事件预测的多模态大型语言模型

AI驱动的天气预测在气候变化中的稳健性

顶刊Nature：波浪破碎-湍流

Climate Quantum应对气候变化

去中心化天气数据收集项目SkyX上链！

上海为气象立法：未来48小时天气预报定时发布

深度学习重建上个千年的大气阻塞高压

Python | 使用Gdal投影转换tiff转换nc

未来已来，中国定位专家顾均辉评AI天气预报火到国外

Python | 集合滤波数据同化方法及其应用

顶刊《自然》发布：AI研究产出增长最多的10家机构有6家来自中国

华东师大气候变化教育实验室已启动项目建设，强调跨学科研究

基于人工智能的气候极端事件预测：概述

应对极端天气挑战，墨迹天气携多地铁单位探索气象轨道交通服务方案

Science正刊：华盛顿大学的科学家在大气层中发现了一种新的粒子形成过程

文献阅读：对流耦合赤道波在次季节预报中的作用

微软发布WeatherReal天气模型基准测试数据集

Python绘制TC路径分布（IBTrACS）

清华团队在顶级期刊《Energy》发表Windformer模型预测风速最新成果！

基于机器学习（ML）的框架量化东亚地区地面二氧化氮浓度的不确定性

科企纷推AI模型比拼预测天气精准度

北大覃栎研究员荣获2024年度美国地球物理学会全球环境变化青年科学家奖

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉