https://doi.org/10.1029/2024GL110468
这篇文献《Quantifying Uncertainty in ML‐Derived Atmosphere Remote Sensing: Hourly Surface NO2 Estimation With GEMS》详细介绍了一个基于机器学习(ML)的框架,该框架用于估算东亚地区每小时的地面二氧化氮(NO2)浓度,并量化与这些估算相关的不确定性。以下是对文献的详细解读:
研究背景与重要性
• NO2的重要性: 二氧化氮(NO2)是一种由燃烧过程(如生物质燃烧、工业、车辆等)产生的污染物,是地面臭氧和硝酸盐气溶胶的前体,对公共健康构成风险,包括呼吸道疾病、哮喘和肺癌。
• 预测挑战: 地面监测站的分布不均和数据稀疏限制了对NO2时空变化的分析。
研究目标
• 主要目标: 开发一个机器学习模型,利用地球静止轨道环境监测光谱仪(GEMS)的NO2柱数据,预测东亚地区的小时级地面NO2浓度,并量化预测的不确定性。
数据来源与处理
• GEMS数据: 使用GEMS提供的NO2柱浓度数据,这些数据具有高时间分辨率(每小时),覆盖亚洲地区。
• 地面监测数据: 结合中国和韩国的地面监测站数据,转换为体积混合比(VMR)单位。
• 辅助数据: 包括气象再分析数据(如风速、温度、露点温度、气压等)、土地覆盖类型和地形数据。
方法论
• 机器学习模型: 使用基于树的梯度提升模型(CatBoost),这是一种能有效处理分类特征的算法。
• 不确定性量化(UQ): 通过预测每个像素的NO2浓度的分布,而不仅仅是一个点估计,来量化数据和模型不确定性。
• 模型训练与评估: 采用样本权重和标签分布平滑(LDS)算法来提高模型对高浓度事件的敏感性。使用空间交叉验证(k-Nearest Neighbor Distance Matching, kNNDM)来评估模型在新空间区域的泛化能力。
研究结果
• 模型性能: 模型在交叉验证中的R²为0.84,RMSE为2.93 ppb,表明模型具有较高的预测准确性。
• 不确定性分析: 在地形复杂和监测站点稀疏的区域,不确定性较高。小时和年内的浓度预测及其相关不确定性都显示出显著性。
• 特征重要性: GEMS NO2柱、边界层高度和时间变量(如日历年和小时)被识别为影响NO2浓度的关键预测因子。
讨论与结论
• 模型应用: 该模型不仅能预测NO2浓度,还能提供预测的不确定性估计,这对于决策制定和环境预测分析至关重要。
• 局限性与未来工作: 模型在新空间区域的泛化能力存在挑战,需要进一步研究以提高模型在不同地理和环境条件下的适用性。
数据可用性
• 数据来源链接: 提供了所有使用的数据集的链接,包括GEMS NO2产品、地面监测数据、气象数据、土地覆盖和地形数据。
这篇文献通过结合高分辨率的卫星数据和先进的机器学习技术,为大气污染物的监测和预测提供了新的视角,特别是在量化预测不确定性方面,为环境科学研究和公共健康管理提供了有价值的工具。
这篇文献中提到的机器学习模型具体是如何训练和优化的?
在这篇文献中,作者们使用了一种机器学习(ML)框架,该框架不仅预测地面NO2浓度,还对预测结果的不确定性进行了量化。以下是模型训练和优化的具体步骤:
1. 数据预处理
• 数据集成: 结合了GEMS卫星的NO2柱浓度数据、地面监测站的NO2浓度数据、气象再分析数据、土地覆盖类型和地形数据。
• 数据清洗: 应用了质量控制标准,例如过滤掉负值、云量小于30%、反射率低于特定阈值的数据。
• 数据重采样: 将所有数据集重采样到0.05°分辨率的网格上,以便于模型处理。
2. 特征工程
• 时间嵌入: 使用正弦和余弦函数转换时间变量(如一年中的天数或一天中的小时数),以捕获NO2浓度的年内和日内周期性变化。
• 辅助变量: 包括气象变量(如风速、温度、露点温度、气压等)、土地覆盖类型和地形数据,这些变量被用作模型的输入特征。
3. 机器学习模型
• 模型选择: 使用基于树的梯度提升模型(CatBoost),这是一种能够处理分类特征并提供内置不确定性估计的算法。
• 损失函数: 采用负对数似然(NLL)损失函数,该函数不仅惩罚预测值与实际值之间的差异,还考虑预测分布与地面测量值的一致性。
4. 模型训练
• 标签分布平滑(LDS): 在训练过程中应用LDS算法,以增加模型对高浓度NO2事件的敏感性,同时保持对其他事件的预测准确性。
• 交叉验证: 采用样本基础的10折交叉验证和空间交叉验证(k-Nearest Neighbor Distance Matching, kNNDM)来评估模型性能和空间泛化能力。
5. 不确定性量化(UQ)
• 数据不确定性: 使用贝叶斯神经网络或自然梯度提升(NGBoost)等技术来模拟数据不确定性。
• 模型不确定性: 通过评估在不同数据子集上训练的模型之间的差异来评估模型不确定性。此外,使用蒙特卡洛dropout作为一种方法,通过直接对神经网络引入扰动来评估模型不确定性。
6. 优化与调整
• 超参数调优: 使用基于树的Parzen估计器采样器进行超参数搜索,以找到最优的模型配置。
• 特征重要性评估: 使用SHAP值(Shapley Additive exPlanations)来评估各个特征对模型预测的影响和重要性。
7. 模型评估
• 性能指标: 使用均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R²)等指标来评估模型的预测性能。
通过这些步骤,作者们成功地开发了一个能够预测地面NO2浓度并量化预测不确定性的机器学习模型。这种模型在大气科学研究和公共健康管理中具有重要的应用价值,尤其是在需要精确评估空气质量和相关健康风险的场景中。
在量化不确定性方面,有哪些其他方法可以与本文的方法进行对比?
在量化机器学习模型预测不确定性方面,有多种方法可以用来与本文中提到的方法进行对比。以下是一些常见的不确定性量化技术:
1. 贝叶斯神经网络(Bayesian Neural Networks):
• 这种方法通过在神经网络的权重和偏置上引入概率分布,而不是固定值,来量化模型的不确定性。贝叶斯神经网络可以提供关于其预测的不确定性的直接估计。
2. 蒙特卡洛Dropout(Monte Carlo Dropout):
• 在这种方法中,Dropout在模型训练和测试时都被激活,从而生成预测的分布。这种方法简单易行,可以近似贝叶斯神经网络的效果。
3. 集成方法(Ensemble Methods):
• 通过训练多个模型并聚合它们的预测,可以估计预测的不确定性。随机森林和梯度提升决策树的集成版本(如XGBoost和LightGBM)是这种方法的例子。
4. 高斯过程(Gaussian Processes):
• 高斯过程是一种基于核函数的非参数贝叶斯方法,它提供了预测的不确定性估计。它们在小数据集上表现良好,但在大规模数据集上计算成本较高。
5. 量化置信区间(Quantile Regression):
• 通过预测给定置信水平下的响应变量的分位数,可以构建预测的不确定性区间。这种方法可以提供关于预测分布的更多信息。
6. Bootstrap方法:
• 通过从数据集中重复抽样并重新训练模型,可以生成预测的分布。这种方法可以估计模型预测的不确定性,尤其是在样本量较小时。
7. 期望传播(Expectation Propagation):
• 这是一种迭代方法,用于近似具有复杂概率模型的后验分布。它可以用于量化模型参数和预测的不确定性。
8. 敏感性分析(Sensitivity Analysis):
• 通过改变模型输入或参数,并观察输出预测的变化,可以估计模型的不确定性。这种方法有助于识别对预测影响最大的输入变量。
9. 神经网络的集成不确定性估计(Deep Ensembles with Uncertainty Estimates):
• 这种方法结合了多个神经网络模型的预测,并使用集成技术来量化预测的不确定性。
10. 贝叶斯优化(Bayesian Optimization):
• 贝叶斯优化是一种全局优化策略,它使用概率模型来指导搜索过程。它可以用来优化模型的超参数,同时量化优化过程的不确定性。
在本文中,作者使用了CatBoost模型结合标签分布平滑(LDS)算法和空间交叉验证(kNNDM)来量化不确定性。与其他方法相比,这种方法的优势在于它能够结合数据不确定性和模型不确定性,提供更全面的不确定性估计。此外,CatBoost模型的树结构使得它在处理分类特征和大规模数据集时非常有效。然而,每种方法都有其特定的应用场景和优缺点,因此在选择不确定性量化方法时需要考虑具体的数据特点和模型需求。
翻译:kimi
(加微信交流群,请备注:姓名-行业-单位)
声明:本公众号分享的资源均来自于互联网的公开资源,仅供个人学习和研究使用,不代表本人对其版权、真实性、合法性、准确性等方面做出任何保证。任何使用本号分享的资源的个人或组织,需自行承担相应的法律责任和后果;本号不承担任何法律责任和连带责任。使用本号分享的资源即代表您已完全了解并同意本免责声明的所有内容。
上海位温信息科技有限公司
专业的商业气象服务商
(咨询数据详情,可添加微信,请备注:合规数据)
可提供气象产品 :
全国三千多个基准站
3213 个主要城市站点、每小时发 布 1 次,
每天发布 24 次,每次提供当前整点时刻的
城市站点实况天气(实况产品会在整点后
15 分钟、20 分钟、30 分钟进行数据更新),
要素包括:天气现象、气温、体感温度、风速、
风力、风向、相对湿度、气压、1小时降水量、
10分钟降水量、能见度、日出时间、日落时间、
紫外辐射等要素。
探空气象站
海洋气象站
雷达拼图
卫星云图(风云4、葵花8)
格点实况、再分析资料
数值预报:CMA EC GFS
强对流天气预报
强天气落区预报
强对流天气(短时强降水/冰雹/雷暴大风)概率预报图
台风、热带气旋
可提供国内与国外各类气象咨询气象服务
本公司提供服务稳定可靠,您值得拥有。
上海位温信息科技有限公司
专业的商业气象服务商
(咨询数据详情,可添加微信,请备注:合规数据)
可提供气象产品 :
全国三千多个基准站
3213 个主要城市站点、每小时发 布 1 次,
每天发布 24 次,每次提供当前整点时刻的
城市站点实况天气(实况产品会在整点后
15 分钟、20 分钟、30 分钟进行数据更新),
要素包括:天气现象、气温、体感温度、风速、
风力、风向、相对湿度、气压、1小时降水量、
10分钟降水量、能见度、日出时间、日落时间、
紫外辐射等要素。
探空气象站
海洋气象站
雷达拼图
卫星云图(风云4、葵花8)
格点实况、再分析资料
数值预报:CMA EC GFS
强对流天气预报
强天气落区预报
强对流天气(短时强降水/冰雹/雷暴大风)概率预报图
台风、热带气旋
可提供国内与国外各类气象咨询气象服务
本公司提供服务稳定可靠,您值得拥有。