DOI:https://doi.org/10.1016/j.jhydrol.2024.131424
主要内容:
开发高时空覆盖的精确降水产品对于广泛的应用至关重要。在这种情况下,降水数据合并(PDM)占据着突出的地位,它需要将卫星估计值与地面测量值相结合,而目前,机器学习(ML)算法在这种努力中的部署呈增长趋势。鉴于该领域的最新进展,本文讨论了与以下方面相关的 PDM 问题的关键方面:a)问题的概念表述,与 ML 模型的训练及其预测能力密切相关,b)融合产品的选择,与最终产品的延迟和方法的操作适用性有关,c)单步和两步合并方法的效率,前者仅通过回归算法处理问题,后者通过结合使用分类和回归算法来处理问题。通过将 PDM 公式化为时空预测问题,我们定义并评估了两种不同的 ML 模型训练策略,称为完整策略和每个时间步策略,它们分别需要构建一个或多个 ML 模型。此外,在单步和两步合并的背景下评估了完整训练策略的性能,该策略允许在空间和时间维度上进行预测。在三种场景中的每一种中,都采用了三种流行的基于集成树的 ML 算法,即随机森林、梯度提升和极端梯度提升算法,从而产生九种合并产品。为了提供实证证据,我们使用了一个数据立方体,该数据立方体由地面每日降水观测、卫星和再分析估计以及辅助协变量组成,来自全球四个国家(澳大利亚、美国、印度和意大利)的 1009 个均匀分布的单元(代表 25×25 平方公里的采样面积)。
主要结论:
大规模实验表明:(i)全面训练策略是每个时间步策略的一个有竞争力的替代方案,因为它能够开发出在性能指标和统计数据再现方面具有更高准确性的方法,同时也具有更高的预测能力和操作适用性,(ii)两步合并能够更好地再现降水发生的特征,这反映在相关分类指标的改进、概率的再现和自相关系数上,(iii)不同 ML 算法的性能没有显著差异。
主要图表:
图 2. 15种降水产品的 6 个分类性能指标的箱线图,包括 3 个基准数据集(GPCC、ERA5、GPM.F)、3 个低延迟数据集(SM2R、GPM.E、CMORPH)、3 个经过按时间步训练的合并产品(TS-RF、TS-GBDT、TS-XGB)、3 个经过完整训练的产品(F-RF、F-GBDT、F-XGB)和 3 个经过两步合并的产品(D-RF、D-GBDT、D-XGB)。蓝点表示每个性能指标的平均值。
图 3. 15种降水产品的 6 个连续性能指标的箱线图,包括 3 个基准数据集(GPCC、ERA5、GPM.F)、3 个低延迟数据集(SM2R、GPM.E、CMORPH)、3 个按时间步长训练后的合并产品(TS-RF、TS-GBDT、TS-XGB)、3 个按完整训练后的合并产品(F-RF、F-GBDT、F-XGB)和 3 个按两步合并后的产品(D-RF、D-GBDT、D-XGB)。蓝点表示每个性能指标的平均值。
图 4 .参考数据集与 15 个降水产品的统计特征相对差异的箱线图,其中包括 3 个基准数据集(GPCC、ERA5、GPM.F)、3 个低延迟数据集(SM2R、GPM.E、CMORPH)、3 个按时间步长训练后的合并产品(TS-RF、TS-GBDT、TS-XGB)、3 个按完整训练后的产品(F-RF、F-GBDT、F-XGB)和 3 个按两步合并后的产品(D-RF、D-GBDT、D-XGB)。蓝点代表每个统计量的平均值。