论文信息
· 标题:Improving Streamflow Prediction Using Multiple Hydrological Models and Machine Learning Methods
· 年份:2024
· 第一单位:印度理工学院甘地讷格尔分校
摘要
河流流量预测对于洪水监测和预警至关重要,但由于非线性过程、模型参数化以及气象预报中的误差,预测往往受到偏差和不确定性的影响。我们研究了多种水文模型(VIC、H08、CWatM、Noah-MP和CLM)和机器学习(ML)方法在改进河流流量模拟和预测中的效用。水文模型(HMs)通过印度气象局(IMD)的观测气象数据和全球集合预报系统(GEFS)的气象预报数据驱动,以模拟洪峰和洪水淹没区域。我们使用多元线性回归、随机森林(RF)、极端梯度提升(XGB)和长短期记忆(LSTM)对水文模型模拟的河流流量进行后处理。考虑水坝的影响对于水文模型和机器学习方法改进河流流量模拟和预测的有效性至关重要。此外,基于机器学习的多模型集合河流流量预测优于单一模型,突显了基于多模型的河流流量预测系统的必要性。通过机器学习对水文模型模拟的河流流量进行后处理,显著改善了整体河流流量模拟,但在高流量条件下的改进有限。基于物理的水文模型、观测气候数据和机器学习方法的结合,改善了洪水强度、时间和淹没区域的河流流量预测,这对于印度开发洪水预警系统具有重要价值。
实验设计
在本研究中,研究者选定了纳尔马达河流域作为实验区域,模拟时间为1986年至2020年,使用日降水、最高温度和最低温度等气象数据,通过0.25°的分辨率进行数据处理。实验采用了五种物理基础的水文模型,包括VIC、H08、CWatM、Noah-MP和CLM,这些模型均与CaMa-Flood水动力模型相结合,以考虑河流-泛滥区的动态。首先,研究者使用历史的气象资料进行模型校准,校准周期为1986年至2000年,并在2010年至2016年期间进行模型评估。为此,他们对流量数据进行了后处理,运用多种机器学习方法,包括线性回归、随机森林、极端梯度提升和长短期记忆网络,并利用三组预测变量进行分析:第一组为当前日及前三天的水文模型模拟流量,第二组基于当前日及前三天的气象变量(例如降水、温度和风速),第三组则是前两组的结合。为了优化机器学习模型的性能,研究者采用GridSearchCV方法结合五折交叉验证来调整超参数,以确保模型的准确性。最终,他们使用从全球集合预报系统(GEFS)获得的预报产品,生成1到3天的预报,评估其在捕捉洪水幅度和淹没面积上的能力,依靠一系列统计指标来评价模型效果。此外,研究过程中也考虑了大坝对流量的影响,并在带坝和不带坝的情形下进行比较,进一步确立多模型集成的有效性。
关键图表
Narmada 河流域的地理位置和框架结构。该图展示了研究中使用的多种水文模型(如 VIC、Noah‐MP、CLM 等)及其输入(降水、温度、风速等),以及后续的流量路由模型 CaMa‐Flood。图中还指出了各个测站的位置,以及水文模型与气象预测系统之间的互动,强调了不同模型和气象数据间的整合对于提高流动性预测的重要性。
对不同水文模型在校准和评估阶段的表现参数(如 NSE、R²、PBIAS、RMSE)的比较。结果显示,在校准阶段,VIC 和 H08 等模型表现优于其他模型,而多模型增强(Ens-RF 和 Ens-XGB)在每个测站中显著超越了单个模型。这表明多模型集成策略在流量预测中的优势,同时也提示了模型在实际应用中的适用性和重要性。
使用不同预测器组合(Model、Cli 和 Model + Cli)对流量预测的影响。该图表明,结合模型派生流量和气候因子的预测器组合能够显著提高流量精准度。结果表明,使用气候因子(降水、温度等)的独立模型未能带来提升,而模型和气候因子组合的 ML 方法能有效校正流量幅度和时间延迟,从而增强预测性能。
基于 ML 方法后处理的流量时间序列,特别是在 2013 年的夏季季风期间。每个测站(Sandia、Handia、Mandleshwar 和 Garudeshwar)的流量数据通过不同的 ML 方法进行了对比。在评估期间,随机森林(RF)和极端梯度提升(XGB)展现了良好的流量捕捉能力,使其在捕捉洪峰和整体水文曲线形状方面表现卓越,这示范了 ML 方法在流量预测中的有效性。
比较了传统水文模型和应用 ML 方法后的提升效果。图中表明,ML 方法(如 RF 和 XGB)在流量预测低性能模型时,能够显著改进模型表现。尤其是在高流量条件下,这些方法在流量幅度预测与高峰时间捕捉中表现突出,体现了水文模型组合与机器学习后处理相结合的重要意义。
针对高水流条件(超过 90 百分位数)展示了不同后处理方法的表现。该图指出,LSTM 方法在 Sandia 和 Handia 站表现金流影响的内在时间模式捕捉能力,但在 Mandleshwar 和 Garudeshwar 站的表现不足,显示出因水库操作变化所带来的挑战。该图强调了综合使用多种方法以适应不同流域特征的重要性,并建议未来可引入动态滑动的输入输出序列和注意机制以提升预测精度。
强调了结合不同水文模型进行淹没区域预测的必要性,并指出在洪水风险管理和早期预警系统中,多模型集成方法相较于单一模型预测具有显著提升
在2019 年 9 月 15 日洪水事件中,各种模型在不同预报时间的洪水淹没区域预测能力评估。通过 ROC 曲线,图形化地呈现了所有模型在识别被洪水淹没区域方面的准确性。随着预报时间的增加,所有模型的 AUC 值逐渐下降,反映出预测能力的减弱。而多模型集成方法 Ens-RF 的表现始终最佳,显示出高分辨率和稳定性,强调了在洪水预测中采用多模型集成的优势。与个别水文模型相比,Ens-RF 显著提升了洪水淹没区的预测能力,尤其是在洪水警报系统中。
原文链接:https://doi.org/10.1029/2024WR038192
*请勿直接搬运本公众号相关内容,转载请注明出处,保留公众号名片、公众号首尾标注等关键著作信息。