摘要
水土评估工具(SWAT)是应用最广泛的半分布式水文模型之一。由于参数数量庞大,评估 SWAT 输出的不确定性是一个流行但又极具挑战性的课题。本研究的目的是研究多项式混沌扩展 (PCE) 在显着参数敏感性影响下评估 SWAT 中不确定性传播的使用。此外,首次将机器学习技术(即人工神经网络,ANN)与 PCE集成,以扩展其生成每日流量概率预测的能力。传统的 PCE 方法和提出的 PCE-ANN 方法被应用于美国德克萨斯州瓜达卢佩流域的案例研究,以评估 SWAT 在历史和预测期间流量预测的不确定性传播。结果表明,PCE 与传统的蒙特卡洛(Monte-Carlo,MC)方法结果相似,历史时期平均流量的决定系数 (R2) 值为 0.99;而提出的 PCE-ANN 方法再现了 MC 的输出结果,预测时期平均流量的判定系数 (R2) 值为 0.84。结果还表明,PCE 和 PCE-ANN 与 MC 一样可靠,但效率更高。PCE 所需的计算时间约为 MC 的 1%;PCE-ANN 只需几分钟即可生成概率预测,而 MC 则需要运行模型数十次、数百次甚至数千次。值得注意的是,PCE-ANN 框架的开发是利用机器学习探索 PCE 概率预测能力的首次尝试。PCE-ANN 在计算时间上更有效,而且不会丢失基本的不确定性信息,是一种很有前途的不确定性评估和概率预测技术。
研究方法
1.不确定性量化
多项式混沌展开(PCE)
PCE 是一种统计方法,它使用正态分布的随机输入来描述系统中的不确定性。统计过程是由 Hermite 多项式,PCE 方程写为:
PCE 项数 (N) 是 PCE 阶数 (P) 和用于不确定性分析的随机变量数 (M) 的函数:
在这项研究中,二阶 Hermite 多项式用于量化与五个参数相关的不确定性,总共得到 21 个 PCE 项。输出的方程可以写成如下:
配置点选择
选配置点的主要思想是使 PCE 输出与这些选定点的模型输出相同。这种系数估计方法称为概率搭配法 (PCM)。可以使用一阶高等 Hermite 多项式的根的组合来选择搭配点。因此,对于二阶 Hermite 多项式,配置点是三个根 (-3,0,3)ζ价值。在本研究中,有 5 个 PCE 参数,总共产生 243 个搭配点。由于只有 21 个未知数和 243 个方程(实现),因此除非方程中有冗余,否则这个方程组是超定的。
2. 研究区域以及数据收集
本案例研究使用了 Spring Branch 流域四年的降雨量、温度和流量数据。天气数据来自美国国家海洋和大气管理局 (NOAA),流量数据来自USGS,30 m 分辨率的土壤数据来自美国农业部 (USDA) 的州土壤地理数据集,30 m 分辨率的土地覆盖数据来自国家土地覆盖数据库 (NLCD), 分辨率为 90 m 的 DEM 来自 SRTM V4.1 数据,该数据源自 USGS/NASA SRTM 数据,具有大小为 5° 的方形网格。
3. 结果分析
为SWAT构建 PCE 代理系统
为了评估 PCE 在量化 SWAT 参数不确定性方面的可靠性,将 PCE 的结果与传统的不确定性量化技术 MC 模拟的结果进行了比较。从参数分布中获取 10,000 组参数值,用于运行 SWAT 模拟以进行MC分析。
结果表明,PCE 可以被认为是量化 SWAT 参数不确定性的 MC 的可靠替代方案。通过构建 SWAT 的替代项,PCE 可以生成类似于 MC 的不确定性分析结果,同时将所需的仿真运行次数从数千次减少到 243 次。但是,应该注意的是,只有在已知观测值的情况下才能使用 PCE 方法,以便在代理模型中找到系数。因此,当前的 PCE 不能用于在不确定性下生成预测。引入了机器学习算法 ANN,以扩展概率流预测中的 PCE 功能。
探索PCE 的预测能力
为了使用拟议的 PCE-ANN 框架对预测期 (1992-1997) 进行不确定性分析,SWAT 首次在 1989-1991 年期间的配置点运行了 243 次。然后,构建 ANN 模型来估计预测期内的 PCE 系数。最后,可以使用 Hermite 多项式表示的独立高斯随机变量的组合来解码与预测流相关的不确定性。为了进行比较,对 5 个敏感参数进行了 SWAT 的 MC 模拟,并使用 PCE 中正态分布的随机值来生成 PCE 输出的样本。根据 MC 模拟的 10,000 次运行和替代 PCE-ANN 结果,计算了平均流量、方差以及第 25 个和第 75 个百分位数。
尽管预测期间 PCE-ANN 和 MC 之间的差异略高于历史时期,但两个平均流动时间序列具有非常相似的模式。1992 年、1995 年和 1996 年的少数值只有一个小小的高估。这种高估可能是误差传播的结果,误差传播始于基于 ANN 的 PCE 系数估计过程中。
下图显示了 PCE-ANN 和 MC 平均值之间的线性关系。The R2值为 0.84,这表示 PCE-ANN 和 MC 结果之间存在良好的拟合,只有一些微小的偏差,最佳拟合线的斜率略小于 1,这意味着与 MC 相比,PCE-ANN 框架总体上高估了。当将平均流量与观察值进行比较时,MC 的 NSE 值为 0.52,而 PCE-ANN 的 NSE 值为 0.55。这表明 MC 和 PCE-ANN 在流量预测方面都表现良好。
ANN 和 MC 产生的流量变化表示为标准差图11.大多数时候,MC 的变化高于 PCE-ANN,这与历史时期的推论一致。值得一提的是,PCE-ANN 输出在 1997 年 7 月的峰值流量中具有更大的变化。
图12显示了 PCE-ANN 和 MC 的标准差值之间的线性关系,表明标准差在低不确定性条件下相似,而在高不确定性条件下 MC 变化较高。通常,最佳拟合的斜率大于 1,这表明 MC 输出总体上具有较高的方差,如上一节所述。还显示标准差与决定系数具有可接受的拟合值为 0.65。
图13通过显示两种方法的第 25 个和第 75 个百分位数来显示更多详细信息。为了进一步比较 PCE-ANN 和 MC 结果,四个选定日期的流量分布显示在图14.直方图显示 MC 和 PCE-ANN 生成的概率分布的形状非常相似。从比较结果可以得出结论,PCE-ANN 能够以更少的计算时间和资源提供接近 MC 的概率预测。
总结
① 为了启用 PCE 进行概率预测,我们集成了机器学习算法来估计预测期间的 PCE 系数,其中流量观测数据不可用。人工神经网络 (ANN) 成功地模拟了天气输入和 PCE 系数之间的关系。与 MC 模拟相比,提出的 PCE-ANN 方法在平均值和变异方面产生了相似的概率输出(R2值分别为 0.84 和 0.64)。根据以往的研究,R2平均每日流量的值 0.84 可以被视为很好的拟合。
② ANN 是一种广泛使用的机器学习方法,对于这个特定的案例研究,它的性能令人满意。这就是为什么在本研究中仅对 ANN 进行测试并将其集成到 PCE 框架中的原因。尽管如此,其他统计或机器学习方法可以进一步研究以供未来研究。
③ 没有现有的 PCE 框架可以量化相关参数对复杂水文模型输出的影响。需要进一步的研究才能使 PCE 支持具有相关参数的水文模型的不确定性分析。本研究中的另一个假设是,参数都具有由其范围定义的均匀分布,而实际上,分布根据集水区形态而变化。在未来的研究中,可以进一步研究使用其他方法,例如广义似然不确定性估计 (GLUE),来寻找更准确的参数分布。