论文快递|王军等:基于CEEMDAN-LightGBM 模型的洪水预测研究

文摘   科学   2024-09-24 09:35   河南  


引用格式:王军,张宇航,崔云烨,等.基于CEEMDAN-LightGBM 模型的洪水预测研究[J].人民黄河,2024,46(9):99-105.

作者简介:王军(1980—),男(回族),河南南阳人,教授,博士,研究方向为大数据与人工智能

上下滑动查看摘要内容

摘要

   为了应对暴雨可能引发的洪涝灾害风险,基于黄河利津水文站监测的水文等数据,以LightGBM 为基准模型,运用经自适应噪声完备集合经验模态分解(CEEMDAN)算法优化后的CEEMDAN-LightGBM 模型对水位进行预测,并将其与长短期记忆网络(LSTM)模型、LightGBM 模型的预测效果进行对比。以2 个气候条件不同的黄河水文站(利津、花园口)的水文数据为原始数据集输入CEEMDAN-LightGBM 模型,验证模型的适应性和稳定性。结果表明:CEEMDAN-LightGBM 模型在水位预测方面表现出优越的性能,相较于LSTM、LightGBM 模型,该模型的EMA分别减小了46.08%、9.95%,ERMS分别减小了33.01%、43.01%,EMAP 分别减小了94.99%、3.82%,R2分别增大了30.48%、7.58%。CEEMDAN-LightGBM 模型还能预测流量这一重要水文特征,为模型预测洪水发生提供更有力的判断依据。对比CEEMDAN-LightGBM 模型预测花园口水文站与利津水文站的水位和流量效果,除预测两站水位的EMAP值相差23.64%外,EMA值、EMAPERMS值相差均不超过10%,R2相差不超过2%。

关键词:洪水预测;LightGBM 模型;CEEMDAN 算法;CEEMDAN-LightGBM 模型;LSTM 模型;利津水文站;花园口水文站


0  引言


洪水是一种自然灾害,会造成严重的经济损失和人员伤亡[1]。洪水风险管理是预防洪水和减小洪水不利影响的一项关键任务,其措施包括结构性和非结构性两种。开发洪水早期预警系统[2]和实时预测河流水位是主要的非结构性措施,可以在应对洪水发生时辅助实施有效的应急策略。现有的水文预测模型可分为概念模型、物理模型和“黑箱”模型。概念模型和物理模型可通过一维或二维偏微分方程来描述水文现象,采用这2 种模型预测降水过程、径流过程、河流演变时,需要大量的地形、土地利用等信息,而收集这类信息需要大量的人力和物力,资源消耗过大,同时物理模型因其计算时间较长而难以被广泛使用。“黑箱”模型又被称为“数据驱动”模型[3]或机器学习(ML)模型,其训练速度快,预测结果较为准确,因此在水文领域越来越受欢迎。

在河流洪水预测中,模型输入通常包括给定站点的降水量、温度、风速、水位等[4-5],模型输出通常是水位或流量[6-8],以上变量中水位实际上更容易获取,更适合于洪水预警[9]。传统的ML 模型训练数据通常呈现表格形式,当数据量太过庞大时,会出现计算资源消耗过大、数据清洗和标注困难以及数据集不平衡等问题,从而影响模型训练效果。为了解决这一问题,本文以黄河利津水文站2022 年3 月19 日至2023 年3 月8日的水文数据为模型输入,将CEEMDAN 算法与LightGBM(Light Gradient Boosting Machine)模型相结合,对洪水数据进行多尺度分解和特征提取,构建CEEMDAN-LightGBM 模型,并将其与LSTM、LightGBM模型进行对比,以验证该模型的预测效果。此外,采用CEEMDAN-LightGBM 模型预测利津、花园口这2 个气候环境不同的水文站的水位和流量,比较预测结果,验证该模型的适应性和稳定性,以期为洪水预测提供新的理论依据和实践指导。






1  模型构建

为了清晰展示CEEMDAN-LightGBM 模型的优势,将其与LightGBM 模型和具有代表性的LSTM 模型进行对比,以下是各模型的简要介绍。

1.1  LSTM 模型

LSTM 模型具有与传统循环神经网络(RNN)相似的链形式结构,但是LSTM 单元中的内部操作更为复杂,这使LSTM 能够了解长短期依赖关系[10]。随着时间序列长度增加,RNN 在训练过程中可能会出现梯度消失或爆炸问题。而LSTM 的隐藏层采用自连接形式,通过引入“遗忘门”“输入门”和“输出门”3 种门结构控制细胞状态信息和隐藏层状态信息的传输与更新,从而在处理时间序列数据时解决了梯度消失或爆炸问题[11-12],其隐藏层结构见图1,其中: 为“输入门”的输出信号,也表示新记忆细胞;Ct-1Ct分别为t-1、t 时刻的细胞状态信息;ht-1ht分别为t-1、t 时刻的隐藏层状态信息;Xt 为t 时刻的输入值;σ 为Sigmoid激活函数;ftitot分别为“遗忘门”“输入门”“输出门”的控制系数;tanh 为双曲正切激活函数。


图1 LSTM 隐藏层结构
 










LSTM 隐藏层中“遗忘门”决定是否将前一时刻的细胞状态信息传递到当前时刻,即依据ft 决定是否保留t-1 时刻的细胞状态信息,ft值为0 ~1,其接近0 时表示完全遗忘信息,接近1 时表示保留全部信息。“输入门”决定当前输入对细胞状态的影响程度,即控制将多少新信息添加到细胞状态,其通过Sigmoid 激活函数确定哪些值应该更新。“输出门”决定当前单元状态对隐藏层状态和输出的影响,其通过Sigmoid激活函数确定输出内容。

LSTM 模型的表达式如下:

式中:WfWiWCWo为权重,bfbibCbo为偏置[13]

1.2  LightGBM 模型

LightGBM 是Ke 等[14]提出的一种类似于XGBoost的机器学习算法,也是一种改进的梯度提升决策树框架,其基本思想是对M 棵弱回归树线性组合为强回归树。当特征维度较高且数据量较大时,XGBoost 中的梯度提升决策树效率和可扩展性不高,而LightGBM 拥有的2 种特殊技术,即基于梯度的单侧采样(GOSS)技术和独占特征捆绑(EFB)技术,使其对多个公共数据集的执行速度比传统梯度提升决策树算法快20 倍以上,并且在准确性方面与传统方法几乎持平。LightGBM 使用GOSS 确定分裂点,其具体步骤如下:首先计算方差增益,按梯度绝对值对样本进行排序,选取梯度值排序前a×100%的样本,得到子集A;然后从保留的样本子集Ac中随机选择大小为的子集B;最后根据AB 的估计方差Vjd)进行分裂[15] Vjd)计算公式为

式中:N 为样本总数,Al为子集A 中满足特征j 中值≤阈值d 的样本集合,Ar为子集A 中满足特征j 中值>阈值d 的样本集合,Bl 为子集B 中满足特征j 中值≤阈值d 的样本集合,Br为子集B 中满足特征j 中值>阈值d 的样本集合,gi为损失函数的负梯度,a 和b 均为超参数,(d)为特征j 中值≤d 的左子节点中的样本数量,(d)为特征j 中值>d 的右子节点中的样本数量。

LightGBM 模型建模流程如下:

1)初始化,估计使损失函数极小化的常数值,表达式如下:

式中:L()为损失函数;f0x)为初始预测函数,通常作为整个梯度提升决策树模型的起点,其中x 为模型输入;yi为一维标签;c 为模型输出,即预测值。

2)以损失函数的负梯度来估计残差rmi,计算公式为

式中:fx)为输入变量x 的预测函数,fxi)为第i 个样本的预测函数,fm-1x)为第m-1 轮迭代时的预测函数。

3)拟合1 个回归树(第m 棵树),将其叶节点区域定为Rmj,利用线性搜索估计叶节点区域的值,使损失函数极小化,公式为

式中:cmj 为第m 棵回归树的第j 个叶节点的常数值,fm-1xi)为第i 个样本在第m-1 轮迭代时的预测函数。

4)更新回归树,表达式为

式中:fmx)为第m 轮迭代时的预测函数;J 为叶节点数量;I 为指示函数,取值为0 或1,用于表示样本是否属于某个叶节点区域。

5)迭代完成后得到最终LightGBM 模型,表达式为

式中:∑fMx) 为所有回归树的预测值之和。

1.3  CEEMDAN 算法

EMD、EEMD、CEEMD 都是信号处理算法。采用EMD 算法分解信号时存在模态混叠问题,而EEMD 和CEEMD 算法通过向待分解信号添加正负高斯白噪声可减少模态混叠问题,但CEEMD 算法分解信号时总会残留一定量的白噪声,影响信号后续处理和分析。为了解决以上问题,Torres 等[16]提出了CEEMDAN 算法,其可将复杂的非线性和非平稳信号分解成若干个固有模态函数(IMF),通过组合IMF 重构原始信号。CEEMDAN 算法具有较强的自适应性,广泛应用于信号处理和数据分析领域,其实现过程如下。

1)向原始信号Xt)中添加具有噪声标准差ε0的白噪声ωit),公式为

式中:Xit)为添加过白噪声后的信号。

2)对信号集进行EMD 分解操作,再对每个分解分量进行平均运算,公式为

式中:为所有IMF1 函数在t 时刻的均值,为第i 个IMF1 函数在t 时刻的值。

3)计算第一阶段的残差r1t),公式为

4)对信号r1t)+ε1EMD1ωit)]进行EMD 分解,计算第2 个IMF 模态,公式为

式中:为所有IMF2 函数在t 时刻的均值,EMD1 为由EMD 算法分解得到的第1 个IMF 模态。

5)计算第k+1 个IMF 分量和第k 个残差,公式为

式中:为所有IMFk+1 函数在t 时刻的均值,EMDk 为由EMD 算法分解得到的第k 个IMF 模态,rkt)为第k 个残差。

6)重复上述步骤直到残差分量不满足分解条件为止,最终得到

式中:Rt)为最终残差。

1.4  CEEMDAN-LightGBM 模型

CEEMDAN 算法在时间序列分解方面具有优势,而LightGBM 模型在回归分析中表现出色,将这2 种方法结合起来,得到一种新模型CEEMDAN-LightGBM。该模型运行包括3 个阶段:分解、个体预测和集成。在第1 阶段,采用CEEMDAN 模型将水文站的水位观测数据分解为k 个组件,也就是k 个IMF,这些组件分别显示出原始序列的高频特性或者低频特性。在第2 阶段,对于每个组件,使用LightGBM 分别构建1 个预测模型,并对每个组件进行预测,得到单独的预测结果。在第3 阶段,将所有组件的预测结果集成为最终结果。在众多组件预测结果集成方法中,选用加法进行集成。CEEMDAN-LightGBM 模型的预测流程见图2。

图2 CEEMDAN-LightGBM 模型预测流程
 









从图2 中可以看出,基于“分解与集成”框架的CEEMDAN-LightGBM 模型建模策略为典型的“分而治之”策略。该模型具有以下3 个优点:1)将基于原始序列预测水位的任务分为几个子任务,从更简单的组件进行预测。2)原始序列是非线性和非平稳的,而CEEMDAN-LightGBM 模型对每个分解组件都有相对简单的预测形式。3)使用简单的加法将子任务的结果集成为最终结果。


数据来源及预处理
2.1  数据来源

黄河水情呈现明显的季节性变化,极易受气候影响,流量波动大。为了保证实验的真实性与可靠性,选取黄河利津水文站2022 年3 月18 日至2023 年3 月8日每日12 时的水文观测数据作为原始数据。为了保证所用数据的真实性、可访问性和透明性,主要使用公开数据源[17],其中水位和流量数据源自全国水雨情信息网站,温度、湿度、风力和降水量源自中国气象局网站。

2.2  数据预处理

1)归一化处理。归一化常被称为标准化,为消除各变量之间量纲不同的影响,同时加快模型训练速度,往往需要对数据进行标准化处理[18]。根据本文数据特征,采用最大最小标准化进行处理,使模型的输入数据为[0,1],公式为

式中:x为归一化后的数据,x 为原始数据,xmax为原始数据中最大值,xmin为原始数据中最小值。

2)样本划分。为了评估模型性能并验证其预测效果,选取样本数据中75%数据作为训练集用于模型训练,其余25%为预测集用于验证模型的预测效果。



模型训练与预测结果分析
3.1  LSTM 模型

LSTM 模型包含1 个LSTM 层和1 个全连接层(Dense),LSTM 层有50 个单元,使用adam 优化器训练模型,学习率为0.001,迭代次数为100。完成上述训练后,输入数据得出LSTM 模型的水位预测结果,见图3。

图3 LSTM 模型的水位预测值与观测值对比
 












3.2  LightGBM模型

LightGBM 模型通过迭代训练多棵决策树来提高预测准确性。模型学习率为0.01,叶节点数(num_leaves)为31,特征抽样率为0.9,每次迭代时用的数据比例(bagging_fraction)为0.8,迭代次数为5 后停止训练,如果在连续5 次迭代过程中验证集的均方根误差没有减小,则停止训练,避免过拟合。LightGBM 模型的水位预测结果见图4。

图4 LightGBM 模型的水位预测值与观测值对比
 












3.3  CEEMDAN-LightGBM 模型

CEEMDAN-LightGBM 结合CEEMDAN 算法和LightGBM 模型预测水位。CEEMDAN 算法的主要参数如下:max_imf(最大本征模态函数数量)为2,控制白噪声强度为0.2,使用SIFT(单步插值优化的快速正则化)次数为10。LightGBM 主要参数如下:提升类型(boosting_type)为gbdt,使用梯度提升决策树;目标函数为regression,表示执行回归任务;每棵树贡献的学习率为0.01;每棵决策树的叶节点数为31;每次迭代过程中随机选择的特征比例(feature_fraction)为0.9;每次迭代过程中随机选择的数据比例为0.8;每5 次迭代进行一次bagging。

通过预测水位和流量变化趋势,能够及时预警和应对潜在的洪水事件,最大限度地减少损失,因此采用CEEMDAN-LightGBM 模型分别预测水文站的水位和流量。此外,为评估CEEMDAN-LightGBM 模型预测不同气候环境水文站水位和流量的适应性与稳定性,选取花园口水文站水文数据,比较模型的预测结果,见图5~图8。

图5 CEEMDAN-LightGBM 模型预测利津水文站水位结果
 












图6 CEEMDAN-LightGBM 模型预测利津水文站流量结果
 













图7 CEEMDAN-LightGBM 模型预测花园口水文站水位结果
 












图8 CEEMDAN-LightGBM 模型预测花园口水文站流量结果
 












3.4  模型预测精度评价

3.4.1 3 种模型预测精度对比

为了更好地描述模型输出的准确性与泛化性,采用EMA(平均绝对误差)、ERMS(均方根误差)、EMAP(平均绝对百分比误差)和R2(拟合优度)对模型进行评估[19]R2 越大,模拟精度越高,其值为0 ~1;相反,EMAERMSEMAP越小,模型的性能越好。计算公式如下:

式中:N 为样本总数,PiOi 分别为第i 个样本的预测值、观测值,O为观测值的平均值。

LSTM、LightGBM 和CEEMDAN-LightGBM 模型的预测精度评价指标值见表1。

表1 模型的预测精度评价指标值
 










分析表1 得出,与LSTM、LightGBM 模型相比,CEEMDAN-LightGBM 模型的EMA 分别降低了46.08%、9.95%,ERMS分别降低了33.01%、43.01%,EMAP 分别降低了94.99%、3.82%,R2 分别提升了30.48%、7.58%。由此说明,CEEMDAN-LightGBM 模型对非线性时间序列的预测具有良好效果。

3.4.2 CEEMDAN-LightGBM 模型多因素输出效果

对汛期水位受多重因素影响而导致模型预测精度不高的问题,采用多重输出的方法进行洪水预测。具体而言,利用CEEMDAN-LightGBM 模型对水文数据进行处理,将水位和流量作为多重输出,预测精度评价指标值见表2。

表2 CEEMDAN-LightGBM 模型预测利津、花园口水文站水位与流量的精度评价指标值
 










分析表2 可得,CEEMDAN-LightGBM 模型除预测利津、花园口水文站水位的EMAP值相差23.64%外,EMA值、EMAP值和ERMS 值相差不超过10%,R2 相差不超过2%。这种波动的主要原因是2 个站点的流量数据变化较大,导致模型在训练过程中表现不够稳定,使模型的性能受到影响。


4  结论

本文提出了一种CEEMDAN-LightGBM 模型,预测给定水文站水位。将2022 年3 月19 日至2023 年3月8 日利津水文站的水文数据作为模型输入,以LSTM、LightGBM 为对照模型,与CEEMDAN-LightGBM模型的预测水位进行对比。另基于与利津水文站气候差别较大的花园口水文站水文数据,研究CEEMDANLightGBM 模型的适用性。研究结果显示,相比于LSTM、LightGBM 模型,CEEMDAN-LightGBM 模型在洪水预测方面表现得更加优秀,其预测值更接近观测值,预测精度更高。这表明在时间序列预测中,CEEMDAN-LightGBM 模型的兼容性更强,能加快数据处理速度、提高精确度,从而提升洪水预报的效率。

黄河水情极为复杂,尤其在极端气候事件频发的情况下,水文数据常常出现突变。黄河及其支流水位呈非线性变化,这些变化往往受到多种气象因素(如强降水、强风等)的影响。现有的预测模型在捕捉水文数据突变及其后续影响上存在挑战,尤其是在极端气候事件频发时。当前采用的CEEMDAN-LightGBM模型面对突变数据的预测能力存在一定不足,需要进一步改进和优化。未来的改进方向包括但不限于增强模型对突变数据的适应能力,可能需要引入更灵活的模型结构或者加强数据预处理能力,以进一步提高模型的稳健性和准确性。此外,对于极端气候事件的响应机制也需要加强,以更有效地预测和应对黄河水情的突发变化。


上下滑动查看参考文献

[1] NABIL H,OLIVIER P,FRANÇOIS B,et al.Performance of Automated Methods for Flash Flood Inundation Mapping:A Comparison of a Digital Terrain Model (DTM) Filling and Two Hydrodynamic Methods[J].Hydrology and Earth System Sciences,2021,25(6):2979-2995.

[2] LIU C J,GUO L,YE L,et al.A Review of Advances in China's Flash Flood Early-Warning System[J].Natural Hazards,2018,92(7):619-634.

[3] MOSAVI A,OZTURK P,CHAU K W.Flood Prediction Using Machine Learning Models:Literature Review[J]. Water,2018,10(11):1536.

[4] SEE L,OPENSHAW S.Applying Soft Computing Approaches to River Level Forecasting[J].Hydrological Sciences Journal,1999,44(5):763-778.

[5] HSU M H,LIN S H,FU J C,et al. Longitudinal Stage Profiles Forecasting in Rivers for Flash Floods[J].Journal of Hydrology,2010,388(3-4):426-437.

[6] CHANG F J,LIANG J M,CHEN Y C.Flood Forecasting Using Radial Basis Function Neural Networks[J].IEEE Transactions on Systems,Man and Cybernetics-Part C:Applications and Reviews,2001,31(4):530-535.

[7] DORA R M,ERNEST L,VASUDEVA K,et al.Exploring a Long Short-Term Memory Based Encoder-Decoder Framework for Multi-Step-Ahead Flood Forecasting[J].Journal of Hydrology,2020,583:124631.

[8] YILMAZ A G,MUTTIL N.Runoff Estimation by Machine Learning Methods and Application to the Euphrates Basin in Turkey[J].Journal of Hydrologic Engineering,2013,19(5):1015-1025.

[9] YU P S,CHEN S T,CHANG I F.Support Vector Regression for Real-Time Flood Stage Forecasting[J].Journal of Hydrology,2006,328(3-4):704-716.

[10] YU W,GONZALEZ J,LI X.Fast Training of Deep LSTM Networks with Guaranteed Stability for Nonlinear System Modeling[J].Neurocomputing,2020,422:85-94.

[11] LI Y R,ZHU Z F,KONG D Q,et al.Ea-Lstm:Evolutionary Attention-Based Lstm for Time Series Prediction[J].Knowledge-Based Systems,2019,181:104785.

[12] HOCHREITER S,SCHMIDHUBER J.Long Short-Term Memory[J].Neural Computation,1997,9(8):1735-1780.

[13] 王军,高梓勋,朱永明.基于CNN-LSTM 模型的黄河水质预测研究[J].人民黄河,2021,43(5):96-99,109.

[14] KE G,MENG Q,FINLEY T,et al.Lightgbm:A Highly Efficient Gradient Boosting Decision Tree[J].Advances in Neural Information Processing Systems,2017,30:3146-3154.

[15] CHEN C,ZHANG Q M,MA Q,et al.LightGBM-PPI:Predicting Protein-Protein Interactions Through LightGBM with Multi-Information Fusion[J].Chemometrics and Intelligent Laboratory Systems,2019,191:54-64.

[16] TORRES M E,COLOMINAS M A,SCHLOTTHAUER G,et al.A Complete Ensemble Empirical Mode Decomposition with Adaptive Noise[C]//Proceedings of 2011 IEEE International Conference on Acoustics,Speech and Signal Processing.Prague:IEEE,2011:4144-4147

[17] 王军.黄河流域空天地一体化大数据平台架构及关键技术研究[J].人民黄河,2021,43(4):6-12.

[18] 李蒙.基于深度神经网络土壤墒情预测方法的研究[D].合肥:安徽农业大学,2019:24-25.

[19] 王军,马小越,张宇航,等.基于SSA-LSTM 模型的黄河水位预测研究[J].人民黄河,2023,45(9):65-69.


END




 

喜欢就关注我们吧!

点个在看你最好看



人民黄河
重点刊载最新黄河治理与水利科技成果、学术论述及行业动态,介绍国内外水利先进技术。
 最新文章