文献总结 | WR:利用分类和回归模型对伊利湖藻华进行短期预测

文摘   2024-09-26 17:49   陕西  

点击上方湖泊遥感与智慧流域关注我们

研究背景
RESEARCH BACKGROUND
有害藻华不仅可以释放大量毒素,危害人体健康,还会导致氧气消耗,使水体变成死水区。由于伊利湖的藻华恶化会直接影响到整个流域的数百万居民,因此及时准确的预测藻华信息至关重要。以往藻华预测研究常常受限于较小的数据集,有限类型的输入特征,传统的线性回归或复杂的基于过程计算方式。为了突破这些限制,该研究基于大型数据集以及一种创新性的组合输入特征,在模型开发过程中,进行了精细的特征选择,并首次在伊利湖的藻华模型中同时考虑了长短期氮负荷。基于分类和回归模型,以实现伊利湖短期(10天尺度)藻华暴发的预测。
研究区域与方法
1、研究区域
由于伊利湖的藻华发生主要在伊利湖西部,因此研究区域集中在WLEB,即从加拿大的Point Pelee到俄亥俄州的Marblehead的线左侧约3000 km2的区域(图1)。从卫星影像中提取10天复合叶绿素a指数(CI),即10天窗口内的最大CI值,通过CI值对藻华进行量化。此外,根据藻华的严重程度(轻度、中度、显著和极端),以及严重程度指数将CI值分为2、3、4个等级(表1),并将这些等级设置为分类模型的输出变量。

图1 2015年8月10日至19日,伊利湖最大水华程度的监测卫星图像。

表1 将CI值划分为不同严重等级方式(SI =严重性指数)

2、输入特征的选择

为了全面确定可能影响藻华暴发的所有潜在相关因素,研究考虑了水动力、气象、物理化学等因素。由于CI数据为10天复合值,因此选取的特征大部分被聚合为10天平均值,使得输入和输出在维度上匹配。在藻华发生和达到峰值之前,藻华对环境条件的反应可能存在延迟(时间滞后)。因此,研究通过计算特征的20天和30天平均值(表2)来考虑时滞,以捕获以前和当前的条件,例如温度特征包含tem10、tem20和TEM30,并排除特征重要值最小的特征,然后排除重要值不显著的特征类型。由于部分特征之间的相关性较高,研究根据Pearson系数对数据进行分析,排除部分相关性较高的特征。基于此,研究获得了一个包含50个输入特征的初始列表(表2)。

表2 初始输入特征

3、模型开发

将所有数据按4:1的比例分成训练数据集和测试数据集,将训练数据集进一步分成5个部分进行5折交叉验证。特征选择过程包括依次识别最不重要的特征并排除它们,直到获得最小数量的特征,同时仍然保持良好的模型性能 (图2C)。采用R2和均方根误差(RMSE)值对得到的回归模型进行评价;通过预测精度、混淆矩阵和Kappa系数对得到的分类模型进行评价。

为了选择最佳的机器学习算法进行建模,文中比较了9种广泛使用的机器学习算法的性能:人工神经网络(ANN)、装袋集成学习(BA)、梯度增强(GB)、高斯过程(GP)、K最邻近(KNN)、长短期记忆网络(LSTM)、随机森林(RF)、支持向量机(SVM)和极端梯度提升(XGB)。在模型训练过程中对以上所有算法的超参数进行优化。其中,RF在分类和回归模型中都优于所有其他模型。因此,在特征选择过程中确定了重要特征之后,使用这些特征作为输入构建RF模型。并以2002-2016年的数据为基础,对2017-2019年的藻华进行预测,进一步评价RF分类模型的实用性。

图2 模型开发流程

4、基于长短期记忆(LSTM)的时间序列建模

模型应用的一个主要限制是许多输入特征并不实时可用。为了补充这些特征,使用数据驱动模型预测这些特征较为可靠。LSTM是一种用于时间序列数据建模的深度学习算法。它可以克服平稳时间序列的问题,能够学习长期和短期的变化模式。研究利用LSTM对选定的河流和气象特征,如N30、SOL30、WLD20和WLM10等特征进行了优化。并将这些预测值用于输入至RF2模型中,用于预测藻华,并对性能进行了评估。
研究结果
1RF分类与回归模型

在分类模型中,根据表1所示的严重性指数,将CI值初始分为4个级别,作为4级RF分类模型的输出。然而,如表1所示的数据,1级(RF4-L1)藻华有148个数据点,而2-4级(RF4-L2至L4)藻华只有24至37个数据点。整个数据集非常不平衡,需要进一步将数据分为2级和3级。对于每个分类模型,研究均使用特征选择过程来消除不重要的特征,同时保持模型的性能,最终只剩下8到9个最重要的特征被用来构建最终的模型。

在回归模型中,研究使用了RF回归模型来预测藻华程度。结果显示,模型在训练集上的R2为0.72,在测试集上的R2为0.69(图3b)。

图3 (a) RF2、RF3和RF4模型在测试数据集上的预测精度。(b) RF回归模型在训练(灰色)和测试(红色)数据集上的性能。

2LSTM对输入特征的优化建模

在RF2模型的前8个输入特征中,有4个是短期变量(SOL、N、WLD和WLM),由于短期特征不易实时获得,但利用短期特征构建预测模型较为关键。图4c显示了LSTM模型在10天尺度上对4个短期特征的表现。SOL10、WLD10和WLM10的NSE值均为0.88 ~ 0.97。N10的NSE较低,为0.12。使用优化后的LSTM模型来预测的4个特征值与观测值吻合较好,SOL10、WLD10和WLM10的R2分别为0.75、0.92和0.89,N10的R2为0.22。N10的R2值较低可能是由于较高的数据波动。将预测的10天平均值与历史数据结合计算SOL30、WLD20和N30,预测和观测数据的R2分别为0.94、0.9和0.9,吻合度较好。

此外,优化后的LSTM模型在日尺度下对10个参数的性能总体如图4d所示。除TKN(0.60)和SOL(0.62)外,所有模型的NSE值均大于0.8。虽然TKN的NSE较低,为0.60,但由于RF模型中使用了N,因此N在日尺度上的良好NSE为0.87更为重要。

图4  RF2-L1与RF2-L2藻华对应的箱形图(a) WLD20和(b) WLM10。基于参数本身的LSTM模型性能(NSE)作为(c)基于10天平均值的4个特征和(d)基于日平均值的10个特征的输入。

3、对特征重要性的解释

该文使用了Shapley特征解释方法验证了特征之间的相关性,并发现了8个最重要的特征,包括5TN、N30、time period、WLM10、WLD20、SSRP、SOL30和STN。这些特征的重要性排名与它们在建模中的显著作用相一致。特别是,5TN、N30和STN的重要性表明了氮在建模中的重要性,这为进一步的研究提供了价值参照。

较多的研究者在开发WLEB模型时一直关注P。然而,春季全氮负荷是夏末藻华生长暴发所必需的。N在WLEB藻华形成中可能发挥重要作用,并且有必要在模型中整合基于N的特征,如5TN和N30,以分别捕捉长期和短期N负荷的影响。
总结讨论

该研究构建了一种分类和回归模型来预测WLEB的短期(10天尺度)藻华,并在测试集中实现了高达89.6%的准确率(2级分类),最终使用的建模方式见图5。这些模型填补了每周两次和每年一次的藻华预测之间的空白。通过特征选择,该研究确定了8个影响藻华发生的特征:5TN>N30>时间>WLM10>WLD20>SSRP>SOL30>STN,其中5TN、STN和N30是藻华建模中优先考虑的特征。这些特征有助于建立更准确的模型,以更好地预测未来藻华。

5 最终RF2模型的概览
✎ 编者注

以上总结仅代表个人对论文的理解,仅供研究参考所用,不用于商业用途。若上述理解内容有误,请以论文原文为主。未经同意,禁止转载。


原文链接 ↓
https://doi.org/10.1016/j.watres.2023.119710

点击左下方 “阅读原文” 可下载论文原文。



团队介绍

湖泊遥感与智慧流域创新团队,主要围绕湖泊开展历史重构、现状观测和未来变化模拟等模型研制和应用实践工作,并在流域尺度开展大数据智慧管理平台研究,保障湖泊水质安全。团队拥有博士和硕士导师5人(段洪涛,罗菊花,刘东,谭振宇,邱银国),可分别在中国科学院南京地理与湖泊研究所、西北大学以及南京信息工程大学(国科大南京学院联合培养)等招收博、硕士研究生,欢迎报考!同时,长期招收联合培养研究生,欢迎咨询!

联系人:段洪涛研究员,htduan@niglas.ac.cn

点击下方链接直接关注我们

科学前沿丨文献总结 | WR:浅水湖泊溶解二氧化碳和甲烷浓度对变暖的响应
科学前沿丨文献总结 | Nature Sustainability:城市河流污染导致全球温室气体排放量上升
科学前沿丨文献总结 | WR:受养分输入控制的农业沟渠是温室气体排放热点
科学前沿丨文献总结 | RSE:考虑近红外非零反射的高光谱太阳耀光校正算法
团队成果 | JAG:基于摄像头RGB图像的蓝藻水华动态实时监测算法研究
团队成果 | 湖泊草藻不同群落遥感自动识别算法研究取得进展
团队动态 | 段洪涛研究员连续4年入选全球前2%科学家榜单
团队动态段洪涛研究员荣获朱李月华优秀教师奖

湖泊遥感与智慧流域
围绕“湖泊遥感与智慧流域”方向,介绍学科方向前沿,分享团队研究成果和动态,提供论文下载和数据共享等服务。版权所有 @ NN TEAM联合创新团队(NIGLAS & NWU Innovation Team)
 最新文章