有害藻华通常伴随着蓝藻菌(CyanoHABs)的大量生长,蓝藻菌可以产生蓝藻毒素,如微囊藻毒素、拟柱孢藻毒素。这些毒素会对人类、动物和其他生物产生严重危害。因此,世界上许多国家和地方政府一直在定期监测内陆水资源中的蓝藻毒素,当蓝藻毒素浓度超过一定阈值时,便需采取防治措施。
当前研究常采用微囊藻毒素浓度作为目标参数,建立提前预测微囊藻毒素浓度的回归模型。然而,由于蓝藻毒素受化学、生物和气候因素的复杂相互作用控制,这些模型很少纳入不同的参数作为输入变量,特别是氮、磷和生物学参数等重要因素。因此利用单因素的相关性在预测有害藻华的发生方面并不是很有效。针对该限制,本研究收集了2018年至2021年间的爱荷华州38个湖泊的水样数据,以微囊藻毒素浓度为目标变量,将各种生物学、化学、气候和土地利用参数作为输入变量。研究旨在实现两个主要目标:(1)确定具有较强预测能力的关键指标;(2)建立一个提前一周预测有害藻华事件的分类模型。
(1) 化学参数:2018年至2021年期间,爱荷华州38个湖泊的水样数据以每周尺度进行收集,共收集了1591个水样。主要测定的化学参数包括:微囊藻毒素浓度、PH、溶解性有机碳(DOC)、氯化物(Cl-)、总凯氏氮(TKN)、总凯氏磷(TKP)、正磷酸盐(ortho-P)、总磷(TP)。(2) 生物参数:主要测定湖泊水样中微囊藻毒素合成酶A基因(mcyA),包括微囊藻属的mcyA基因拷贝(mcyA_M)、浮丝藻属的mcyA基因拷贝(mcyA_P)、鱼腥藻属的mcyA基因拷贝(mcyA_A)、细菌16S
rRNA基因拷贝(16S rRNA)、微囊藻mcyA与细菌16S rRNA基因拷贝数之比(mcyA_M:16S)。(3) 土地利用数据:土地利用信息来自国家土地覆盖数据库(NLCD)。确定每个采样点1公里范围内每个土地利用类别的百分比,并将其作为每次观测的附加变量添加。(4) 气候数据:气候数据来自当地气象站,收集离每个采样点最近气象站的7天平均温度、湿度、露点温度、风速、阵风速度和降水。(1) 数据处理策略:根据美国环保署建议的微囊藻毒素浓度阈值(8μg/L),将湖泊水样中的微囊藻毒素浓度分为“危险”和“安全”两类。在1591个样本中,79个样本被标记为“危险”,1512个样本被标记为“安全”。由于数据是每周收集的,因此将每周的输入变量与下一周的微囊藻毒素安全水平(即危险或安全)配对,构建提前一周的预测模型。根据图1对原始数据集进行重排,共使用1473对输入变量和目标变量进行分析(其中“危险”标签70件,“安全”标签1403件)。将数据分为训练集和测试集(8:2)。训练集包含56个危险案例和1122个安全案例,测试集包含14个危险案例和281个安全案例。并对训练集分别利用过采样和降采样来平衡类的比例,以解决类的不平衡问题。在降采样过程中,多数类(即安全类)被随机降采样,以匹配少数类(即危险类)的观测值。过采样过程通过SMOTE算法生成危险类的模拟观测值,直到少数类的观测值与多数类的观测值相等。未经调整的初始训练集也用于后续程序。这三种不同的训练集(过采样和降采样、原始)分别用于模型训练并评估。此外利用Wilcoxon秩和检验评估危险组和安全组之间输入变量平均值差异的显著性。(2) 特征选择:为确保特征集的一致性,并增强预测危险和安全类别的模型性能评估,使用LASSO模型和XGBoost模型进行特征选择。LASSO是一种线性模型,而XGBoost擅长于通过非线性建模来分析复杂关系。结合这两种模型的目的是创建一个更全面的特征选择方法,最终能够提高预测性能。在训练过程中为每个特征分配重要性分数,选择总体平均重要性得分较高的特征构建最终模型。(3) 模型训练及性能评估:分别使用XGBoost、Neural
Network和Logistic Regression三种模型进行特征集的训练,且每个模型均进行超参数调优。模型性能评估指标包括ROC-AUC、accuracy(准确性,即所有预测中正确预测的比例)、sensitivity(敏感性,即属于危险类别的样本正确预测的比例)、specificity(特异性,即属于安全类别的样本正确预测的比例)。此外,为了直观地呈现每个模型的整体性能,使用了似然比(即比较事件发生的概率与不发生的概率的比率)。似然比包括阳性试验结果的似然比(LR+)和阴性试验结果的似然比(LR−)。似然比为1.0意味着特定检测结果在阳性和阴性试验结果之间的概率没有差异,具有较高LR+或较低LR−的模型可以预期表现出更好的性能。50个“危险”样本主要集中在3个地点:Darling海滩(19次),Green Valley海滩(18次)和Three Fires海滩(13次)(表1)。同时结合在Union Grove海滩(7次)和Viking湖海滩(7次)发生的“危险”样本数量,共占有81%(64/79)的有害藻华发生次数。但总的来说,监测数据表明,有害藻华发生的模式既不可预测,也不一致。表1 按照地点和年份划分的有害藻华发生次数
Wilcoxon秩和检验分析表明,27个输入变量中有10个变量对应的危险组和安全组之间存在显著差异(p<0.001)(表2)。其中,与微囊藻毒素产生直接相关的mcyA基因拷贝(mcyA_M)在危险情况下与安全样本相比高出约20倍。同样,mcyA_M:16S的平均比值在危险组高达0.18,而在安全组为0.02。此外,通过对重新排列的数据集进行特征选择,根据最终的平均归一化特征重要性得分,确定了9个因素具有高于平均水平的预测能力(图2)。重要性由高至低排序依次为:mcyA_M、TKN、%hay/pasture、pH、mcyA_M:16S、%developed、DOC、dewpoint、ortho-P。表2 “危险”样本与“安全”样本之间所有变量的Wilcoxon秩和检验汇总图2 重要性分数由(a)LASSO模型和(b)XGBoost模型训练得出。根据LASSO和XGBoost的归一化得分,得出(c)平均归一化重要性得分。0分表示该特征的预测能力一般,小于0分表示该特征的预测能力低于平均水平,大于0分表示该特征的预测能力高于平均水平。使用不同的指标分别对XGBoost、Neural Network和Logistic Regression模型在测试集上的性能进行比较(表3)。未进行类间不平衡调整的原始训练集的三个模型在ROC-AUC、准确性和特异性方面得分较高,而灵敏度得分较低(XGBoost为0.357,Neural Network为0.286,Logistic Regression为0.000)。较低的灵敏度分数表明模型不能正确预测危险情况,因此在未进行类不平衡调整的训练集上建立的模型被排除在进一步考虑之外。过采样策略下的Neural Network模型在所有评价指标上的得分最为一致,即均普遍较高。此外,降采样策略下的XGBoost模型在预测能力的不同方面都表现出色。但LR+值略低,1/LR−值明显较高,而过采样策略下的Neural Network模型在所有指标上表现出平衡的特性。综上所述,提前一周的有害藻华预测模型性能评估结果表明,过采样策略下的Neural Network模型具有较强的性能。表3 训练模型的测试集性能指标比较
本研究的主要目的是确定有害藻华发生的预测因素,并建立能够提前一周预测微囊藻毒素浓度是否会超过安全阈值的分类模型。特征选择优选了9个关键因素,包括生物参数(mcyA_M,mcyA_M:16S)、化学参数(TKN、pH、DOC、ortho-p)、土地利用数据(%hay/pasture、%developed)和气象数据(dewpoint)。基于6个性能指标(ROC-AUC、准确性、灵敏度、特异性、LR+和1/LR−)的机器学习模型评估,推荐了过采样策略下的Neural Network模型。总的来说,研究强调了机器学习模型在预测有害藻华方面的潜力,并强调了影响有害藻华发生的综合因素的重要性。
以上总结仅代表个人对论文的理解,仅供研究参考所用,不用于商业用途。若上述理解内容有误,请以论文原文为主。未经同意,禁止转载。
https://doi.org/10.1021/acs.est.3c07764点击左下方 “阅读原文” 可下载论文原文。
湖泊遥感与智慧流域创新团队,主要围绕湖泊开展历史重构、现状观测和未来变化模拟等模型研制和应用实践工作,并在流域尺度开展大数据智慧管理平台研究,保障湖泊水质安全。团队拥有博士和硕士导师4人(段洪涛,罗菊花,刘东,谭振宇),可分别在中国科学院南京地理与湖泊研究所、西北大学以及南京信息工程大学(国科大南京学院联合培养)等招收博、硕士研究生,欢迎报考!同时,长期招收联合培养研究生,欢迎咨询!
联系人:段洪涛研究员,htduan@niglas.ac.cn。