近日,中国科学院成都生物研究所在环境领域著名学术期刊Environmental Science & Technology上发表了题为“Selectively Quantify Toxic Pollutants in Water by Machine Learning Empowered Electrochemical Biosensor”的研究论文。该论文第一作者/通讯作者为中科院成都生物研究所青年研究员汪婧婷,共同通讯作者为丹麦技术大学Yifeng Zhang教授。合作作者包括还包括四川农业大学沈飞教授、中国科学院成都生物研究所博士生郑德聪、中国科学院成都山地灾害与环境研究所博士生黄迪文等。文中提出了一种机器学习驱动的电化学生物生物膜传感器用以选择性定量监测复杂水体中的目标毒性物质。基于四种目标毒物(Cd2+、Cr6+、TCAA、TCS)的电化学响应数据构建的OMEA-ANN模型能够精准识别复杂水体中四种目标毒物的类型及其浓度。本文解决了传统电化学生物膜传感器的局限性,扩大了电化学生物膜传感器对水中多种有毒物质检测的适用性,为污水的智能管理提供了有价值的见解。
引言
水质监测是环境保护的重要组成部分。电活性生物膜(EAB)传感器因其具有高灵敏度、快速响应和成本低而被广泛应用于水污染监测。EAB传感器可以根据电活性生物膜产生的各种电信号(如电流、电位、电导率、阻抗等)快速准确地检测污染物。然而,EAB传感器输出的电信号是一个综合响应结果,因此传统EAB传感器难以同时检测复杂水体中的多种目标毒物。近年来,随着计算机科学的进步,机器学习(ML)已被广泛应用于环境污染评价、废水管理、环境分析等环境领域,为水中有毒物质的检测提供了启示。因此,本研究中首先开发了基于生物毒性传感的EAB传感器,以获取各种单一和复杂毒物的电化学特征响应数据,并提取关键参数。然后,将思维进化算法与人工神经网络相结合构建了毒物预测模型(MEA-ANN),通过MEA-ANN对提取的特征参数进行分析,评估了模型对水中复杂毒物的预测性能。进一步采用平均影响值算法对提取的特征参数进行筛选,提高了MEA-ANN模型的预测精度。利用不同的实际水样(包括河水、地下水和垃圾渗滤液等)验证了模型的可行性。
图文导读
电化学响应特征参数的选择
图1:基于循环伏安曲线的电化学响应参数选择示意图。
为了全面描述毒性冲击后EAB传感器电化学响应特性的变化,基于不同毒性冲击后的循环伏安曲线,提取了11个描述性参数和10个响应参数作为预测模型数据集的输入参数。
图2:本研究的工作流程示意图。
本研究利用思维进化算法(MEA)来设置初始化人工神经网络(ANN)结构的超参数(例如权值和阈值),从而构建MEA-ANN模型。ANN模型包括三层:(i)具有10个响应参数的输入层,(ii)用于非线性数据转换的隐藏层,(iii)使用4位数的二进制代码代表毒物类型识别的输出层。基于自定义代码符号设置,通过二进制代码来建立模型的预测毒药类型和实际毒物类型。
EAB传感器对混合毒物的电化学响应
图3:混合毒物毒性冲击后生物传感器输出电信号的变化。横坐标表示有毒物质的种类和浓度。A: TCAA + Cr6+和TCS + Cr6+;B: TCAA + Cd2+;C: TCS + Cd2+、TCS + TCAA;D: Cd2++ Cr6+和Cd2++ Cr6++ TCAA。
利用构建的稳定的EAB传感器对混合污染物进行检测。电化学响应结果如图3所示。通过建立基于污染物浓度和相应的Ishock变化的线性相关性,我们证明了Ishock变化的大小确实可以用于污染物浓度的定量测定。但是,这种方法只适用于存在单一污染物的情况,而实际水体通常含有多种污染物。利用Ishock -tail作为新的响应指标,我们观察到Ishock -tail随污染物浓度的增加而减小,但减小的程度与Ishock的减小程度不一致。这表明,无论指标是Ishock还是Ishock -tail,仅依靠单一的响应指标都不足以建立输出电信号与污染物之间全面、准确的相关性。
MEA-ANN训练模型成功预测毒物
图4: MEA-ANN、SVM、RF和KNN模型对Cd2+ (A)、Cr6+ (B)、TCS (C)和TCAA (D)的预测结果。
在复合毒物污染系统中,使用单一反应指标的传统方法在实现多毒物感知方面面临挑战。为了实现对混合系统中每种毒物的精确定性和定量识别,我们采用MEA-ANN模型对从93个数据集提取的多个反应指标进行训练和分析,每个数据集代表不同的毒物类型和浓度组合,从而建立了多毒物预测模型。MEA-ANN预测结果能够准确识别多毒物系统中的不同毒物类型,其中Cd2+、Cr6+、TCS和TCAA的预测准确率分别达到100%、97.8%、92.5%和86.07%,毒物类型的总体预测准确率达到90.32%。在成功识别混合毒物中各种毒物的类型后,我们进一步探究了MEA-ANN模型预测其浓度的准确性。图4比较了三种常见ML算法(RF、KNN和SVM)预测混合毒物中各种毒物浓度的预测结果。在多毒物系统中,MEA-ANN模型对4种毒物的浓度预测效果较好(R2 = 0.903 ~ 0.975)。与其他模型(RF、KNN和SVM)相比,MEA-ANN模型具有显著的优势,这表明MEA-ANN模型可以成功预测这四种混合毒物中每种毒物的浓度。MEA-ANN模型对四种毒物的整体预测能力明显优于其他三种模型。本研究采用结合迭代误差统计的MEA-ANN系统模型确定隐层神经元的最优数量,并通过交叉验证评估泛化误差,实现了对混合毒素中各毒素浓度的稳定、准确预测。与先前的研究相比,该方法显示出更好的预测性能。综上所述,本研究建立的MEA-ANN模型有效地实现了多毒物系统中各毒物的定性识别和定量检测。
通过对特征响应参数筛选以提高MEA-ANN模型的预测性能和效率
图5:不同输入特征参数对不同毒物(Cd2+ (A)、Cr6+ (B)、TCS (C)、TCAA (D))预测结果的相对贡献,以及模型优化评价后各毒物(Cd2+ (E)、Cr6+ (F)、TCS (G)、TCAA (H))的预测效果。
为了进一步简化预测模型,提高其稳定性和预测性能,我们采用平均响应值算法(MIV)筛选来简化输入特征参数。该方法旨在提高模型的计算效率,并在确保预测准确性的同时开发更快,更节能的ML算法。MIV反映了各个特征参数对预测结果的影响,输入参数与输出结果之间的相关性由MIV的绝对值来评价。图5说明了10个输入特征参数对各种毒物输出结果的相对贡献。MIV的绝对值表明不同输入参数对多种毒物的预测有不同程度的贡献和正相关或负相关。这些差异主要是由于毒物的不同生物毒性机制所致。在10个输入特征参数中,k0.550V和k0.525V对4种毒物的预测贡献较小(<0.008)。预测精度的下降表明该方法没有达到模型优化的目的,导致该方法被放弃。预测精度的降低表明该方法没有达到模型优化的目标,导致该方法被放弃。此外,由于k0.525V对预测四种毒物的贡献很小,我们试图通过删除该参数并重新优化该模型(OMEA-ANN)。重新优化后,该模型对毒物类型的总体预测准确率为92.68%。Cd2+、Cr6+、TCS和TCAA的定性预测准确率分别提高到100%、97.8%、95.6%和96.77%。与优化前相比,该模型对TCS浓度的预测略有下降,对所有其他毒素的预测均有所改善(图5)。Cd2+、Cr6+、TCS和TCAA浓度预测的R2值分别为0.994、0.970、0.920和0.968。此外,RSME和MAE值最小,表明该模型在浓度预测方面具有良好的性能。该模型在保留完整信息的同时降低了原始数据集的维数。在保证预测精度的同时,将模型的训练时间额外减少了17%,提高了计算效率,达到了模型优化的目的。使用MIV过滤特征输入参数以提高ML计算效率对于智能水毒性预警系统至关重要,特别是在处理大量数据集时。
OMEA-ANN模型具有良好的抗干扰性和预测性能
图6:在类似毒物存在体系中,OMEA-ANN模型的抗干扰能力(A),以及对目标毒物(Cd2+ (B)、Cr6+ (C)、TCS (D)、TCAA (E))的预测性能评价。
真实的水环境除了目标毒物外,通常还含有各种污染物,不可避免地会对目标毒物预测产生干扰。为了评价OMEA-ANN模型对类似污染物的抗干扰性能,我们对数据集的电化学响应参数进行了分析,得到了该模型的预测结果(图6)。结果表明,当检测系统中只存在干扰毒物Zn2+、DCAA和Cu2+且不存在目标毒物时,OMEA-ANN模型对Zn2+、DCAA和Cu2+的抗干扰率分别为100%、100%和80% (图6A)。这表明,在检测过程中,OMEA-ANN模型能够有效地消除Zn2+和DCAA的干扰。然而,当输入10次Cu2+的特征响应参数时,OMEA-ANN模型将Cu2+误识别为Cd2+两次。这种误差可能是由于Cu2+在这两种浓度下的特征输入参数与Cd2+的特征输入参数非常相似。
此外,我们评估了不同浓度的干扰毒物与不同浓度的目标毒物混合时OMEA-ANN模型的预测精度(图6A)。当组合中含有Zn2++Cd2+、Cu2++Cr6+和Zn2++TCS时,OMEA-ANN模型能100%有效地消除其他毒物的干扰,仅准确识别目标毒物Cd2+、Cr6+和TCS。对Cd2+、Cr6+和TCS预测的R2值(0.9680,0.9602,0.9087)、MAE值(0.001±0.007,0.001±0.0004,0.025±0.095)和RMSE值(0.007±0.032,0.003±0.009,0.045±0.151)结果均表明该模型具有较高的准确性。因此,即使存在类似干扰元素的情况下,OMEA-ANN模型也能准确识别目标毒物类型并保持精确的定量能力。在含有TCAA和DCAA的混合物的情况下,OMEA-ANN模型有20%的概率将TCAA误识别为Cr6+,同时以80%的概率保持对目标毒物的非常准确的定量能力。尽管存在干扰毒物时对四种毒物的预测性能有所下降,但R2值仍保持在0.9以上,表明该模型具有显著的抗干扰能力。
OMEA-ANN模型对实际水体和加标样品中的目标毒物具有优异的预测性能
图7:利用各种真实水样和加标天然水样验证了OMEA-ANN模型的实用性。A:给出了7个实际水样的实测值和预测值(归一化),其中灰色为观测值,红色为预测值,重叠表示相似。这些样品(1-7)分别对应地下水1、地下水2、地表水、矿山景观池、污水处理厂进水、初级沉淀池出水和垃圾填埋场渗滤液。天然水加标样品包括单一毒物(B. Cd2+, C. Cr6+, D. TCS, E. TCAA),两种毒物混合物(F. TCAA + Cd2+, G. TCAA + Cr6+, H. TCAA + TCS)和三种毒物组合(I. TCAA + Cd2++ TCS)。
基于上述结果,我们探索了其在实际水环境中的应用潜力。我们初步调查了7种含有目标毒物的真实水样,包括地表水、地下水、污水处理厂进水、初沉池出水、矿山景观池、垃圾填埋场渗滤液等。首先通过传统物理化学方法分析七个真实水样中的四种目标毒物浓度,Cd2+、Cr6+、TCS和TCAA的浓度分别为0.36 ~ 0.54、0.57 ~ 10.80、3.98 ~ 4.28和62.25 ~ 78.64 μg/L。随后,我们使用OMEA-ANN模型和生物传感器来预测七个实际水样中四种目标毒物的浓度。TCS(稀释5倍)和TCAA的预测值与观测值基本一致(图7A),但样品6中Cd2+的预测结果略有差异,这可能是由于初沉池中干扰因素太多造成的。OMEA-ANN模型在预测低浓度(<1.0μg/L)下的Cr6+时存在显著误差,这可能是因为训练数据集没有包含该浓度范围。为了尽可能模拟真实的水环境,拓展模型的应用场景,我们利用天然水样模拟具体场景,进一步验证了OMEA-ANN对目标毒物的预测性能。水质背景调查结果显示,嘉陵江天然水样中Cd2+、Cr6+、TCS和TCAA浓度均低于检测限。在加标的天然水样中评估了OMEA-ANN模型对单一毒物、两种毒物混合物和三种毒物组合的检测性能(图7B-I)。通过建立预测值和实测值之间的线性关系,揭示了OMEA-ANN对加标样品中目标毒物具有良好的预测性能。单一毒物、两种毒物混合物和三种毒物组合预测的R2值分别为0.9205 ~ 0.9835、0.9092 ~ 0.9995和0.9062 ~ 0.9954。通过实际水和加标样品验证了该模型的应用潜力,该技术可以作为传统检测方法的补充,提高定量分析的时效性和准确性。
小结
本研究基于EAB传感器开发了复杂水体中多种目标毒物同时定性和定量分析的预测模型—MEA-ANN。通过MIV算法筛选并优化特征响应参数,在确保预测准确性的前提下进一步减少了模型的计算时间。通过类似毒物添加和实际水体验证了该模型的良好的抗干扰性和实际应用潜力。本文提出的新型、生态友好型智能水生态风险预警策略解决了传统EAB传感器的局限性,为传统生物膜传感器面临的挑战提供了一种快速、精确的解决方案,推进了监测化合物污染水的实验技术,扩大了EAB传感器对水中多种有毒物质检测的适用性,大大提高了EAB传感器在水质监测中的作用。
本项目获得了国家自然科学基金、中国博士后科学基金资助。
作者简介
关注公众号,获取更多欧洲招聘信息