CEJ | 基于数据驱动的深度学习模型检测具有时滞特点的污水处理厂进水水质指标

文摘   2024-10-21 11:02   新加坡  
点击订阅公众号 | 前沿学术成果每日更新

           

第一作者:Yituo Zhang

通讯作者:Wenhui Wang

DOIhttps://doi.org/10.1016/j.cej.2023.143483

                 

                 

                 

                 

                 

                 

     

             
图文速览

               
文字摘要:快速准确地检测时滞特性的水质指标(WQIs)是实现污水处理厂(WWTPs)快速反馈调节的关键,这能够使污水处理厂高效节能运行,并具有较高的抗冲击污水负荷能力。然而,高级氧化方法成本高昂,而基于传统机器学习算法的数据驱动建模方法在检测时滞特性的WQIs时准确性有限。该研究开发了基于长短期记忆(LSTM)神经网络的深度学习模型,以准确检测WWTPs进水中的时滞特性WQIs。深度学习模型缺乏可解释性阻碍了所开发LSTM模型在应用中的优化。因此,基于Shapley加性解释(SHAP)进行了全局敏感性分析(GSA),以量化输入指标对所开发LSTM模型检测结果的贡献。直接贡献为优化输入指标提供了基础,从而实现更具成本效益的建模检测。在案例研究中,所开发的LSTM模型在检测某WWTP进水中的化学需氧量、总氮和总磷方面达到了良好的准确性(R²分别为0.9141、0.9239和0.9040),优于四种基线模型。根据SHAP值,溶解氧、浊度和氨氮对上述检测目标的贡献始终处于所有输入指标的前三分之一,比气象指标更为突出。移除SHAP值最小的指标可以在几乎不损失检测准确性的情况下减少模型构建和运行的成本。结合深度学习与GSA来检测WWTPs进水是一种新颖且有效的尝试。这一尝试为快速准确地检测时滞特性的WQIs提供了一个更可持续的解决方案,推动了污水处理厂向智能化、清洁化和安全化的方向发展。

图片摘要

Highlights

  • 开发了基于长短期记忆(LSTM)神经网络的深度学习模型,以准确检测污水处理厂进水中的时滞特性水质指标(WQIs)

  • 通过使用Shapley加性解释(SHAP)进行全局敏感性分析(GSA),量化了各个输入指标对LSTM模型检测结果的贡献。

  • 根据SHAP值,氨氮(NH3-H)、溶解氧(DO)和浊度在检测目标中的贡献始终处于所有输入指标的前三分之一,比气象指标更为突出。

  • 移除SHAP值最小的指标可以在几乎不损失检测准确性的情况下减少模型构建和运行的成本。结合深度学习与GSA的方法不仅提高了检测准确性,还增强了模型的成本效益。

Keywords:

Wastewater treatment plant influent;Time delay;Multiple variables driven;Deep learning;Global sensitivity analysis;Energy saving


               

               

               

               

               

               

               
研究背景
                   

污水处理厂(WWTPs)是现代可持续城市的关键基础设施,但它们也是能耗设施,消耗全球电力的3%。优化设备如泵、鼓风机和搅拌器的操作模式可以减少能耗,这是实现WWTPs节能运行的有效策略。准确检测污水中的有机成分浓度(如COD和TP)对于调整设备功率至关重要,但这通常存在时滞特性。标准检测方法需要30-120分钟,导致反馈滞后,增加出水不达标的危险。例如,1989年至2019年间,欧洲有14起污水处理厂安全事故是由外部原因引起的。深度学习算法具有强大的非线性映射能力,适用于处理复杂数据。例如,Ma等人使用DNN算法实现了BOD5的准确检测,比传统机器学习算法高出17-29%。然而,深度学习模型缺乏可解释性,优化输入变量依赖个人经验。该研究旨在基于LSTM神经网络构建数据驱动模型,快速准确地检测WWTPs进水中的时滞特性WQIs,并通过全局敏感性分析(GSA)量化每个输入变量的贡献,以优化输入变量。实验收集了多个易于获取的变量,分析了多时间尺度波动模式,并构建了四个基线模型进行比较。基于SHAP的GSA识别了对检测目标有显著贡献的输入变量,并探讨了输入变量之间的相互作用,以增强模型的实用性。


               

               

               

               

               

               

               
主要研究方法

                   

 研究区域以及数据收集

如图1所示,研究区域是中国南部深圳市的一个污水处理厂的服务区,总面积为46.79平方公里。收集了为期十四个月(从2021年4月9日凌晨1点到2022年5月28日上午8点)的小时级数据集,包括该污水处理厂进水口的十个水质指标(WQIs)和研究区域的五个气象指标。

  • 在这个数据集中,WQIs包括化学需氧量(COD)、总氮(TN)、总磷(TP)、pH值、氨氮(NH3-N)、悬浮固体(SS)、水温(T)、电导率(σ)、浊度(TU)和溶解氧(DO)
  • 气象指标包括气压(AP)、降水量(P)、相对湿度(RH)、风速(WS)和能见度(V)。

在上述十五个指标中,三个时滞特性的WQIs(即COD、TN和TP)是该工作中构建的数据驱动模型的输出指标(即检测目标)。其余十二个指标是相应的输入指标。

图1.研究区域描述

 数据预处理

占数据集2.83%的个别缺失值基于余弦函数拟合的方法进行了填充。由于设备维护或意外事件导致的连续缺失值被移除。经过上述操作后,数据集包含146,625个数据点(9775个数据点 × 15个指标)。

研究使用最大信息系数(MIC)来量化十二个输入指标中任意两个之间的相关性,以筛选出重叠信息。基于时频变换的降噪方法(文本S2)对输入指标进行处理,这允许保留异常值,从而确保数据集中的有效信息完整性。

作为数据预处理的最后一步,该数据集中的所有指标均基于最小-最大归一化方法进行归一化,以避免数值差异对建模过程的负面影响。

 模型算法

本研究使用的LSTM模型,如图2。LSTM模型的超参数如下:
  • 隐藏层的数量和每个隐藏层中的神经元数量通过网格搜索方法确定。

  • 学习率基于Adam优化器在迭代训练中自适应调整。

  • 损失函数设置为RMSE,这使得LSTM模型对异常值敏感。

  • 最大迭代次数设为1000,并采用了提前停止机制。停止迭代的条件设定为连续十个周期内RMSE增加。

  • 考虑到当地居民区和商业区的污水排放具有显著的日变化模式,时间步长设为24,这与研究区域的每日采样频率一致。

  • 其他超参数,如批量大小,通过多次单变量实验获得。

 图2. ( a) LSTM单元结构和(b) LSTM神经网络模型
型评估指标
决定系数(R²)、均方根误差(RMSE)和对称平均绝对百分比误差(SMAPE)被用来量化模型检测值与实际值之间的匹配度、相对偏差和绝对偏差。

用于性能比较的基线模型

该研究还基于随机抽样一致性(RANSAC)、极端梯度提升(XGBoost)、简单循环神经网络(RNN)和门控递归单元(GRU)神经网络构建了四种基线模型,以与LSTM模型进行性能比较。RANSAC是一种对异常值具有鲁棒性的机器学习算法。XGBoost是一种常用于小数据量应用的机器学习算法。作为时间序列的经典建模算法,简单RNN在短时间序列的应用中仍然具有竞争力。GRU神经网络通过简化LSTM神经网络的门结构而开发,计算负担较小。

敏感性分析

该研究中,SHAP被用作敏感性分析工具,以量化所构建的LSTM模型中每个输入指标对相应检测结果的贡献,这有助于定义关键输入指标,以便更快、更经济地进行建模检测。SHAP是一种基于博弈论的特征归因方法。该方法计算每个输入指标对相应检测结果的平均边际效应,并据此为每个输入指标分配SHAP值。输入指标的SHAP值越大,其对相应检测结果的贡献就越显著。SHAP的具体计算过程在其SI的text S5中有详细描述。


               

               

               

               

               

               

               
主要结果

                   
 时滞特性 WQI 的时间依赖模式

该研究使用了带有自适应噪声的完整集成经验模态分解(CEEMDAN)来解析三个时滞特性的水质指标(WQIs)。该算法能够自适应地将一个时间序列分解为几个固有模态函数(IMFs)和一个残差,这些IMFs和残差包含了该时间序列在不同时间尺度上的局部特征信号。COD、TN和TP的小时数据的CEEMDAN结果显示出明显的规律性模式,如表2。

   LSTM神经网络

三个LSTM模型的训练和超参数优化是独立进行的。在基于网格搜索的这些LSTM模型结构优化过程中,观察到了相似的趋势(图3)。根据图3(a)、(b)、(c)可知,当隐含层数为4层,每层神经元数目在60~75之间时,3种LSTM模型的检测效果最好。

图3. LSTM模型结构参数的网格搜索结果、检测结果以及最优结构对应的学习曲线。(a) COD;(b) TN;(c) TP。
 与基线模型的性能比较
图4展示了LSTM模型和4个基线模型检测COD的结果。根据图4(a),用于检测COD的LSTM模型均能很好地反映相应测试集的时变特性。图4(b)显示了LSTM与基线模型在2022年4月16日2点至4月21日1点期间对COD波动趋势的跟踪差异,LSTM模型对COD浓度随时间变化的跟踪效果优于基线模型。另外,图S5和图S6展示了TN和TP的相关结果。

图 4 . LSTM 和基线模型对 COD 的检测结果。(a)整个测试集的实际值和 LSTM 检测值;(b)2022 年 4 月 16 日 2:00 至 4 月 21 日 1:00 的检测性能比较;(c) LSTM 和基线模型的性能评估。

敏感性分析

通过基于SHAP值的敏感性分析,量化了各输入指标对LSTM模型检测结果的全局重要性。图5中的径向条形图显示了SHAP值,反映了相应输入指标对COD(图5(a))、TN(图5(b))和TP(图5(c))检测的贡献。与这些径向条形图相对应的汇总图展示了输入指标值变化对检测结果的影响。在使用相应的LSTM模型分别检测COD、TN和TP时,DO、NH3-N和TU的贡献始终位于前30%。  

 图 5. LSTM模型输入指标的重要性(以 SHAP 值量化)在检测(a)COD、(b)TN 和(c)TP 时的重要性。汇总图中的点表示输入指标中的数据点,其颜色和水平坐标分别表示数据点的值和 SHAP 值。
文献信息             
:5              

点击“原文链接”,查看论文         


               

               

声明:本公众号分享的前沿学术成果来源于各学术网站,不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!         

邮箱:environmodel@sina.com         

若您认为有用,欢迎

Environmodel设为星标,或

点击“在看”或“分享”给他人

Environmodel
Environmodel(环境模型)专注于环境科学与工程领域的建模及模型研究进展,并分享涵盖机器学习、深度学习以及人工智能等相关领域的理论知识、主流工具和Python编程技巧。
 最新文章