第一作者:Yituo Zhang
通讯作者:Wenhui Wang
DOI:https://doi.org/10.1016/j.cej.2023.143483
图片摘要
Highlights
开发了基于长短期记忆(LSTM)神经网络的深度学习模型,以准确检测污水处理厂进水中的时滞特性水质指标(WQIs)
通过使用Shapley加性解释(SHAP)进行全局敏感性分析(GSA),量化了各个输入指标对LSTM模型检测结果的贡献。
根据SHAP值,氨氮(NH3-H)、溶解氧(DO)和浊度在检测目标中的贡献始终处于所有输入指标的前三分之一,比气象指标更为突出。
移除SHAP值最小的指标可以在几乎不损失检测准确性的情况下减少模型构建和运行的成本。结合深度学习与GSA的方法不仅提高了检测准确性,还增强了模型的成本效益。
Keywords:
Wastewater treatment plant influent;Time delay;Multiple variables driven;Deep learning;Global sensitivity analysis;Energy saving
污水处理厂(WWTPs)是现代可持续城市的关键基础设施,但它们也是能耗设施,消耗全球电力的3%。优化设备如泵、鼓风机和搅拌器的操作模式可以减少能耗,这是实现WWTPs节能运行的有效策略。准确检测污水中的有机成分浓度(如COD和TP)对于调整设备功率至关重要,但这通常存在时滞特性。标准检测方法需要30-120分钟,导致反馈滞后,增加出水不达标的危险。例如,1989年至2019年间,欧洲有14起污水处理厂安全事故是由外部原因引起的。深度学习算法具有强大的非线性映射能力,适用于处理复杂数据。例如,Ma等人使用DNN算法实现了BOD5的准确检测,比传统机器学习算法高出17-29%。然而,深度学习模型缺乏可解释性,优化输入变量依赖个人经验。该研究旨在基于LSTM神经网络构建数据驱动模型,快速准确地检测WWTPs进水中的时滞特性WQIs,并通过全局敏感性分析(GSA)量化每个输入变量的贡献,以优化输入变量。实验收集了多个易于获取的变量,分析了多时间尺度波动模式,并构建了四个基线模型进行比较。基于SHAP的GSA识别了对检测目标有显著贡献的输入变量,并探讨了输入变量之间的相互作用,以增强模型的实用性。
研究区域以及数据收集
如图1所示,研究区域是中国南部深圳市的一个污水处理厂的服务区,总面积为46.79平方公里。收集了为期十四个月(从2021年4月9日凌晨1点到2022年5月28日上午8点)的小时级数据集,包括该污水处理厂进水口的十个水质指标(WQIs)和研究区域的五个气象指标。
在这个数据集中,WQIs包括化学需氧量(COD)、总氮(TN)、总磷(TP)、pH值、氨氮(NH3-N)、悬浮固体(SS)、水温(T)、电导率(σ)、浊度(TU)和溶解氧(DO)。 气象指标包括气压(AP)、降水量(P)、相对湿度(RH)、风速(WS)和能见度(V)。
在上述十五个指标中,三个时滞特性的WQIs(即COD、TN和TP)是该工作中构建的数据驱动模型的输出指标(即检测目标)。其余十二个指标是相应的输入指标。
图1.研究区域描述
数据预处理
占数据集2.83%的个别缺失值基于余弦函数拟合的方法进行了填充。由于设备维护或意外事件导致的连续缺失值被移除。经过上述操作后,数据集包含146,625个数据点(9775个数据点 × 15个指标)。
该研究使用最大信息系数(MIC)来量化十二个输入指标中任意两个之间的相关性,以筛选出重叠信息。基于时频变换的降噪方法(文本S2)对输入指标进行处理,这允许保留异常值,从而确保数据集中的有效信息完整性。
作为数据预处理的最后一步,该数据集中的所有指标均基于最小-最大归一化方法进行归一化,以避免数值差异对建模过程的负面影响。
模型算法
隐藏层的数量和每个隐藏层中的神经元数量通过网格搜索方法确定。
学习率基于Adam优化器在迭代训练中自适应调整。
损失函数设置为RMSE,这使得LSTM模型对异常值敏感。
最大迭代次数设为1000,并采用了提前停止机制。停止迭代的条件设定为连续十个周期内RMSE增加。
考虑到当地居民区和商业区的污水排放具有显著的日变化模式,时间步长设为24,这与研究区域的每日采样频率一致。
其他超参数,如批量大小,通过多次单变量实验获得。
用于性能比较的基线模型
该研究还基于随机抽样一致性(RANSAC)、极端梯度提升(XGBoost)、简单循环神经网络(RNN)和门控递归单元(GRU)神经网络构建了四种基线模型,以与LSTM模型进行性能比较。RANSAC是一种对异常值具有鲁棒性的机器学习算法。XGBoost是一种常用于小数据量应用的机器学习算法。作为时间序列的经典建模算法,简单RNN在短时间序列的应用中仍然具有竞争力。GRU神经网络通过简化LSTM神经网络的门结构而开发,计算负担较小。
敏感性分析
该研究中,SHAP被用作敏感性分析工具,以量化所构建的LSTM模型中每个输入指标对相应检测结果的贡献,这有助于定义关键输入指标,以便更快、更经济地进行建模检测。SHAP是一种基于博弈论的特征归因方法。该方法计算每个输入指标对相应检测结果的平均边际效应,并据此为每个输入指标分配SHAP值。输入指标的SHAP值越大,其对相应检测结果的贡献就越显著。SHAP的具体计算过程在其SI的text S5中有详细描述。
该研究使用了带有自适应噪声的完整集成经验模态分解(CEEMDAN)来解析三个时滞特性的水质指标(WQIs)。该算法能够自适应地将一个时间序列分解为几个固有模态函数(IMFs)和一个残差,这些IMFs和残差包含了该时间序列在不同时间尺度上的局部特征信号。COD、TN和TP的小时数据的CEEMDAN结果显示出明显的规律性模式,如表2。
三个LSTM模型的训练和超参数优化是独立进行的。在基于网格搜索的这些LSTM模型结构优化过程中,观察到了相似的趋势(图3)。根据图3(a)、(b)、(c)可知,当隐含层数为4层,每层神经元数目在60~75之间时,3种LSTM模型的检测效果最好。
敏感性分析
通过基于SHAP值的敏感性分析,量化了各输入指标对LSTM模型检测结果的全局重要性。图5中的径向条形图显示了SHAP值,反映了相应输入指标对COD(图5(a))、TN(图5(b))和TP(图5(c))检测的贡献。与这些径向条形图相对应的汇总图展示了输入指标值变化对检测结果的影响。在使用相应的LSTM模型分别检测COD、TN和TP时,DO、NH3-N和TU的贡献始终位于前30%。
点击“原文链接”,查看论文
声明:本公众号分享的前沿学术成果来源于各学术网站,不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!
邮箱:environmodel@sina.com
若您认为有用,欢迎
将Environmodel设为星标,或
点击“在看”或“分享”给他人