第一作者:Ruojia Li
通讯作者:Liang Zhu
DOI:https://doi.org/10.1021/acsestwater.4c00040
文字摘要
图片摘要
Keywords:
Long Short-Term Memory (LSTM); Shapley Additive Explanations (SHAP); Urban wastewater treatment plant; Multivariate time series; Effluent prediction
LSTM模型构建
SHAP
SHAP 基于博弈论和局部解释的统一,可用于模型的全局和局部可解释性分析。Shapley值通过比较删除个别特征前后模型输出的差异来定量描述特征重要性,如公式3所示。基于Shapley值,SHAP将模型的输出解释为通过加性特征归因方法赋予各个输入特征的真实值之和。
构建了具有精细调整超参数的LSTM模型来预测出水COD、TP和TN。通过R2和MAPE评估模型的预测精度。此外,还评估了训练集和验证集之间的差异以评估模型的过度拟合。预测结果和相关散点图如图1所示。可以观察到,LSTM有效地拟合了COD和TP的变化,验证集MAPE均在9%以下,R2均在0.90以上。
图 3 . 图 1. LSTM 预测在训练集(蓝色)和验证集(紫色)上的相关散点图:(a、b)COD、(c、d)TP 和(e、f)TN。在每个子图中,对角线表示趋势线,而顶部和右侧的条形图分别描绘实际值和预测值的边缘分布
模型可解释性分析
循环结构和MTS输入使得黑箱LSTM模型的改进机制更加不明晰。基于全部样本计算全局特征重要性分析,量化输入特征对预测目标的重要程度。为体现MTS中输入不同时刻对模型预测结果的影响,在时间维度上进行可解释性分析。全局和时间维度的特征重要性分析结果如图3所示。图3a显示COD的关键贡献指标**包括Tin、Qair、NO3--N、MLSS等,其中最重要的指标是进水温度Tin,降低Tin有利于COD的去除(图3b),这与**从微生物角度分析的结论一致。Q空气和 MLSS的增加导致 COD 去除率降低,这与现有研究一致。
此外,本研究还基于SHAP进行了单样本局部可解释性分析,选取2020年5月31日0:00—5:00的TN预测值进行局部分析并绘制SHAP力图,如图4所示。各特征的Shapley值在图中以V形箭头表示,红色表示预测值增加,蓝色表示减少,红蓝交点表示该时刻模型的最终输出。
点击“原文链接”,查看论文
声明:本公众号分享的前沿学术成果来源于各学术网站,不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!
邮箱:environmodel@sina.com
若您认为有用,欢迎
将Environmodel设为星标,或
点击“在看”或“分享”给他人