ES&T water | 增强对污水处理厂出水预测的洞察力:基于 SHAP 的全面深度学习模型解释

文摘   2024-11-08 23:00   新加坡  
点击订阅公众号 | 前沿学术成果每日更新               

第一作者:Ruojia Li

通讯作者:Liang Zhu

DOI:https://doi.org/10.1021/acsestwater.4c00040


                 

                 

                 

                 

                 

                 

     

             
内容速览

               

文字摘要

随着水资源挑战日益严峻,越来越多地使用模型来提高对污水处理厂(WWTPs)的理解和操作能力。丰富的运营数据为机器学习(ML)和深度学习(DL)模型的发展提供了广泛的机会。然而,特征间的耦合和时间滞后加剧了此类模型的黑盒性质,阻碍了它们在WWTP中的应用。在这项研究中,我们构建了一个长短期记忆(LSTM)算法的DL模型,能够准确预测全规模WWTP的出水质量,通过精细调整超参数和合理选择输入特征。基于Shapley加性解释(SHAP)的综合模型解释,阐明了多变量时间序列(MTS)输入在特征和时间维度上对预测结果的贡献。LSTM模型在预测化学需氧量(COD)、总磷(TP)和总氮(TN)方面表现出优异的准确性(R2分别为0.96、0.95和0.76,MAPE分别为5.49、7.17和13.37%),优于其他基准ML模型。SHAP结果量化了哪些输入特征最重要以及它们如何影响结果。从时间维度分析进一步解释了废水处理过程的时间滞后特性,并证明了引入MTS的合理性。与相关分析和无特征工程相比,基于SHAP的特选择显著提高了预测精度。识别出了对模型输出有强交互作用和重大贡献的输入特征组合。这是首次尝试将Shapley值应用于调整输入特征,并基于LSTM构建WWTP模型,同时具备优秀的精确度和可解释性,以澄清MTS输入对预测结果的影响。这项工作展示了将DL应用于建模WWTP并增强其性能的潜力。

图片摘要

Keywords:

Long Short-Term Memory (LSTM); Shapley Additive Explanations (SHAP); Urban wastewater treatment plant; Multivariate time series; Effluent prediction


               

               

               

               

               

               

               
研究背景

                   
作为机器学习的一个重要分支,深度学习(DL)使用多层计算神经元从高维数据中发现复杂的结构。DL在增强特征提取、识别以及自我学习和自我完成的能力方面超越了传统的ML。在解决预测模型建模问题中,长短期记忆(LSTM)网络在多种深度学习算法中脱颖而出。循环和门结构决定了 LSTM 从动态时间序列中捕获长期依赖关系的能力,这很符合污水处理厂的特点,但该结构也暴露了其黑箱特性,其内部原理和机制尚不明确,引发争议。而可解释的深度学习目前也是多个领域的新兴研究前沿,在废水处理过程建模领域也已有尝试。但由于多变量时间序列 (MTS) 造成的障碍,很少有研究应用可解释的方法来理解 LSTM 的预测过程。
该研究基于 LSTM 算法和 Shapley 加性解释 (SHAP) 分析提出了一种可解释的数据驱动模型,用于预测全规模污水处理厂的关键出水指标(COD、TN 和 TP)。首先,收集多个长期监测数据,包括进水指标、控制参数等,进行数值试验。对预测目标和输入特征进行特征工程和时间滞后互相关分析,以更好地挖掘 MTS 中的有用信息。之后,在预测精度和泛化性能方面将 LSTM 模型与三个基线 ML 模型进行了比较。最后,基于 SHAP 的一系列敏感性分析同时考虑了输入和时间维度,以有效揭示哪些特征在哪些时期对出水质量有影响及其影响机制。所提出的 LSTM 模型表现出出色的预测性能,并创新性地实现了 MTS 输入的全面可解释性,这有助于理解时间滞后特性并量化变量之间的相互作用。它有望为稳定高效的运行提供解决方案,并为污水处理厂的实时精确控制奠定基础。

               

               

               

               

               

               

               
主要方法

                   
数据收集
建模所用数据来自华北地区一座全尺寸市政污水处理厂。该厂以A2O为主要工艺,处理能力为150,000立方米/天(图S1)。沿线设置了12个监测点,监测24项指标,包括进水、生化、出水水质指标和控制参数,水力停留时间(HRT)为32小时。从2019年6月至2020年6月积累了9264个样本作为原始数据集,监测频率为1小时。2019 年 6 月至 2020 年 6 月 13 个月的原始数据集分为训练集、验证集和测试集。其中,将前12个月的数据以8:2的比例随机分为训练集(6835个样本)和验证集(1709个样本),并将最后一个月的数据(720个样本)单独留作测试集。
数据预处理是数据分析和建模过程中至关重要的一步,包括数据清洗、数据转换、特征工程、特征相关性分析等。由于传感器故障、数据传输误差、测量随机误差等原因,采集到的原始数据中存在大量的缺失值、异常值和噪声。在建模之前,需要先对数据集进行处理,包括异常值去除、缺失值填充、数据规范化等。)

LSTM模型构建

LSTM 的核心思想是引入门结构来控制内部信息流过程,并使用记忆单元保存历史信息和长期状态,通过选择性遗忘信息来防止过载。除了 LSTM 之外,还构建了基于反向传播神经网络 (BPNN)、极端梯度提升 (XGBoost) 和门控循环单元 (GRU) 的其他预测模型作为废水处理过程的基线。LSTM 和 GRU 的输入为 MTS 形式,通过滑动时间窗口算法将原始数据集转换为T × N矩阵(图 S3),其中T是输入时间序列的长度(24 小时),N是选择后的输入特征数量。

SHAP

SHAP 基于博弈论和局部解释的统一,可用于模型的全局和局部可解释性分析。Shapley值通过比较删除个别特征前后模型输出的差异来定量描述特征重要性,如公式3所示。基于Shapley值,SHAP将模型的输出解释为通过加性特征归因方法赋予各个输入特征的真实值之和


               

               

               

               

               

               

               
研究结果

                   
基于 LSTM 的预测

构建了具有精细调整超参数的LSTM模型来预测出水COD、TP和TN。通过R2和MAPE评估模型的预测精度。此外,还评估了训练集和验证集之间的差异以评估模型的过度拟合。预测结果和相关散点图如图1所示。可以观察到,LSTM有效地拟合了COD和TP的变化,验证集MAPE均在9%以下,R2均在0.90以上。

图 3 . 图 1. LSTM 预测在训练集(蓝色)和验证集(紫色)上的相关散点图:(a、b)COD、(c、d)TP 和(e、f)TN。在每个子图中,对角线表示趋势线,而顶部和右侧的条形图分别描绘实际值和预测值的边缘分布

 与基线模型的性能比较
具有循环结构的 LSTM 在预测时间相关的废水处理过程方面表现出色。为了研究算法类型和输入形式对预测精度和泛化的影响,我们选择了传统 ML 算法 BPNN、XGBoost 和 RNN 之一的 GRU 作为基线模型,并将它们与 LSTM 进行了比较(图2)。

图 2. 四种模型的泛化性能比较:(a)COD,(b)TP,(c)TN

模型可解释性分析

循环结构和MTS输入使得黑箱LSTM模型的改进机制更加不明晰。基于全部样本计算全局特征重要性分析,量化输入特征对预测目标的重要程度。为体现MTS中输入不同时刻对模型预测结果的影响,在时间维度上进行可解释性分析。全局和时间维度的特征重要性分析结果如图3所示。图3a显示COD的关键贡献指标**包括Tin、Qair、NO3--N、MLSS等,其中最重要的指标是进水温度Tin,降低Tin有利于COD的去除(图3b),这与**从微生物角度分析的结论一致。Q空气和 MLSS的增加导致 COD 去除率降低,这与现有研究一致。

图 3. 从全局和时间维度进行特征重要性分析的结果:(a–c)COD、(d–f)TP 和(g–i)TN。蜂群图(第 2 列)中的点表示输入指标中的数据点,其颜色和横坐标分别表示数据点的值和 SHAP 值。热图(第 3 列)中的颜色表示 Shapley 值

此外,本研究还基于SHAP进行了单样本局部可解释性分析,选取2020年5月31日0:00—5:00的TN预测值进行局部分析并绘制SHAP力图,如图4所示。各特征的Shapley值在图中以V形箭头表示,红色表示预测值增加,蓝色表示减少,红蓝交点表示该时刻模型的最终输出。

图4.局部特征重要性分析结果:2020年5月31日,显性特征对TN预测值的重要性从0到5
文献信息             
:5              

点击“原文链接”,查看论文


               

               

声明:本公众号分享的前沿学术成果来源于各学术网站,不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!         

邮箱:environmodel@sina.com         

若您认为有用,欢迎

Environmodel设为星标,或

点击“在看”或“分享”给他人


Environmodel
Environmodel(环境模型)专注于环境科学与工程领域的建模及模型研究进展,并分享涵盖机器学习、深度学习以及人工智能等相关领域的理论知识、主流工具和Python编程技巧。
 最新文章