CEJ | 基于数据驱动的深度学习模型检测具有时滞特点的污水处理厂进水水质指标

文摘 2024-10-21 11:02 新加坡

点击订阅公众号 | 前沿学术成果每日更新

第一作者：Yituo Zhang

通讯作者：Wenhui Wang

DOI：https://doi.org/10.1016/j.cej.2023.143483

图文速览

文字摘要：快速准确地检测时滞特性的水质指标（WQIs）是实现污水处理厂（WWTPs）快速反馈调节的关键，这能够使污水处理厂高效节能运行，并具有较高的抗冲击污水负荷能力。然而，高级氧化方法成本高昂，而基于传统机器学习算法的数据驱动建模方法在检测时滞特性的WQIs时准确性有限。该研究开发了基于长短期记忆（LSTM）神经网络的深度学习模型，以准确检测WWTPs进水中的时滞特性WQIs。深度学习模型缺乏可解释性阻碍了所开发LSTM模型在应用中的优化。因此，基于Shapley加性解释（SHAP）进行了全局敏感性分析（GSA），以量化输入指标对所开发LSTM模型检测结果的贡献。直接贡献为优化输入指标提供了基础，从而实现更具成本效益的建模检测。在案例研究中，所开发的LSTM模型在检测某WWTP进水中的化学需氧量、总氮和总磷方面达到了良好的准确性（R²分别为0.9141、0.9239和0.9040），优于四种基线模型。根据SHAP值，溶解氧、浊度和氨氮对上述检测目标的贡献始终处于所有输入指标的前三分之一，比气象指标更为突出。移除SHAP值最小的指标可以在几乎不损失检测准确性的情况下减少模型构建和运行的成本。结合深度学习与GSA来检测WWTPs进水是一种新颖且有效的尝试。这一尝试为快速准确地检测时滞特性的WQIs提供了一个更可持续的解决方案，推动了污水处理厂向智能化、清洁化和安全化的方向发展。

图片摘要

Highlights

开发了基于长短期记忆（LSTM）神经网络的深度学习模型，以准确检测污水处理厂进水中的时滞特性水质指标（WQIs）
通过使用Shapley加性解释（SHAP）进行全局敏感性分析（GSA），量化了各个输入指标对LSTM模型检测结果的贡献。
根据SHAP值，氨氮（NH3-H）、溶解氧（DO）和浊度在检测目标中的贡献始终处于所有输入指标的前三分之一，比气象指标更为突出。
移除SHAP值最小的指标可以在几乎不损失检测准确性的情况下减少模型构建和运行的成本。结合深度学习与GSA的方法不仅提高了检测准确性，还增强了模型的成本效益。

Keywords：

Wastewater treatment plant influent；Time delay；Multiple variables driven；Deep learning；Global sensitivity analysis；Energy saving

研究背景

污水处理厂（WWTPs）是现代可持续城市的关键基础设施，但它们也是能耗设施，消耗全球电力的3%。优化设备如泵、鼓风机和搅拌器的操作模式可以减少能耗，这是实现WWTPs节能运行的有效策略。准确检测污水中的有机成分浓度（如COD和TP）对于调整设备功率至关重要，但这通常存在时滞特性。标准检测方法需要30-120分钟，导致反馈滞后，增加出水不达标的危险。例如，1989年至2019年间，欧洲有14起污水处理厂安全事故是由外部原因引起的。深度学习算法具有强大的非线性映射能力，适用于处理复杂数据。例如，Ma等人使用DNN算法实现了BOD5的准确检测，比传统机器学习算法高出17-29%。然而，深度学习模型缺乏可解释性，优化输入变量依赖个人经验。该研究旨在基于LSTM神经网络构建数据驱动模型，快速准确地检测WWTPs进水中的时滞特性WQIs，并通过全局敏感性分析（GSA）量化每个输入变量的贡献，以优化输入变量。实验收集了多个易于获取的变量，分析了多时间尺度波动模式，并构建了四个基线模型进行比较。基于SHAP的GSA识别了对检测目标有显著贡献的输入变量，并探讨了输入变量之间的相互作用，以增强模型的实用性。

主要研究方法

研究区域以及数据收集

如图1所示，研究区域是中国南部深圳市的一个污水处理厂的服务区，总面积为46.79平方公里。收集了为期十四个月（从2021年4月9日凌晨1点到2022年5月28日上午8点）的小时级数据集，包括该污水处理厂进水口的十个水质指标（WQIs）和研究区域的五个气象指标。

在这个数据集中，WQIs包括化学需氧量（COD）、总氮（TN）、总磷（TP）、pH值、氨氮（NH3-N）、悬浮固体（SS）、水温（T）、电导率（σ）、浊度（TU）和溶解氧（DO）。
气象指标包括气压（AP）、降水量（P）、相对湿度（RH）、风速（WS）和能见度（V）。

在上述十五个指标中，三个时滞特性的WQIs（即COD、TN和TP）是该工作中构建的数据驱动模型的输出指标（即检测目标）。其余十二个指标是相应的输入指标。

图1.研究区域描述

数据预处理

占数据集2.83%的个别缺失值基于余弦函数拟合的方法进行了填充。由于设备维护或意外事件导致的连续缺失值被移除。经过上述操作后，数据集包含146,625个数据点（9775个数据点 × 15个指标）。

该研究使用最大信息系数（MIC）来量化十二个输入指标中任意两个之间的相关性，以筛选出重叠信息。基于时频变换的降噪方法（文本S2）对输入指标进行处理，这允许保留异常值，从而确保数据集中的有效信息完整性。

作为数据预处理的最后一步，该数据集中的所有指标均基于最小-最大归一化方法进行归一化，以避免数值差异对建模过程的负面影响。

模型算法

本研究使用的LSTM模型，如图2。LSTM模型的超参数如下：

隐藏层的数量和每个隐藏层中的神经元数量通过网格搜索方法确定。
学习率基于Adam优化器在迭代训练中自适应调整。
损失函数设置为RMSE，这使得LSTM模型对异常值敏感。
最大迭代次数设为1000，并采用了提前停止机制。停止迭代的条件设定为连续十个周期内RMSE增加。
考虑到当地居民区和商业区的污水排放具有显著的日变化模式，时间步长设为24，这与研究区域的每日采样频率一致。
其他超参数，如批量大小，通过多次单变量实验获得。

图2. ( a) LSTM单元结构和(b) LSTM神经网络模型

模型评估指标

决定系数（R²）、均方根误差（RMSE）和对称平均绝对百分比误差（SMAPE）被用来量化模型检测值与实际值之间的匹配度、相对偏差和绝对偏差。

用于性能比较的基线模型

该研究还基于随机抽样一致性（RANSAC）、极端梯度提升（XGBoost）、简单循环神经网络（RNN）和门控递归单元（GRU）神经网络构建了四种基线模型，以与LSTM模型进行性能比较。RANSAC是一种对异常值具有鲁棒性的机器学习算法。XGBoost是一种常用于小数据量应用的机器学习算法。作为时间序列的经典建模算法，简单RNN在短时间序列的应用中仍然具有竞争力。GRU神经网络通过简化LSTM神经网络的门结构而开发，计算负担较小。

敏感性分析

该研究中，SHAP被用作敏感性分析工具，以量化所构建的LSTM模型中每个输入指标对相应检测结果的贡献，这有助于定义关键输入指标，以便更快、更经济地进行建模检测。SHAP是一种基于博弈论的特征归因方法。该方法计算每个输入指标对相应检测结果的平均边际效应，并据此为每个输入指标分配SHAP值。输入指标的SHAP值越大，其对相应检测结果的贡献就越显著。SHAP的具体计算过程在其SI的text S5中有详细描述。

主要结果

时滞特性 WQI 的时间依赖模式

该研究使用了带有自适应噪声的完整集成经验模态分解（CEEMDAN）来解析三个时滞特性的水质指标（WQIs）。该算法能够自适应地将一个时间序列分解为几个固有模态函数（IMFs）和一个残差，这些IMFs和残差包含了该时间序列在不同时间尺度上的局部特征信号。COD、TN和TP的小时数据的CEEMDAN结果显示出明显的规律性模式，如表2。

LSTM神经网络

三个LSTM模型的训练和超参数优化是独立进行的。在基于网格搜索的这些LSTM模型结构优化过程中，观察到了相似的趋势（图3）。根据图3（a）、（b）、（c）可知，当隐含层数为4层，每层神经元数目在60~75之间时，3种LSTM模型的检测效果最好。

图3. LSTM模型结构参数的网格搜索结果、检测结果以及最优结构对应的学习曲线。(a) COD；(b) TN；(c) TP。

与基线模型的性能比较

图4展示了LSTM模型和4个基线模型检测COD的结果。根据图4(a)，用于检测COD的LSTM模型均能很好地反映相应测试集的时变特性。图4(b)显示了LSTM与基线模型在2022年4月16日2点至4月21日1点期间对COD波动趋势的跟踪差异，LSTM模型对COD浓度随时间变化的跟踪效果优于基线模型。另外，图S5和图S6展示了TN和TP的相关结果。

图 4 . LSTM 和基线模型对 COD 的检测结果。（a）整个测试集的实际值和 LSTM 检测值；（b）2022 年 4 月 16 日 2:00 至 4 月 21 日 1:00 的检测性能比较；（c） LSTM 和基线模型的性能评估。

敏感性分析

通过基于SHAP值的敏感性分析，量化了各输入指标对LSTM模型检测结果的全局重要性。图5中的径向条形图显示了SHAP值，反映了相应输入指标对COD（图5(a)）、TN（图5(b））和TP（图5(c)）检测的贡献。与这些径向条形图相对应的汇总图展示了输入指标值变化对检测结果的影响。在使用相应的LSTM模型分别检测COD、TN和TP时，DO、NH3-N和TU的贡献始终位于前30%。

图 5. LSTM模型输入指标的重要性（以 SHAP 值量化）在检测（a）COD、（b）TN 和（c）TP 时的重要性。汇总图中的点表示输入指标中的数据点，其颜色和水平坐标分别表示数据点的值和 SHAP 值。

文献信息

：5

点击“原文链接”，查看论文

声明：本公众号分享的前沿学术成果来源于各学术网站，不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权，请立刻联系公众号后台或发送邮件，我们将及时修改或删除！

邮箱：environmodel@sina.com

若您认为有用，欢迎
将Environmodel设为星标，或
点击“在看”或“分享”给他人

http://mp.weixin.qq.com/s?__biz=MzkzMzYzNDYyOQ==&mid=2247488935&idx=1&sn=d3b393aa1004011a5eac399dd03b2220

Environmodel

Environmodel（环境模型）专注于环境科学与工程领域的建模及模型研究进展，并分享涵盖机器学习、深度学习以及人工智能等相关领域的理论知识、主流工具和Python编程技巧。

最新文章

科研绘图教程 06 | 有代码！学会rcParams让你的底蕴更加深厚！

ES&T观点文章 | 环境机器学习、基线报告和综合评估：EMBRACE清单

资讯分享 | 2024年度博后基金第76批面上资助拟资助人员名单和简单统计分析

ES&T | 微生物群落预测微生物燃料电池的功能稳定性

深度学习入门到放弃系列教程 06 | 深入浅出的理解L2正则化的数学原理与应用

Nat. Water | 人工智能在水系统中的回报、风险与如何负责任地部署

科研绘图教程 05 | 有代码！默念Catppuccin口诀，手里的Matplotlib竟变得更加光鲜亮丽！

ES&T water | 增强对污水处理厂出水预测的洞察力：基于 SHAP 的全面深度学习模型解释

模型漫谈 05 | 双向RNN模型: 不仅从历史中学习，还可以从未来学习

通过机理模型和机器学习预测全尺寸活性污泥系统中的 N2O排放量：通用模型结构开发

深度学习入门到放弃系列教程 05 | 解析Softmax函数的原理与应用

WR | 从数据中心的角度推进基于深度学习的声学泄漏检测方法在供水系统中的应用

科研绘图教程4 | 有代码！功法多不压身，绘制线条的7种实用方法！

WR | 使用基于深度学习的图注意多元时间序列预测模型来确定混凝剂剂量

模型漫谈 | transformer模型: 每一个成功的大模型的背后都有一位美丽的transformer

基于模型识别全尺寸活性污泥系统中主要的N2O排放途径

深度学习从入门到放弃 | 深入理解链式法则：数学原理与在高效误差反向传播中的应用

确定单原子M–N–C催化剂上过硫酸盐活化的关键因素：密度泛函理论与机器学习相结合的研究

每日一词 | 成对排序（Pairwise Ranking）

科研绘图教程3 | 有代码！绘制一张优雅的散点图竟然使我突破了练气第三层！

ES&T | 瞬态光和氮条件下微藻生长和脂质产生的动态建模

模型漫谈 | 模糊C-均值聚类算法以及环境污染源模糊分类伪案例研究

J. Clean. Prod. | 基于新型多目标蚁狮优化和深度学习算法的污水处理过程动态优化

每日一词 | 蚁狮优化算法

深度学习从入门到放弃 | 有代码！今天就掌握深度学习超人气组件 —— 残差块（Residual Block）

CEJ | 基于数据驱动的深度学习模型检测具有时滞特点的污水处理厂进水水质指标

python科研绘图教程2:从熟悉cbook模块和Matplotlib示例数据集开始练气第一层

WR | 强化脱氮除磷（EBPR）活性污泥在不同碳源和电子受体下的N2O产生过程模拟

模型漫谈：时间序列分析中常用的四种自回归模型

WR | 利用基于边的图神经网络构建可迁移的供水系统元模型

深度学习从入门到放弃：时间序列分析中的自相关函数（ACF）和（PACF）

转载自UQ水中心|昆士兰大学郭建华教授、香港理工大学刘涛助理教授Nature Water综述：通过氮循环微生物实现可持续污水管理

Nat. Water综述（普林斯顿任智勇教授团队）| 污水处理行业的碳净零排放的定义和实现

WR | 使用深度学习模型对微塑料和天然有机物混合物自动分类

python科研绘图教程 1| 恭喜宿主获得了matplotlib的炼气期功法

诺贝尔化学奖颁发给蛋白质结构预测专家又一次说明了AI不仅是顶流，还将是主流

Nat. Water | 综述：水质预测中的深度学习

模型漫谈：获得2024年诺贝尔物理学奖的AI教父和他的人工神经网络

模型漫谈：图神经网络（GNN）是什么样的存在

ES&T | 整合了首要原则模型和深度学习模型的污水处理厂氧化亚氮排放建模方法

深度学习从入门到放弃：从掌握梯度的概念开始，征服深度学习

周一到周六更新内容，周末只happy

Nature Water | 全球高分辨率总水储量异常：使用深度学习算法的自监督数据同化

Python从入门到放弃必看：用PyCharm新建Python文件其实一点不简单，好吗!

基于拥挤距离的动态多目标粒子群优化实现污水处理过程的最优控制

深度学习入门教程：国庆花半个小时在windows平台上搭建起深度学习环境！

喜迎盛世华诞，用CHATGPT生成的庆典海报点亮你的国庆

一种改善污水处理厂实时出水质量预测的混合深度学习方法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉