WR | 使用基于深度学习的图注意多元时间序列预测模型来确定混凝剂剂量

文摘   2024-11-01 16:40   浙江  
点击订阅公众号 | 前沿学术成果每日更新               

第一作者:Subin Lin

通讯作者:Seoktae Kang

DOI:https://doi.org/10.1016/j.watres.2023.119665


                 

                 

                 

                 

                 

                 

     

             
内容速览

               

文字摘要

在水处理中,确定混凝剂剂量是一个耗时的过程,涉及非线性数据关系和众多因素。该研究提供了一种深度学习方法,使用 2011 年至 2021 年之间的长期数据来确定混凝剂剂量和/或经处理后沉淀的水的浊度,并且考虑各种天气条件的影响。开发了一种图注意多元时间序列预测 (GAMTF) 模型来确定混凝剂剂量,并将其与传统的机器学习和深度学习模型进行了比较。GAMTF 模型 (R 2  = 0.94,RMSE = 3.55) 优于其他模型 (R 2  = 0.63 - 0.89,RMSE = 4.80 - 38.98),并成功同时预测了混凝剂剂量和沉淀水浊度。GAMTF 模型通过考虑特征之间的隐藏相互关系和特征的过去状态来提高预测准确性。结果表明,多元时间序列深度学习模型,特别是基于图注意的先进模型首次成功应用,使用长期数据为水处理过程中的决策支持系统提供服务。

图片摘要

Highlights

  • 首次将深度学习应用于序列数据,以预测水处理过程中的混凝剂用量。

  • 首次利用长期数据进行深度学习的适当训练。

  • 基于图注意力机制的方法能够从输入数据中识别相关信息。

  • 多变量时间序列方法提升了深度学习的性能。

Keywords:

Coagulant;Prediction model;Deep learning;Attention-based mechanism;Time series;Big data


               

               

               

               

               

               

               
研究背景

                   
近年来,随着数据量的增加和计算技术的提升,使用机器学习技术进行数据驱动的过程监控受到关注。机器学习技术能够处理复杂的非线性问题,并能更好地理解水处理过程的整体动态。人工神经网络(ANN)和自适应神经模糊推理系统(ANFIS)等机器学习模型已被应用于模拟和优化混凝剂剂量的确定,显示了较传统方法更高的准确性和可靠性。然而,这些研究多依赖于短期数据,未能充分考虑长期的环境变化。
深度学习,作为机器学习的一个分支,被引入来处理复杂的数据集和发现数据中的深层特征。卷积神经网络(CNN)和循环神经网络(RNN)已用于从絮凝物图像和时间序列数据中学习,以提高混凝剂剂量预测的准确性。特别是长短期记忆(LSTM)和门控循环单元(GRU)模型,它们能有效处理数据中的长期依赖关系,已成功应用于环境监测和预测。
最新的研究趋势是使用基于注意力机制的模型,这类模型能够识别并优先处理输入数据中的关键信息,从而提高模型在处理长输入序列时的性能。这些基于注意力的方法已在多个领域展示了优越的处理能力和预测性能。
该研究提出了一个基于注意力机制的深度学习模型,用于分析并预测水处理过程中的混凝剂剂量。通过采用图注意力和多元时间序列的组合方法,开发了一种新型的多输出深度学习模型,即图注意力多元时间序列预测模型(GAMTF)。该模型不仅能确定混凝剂剂量,还能预测由此产生的沉淀物的水浊度,显示了比传统单输出模型更为优越的性能。GAMTF模型的应用展示了其在实时水处理应用中的潜力,标志着使用深度学习和注意力机制在水处理过程模拟中的首次尝试,同时利用了迄今为止在此领域中使用的最大的数据集。

               

               

               

               

               

               

               
主要方法

                   
数据收集
使用接收池入口处的传感器自动监测水量和水质:流量、pH、温度、碱度、电导率和浊度。由于未设置 EC 传感器进行温度调节,因此所有 EC 值均进行了调节。混凝剂的类型(聚合氯化铝或聚合氯化铝硫酸盐)和用量是根据操作员的知识确定的,同时考虑到原水的质量和水处理工艺的运行条件。所有监测数据和凝结剂量均实时记录在监控和数据采集 (SCADA) 系统中,并传输到本地数据库,最后传输到主数据库系统。数据首先以分钟为单位记录,然后取 15 分钟和 1 小时的平均值。2011 年至 2021 年期间的每小时数据集包含 93,516 个数据点

 图1. 石城水处理厂的水处理过程和实时监测功能.

基于图注意力机制的多变量时间序列预测模型

GAMTF 将 GRU 与两个并行的图注意层相结合(图 2),以学习多变量时间序列在特征和时间维度上的相互依赖性,其中每个单变量时间序列被视为单独的特征。该模型基于通过图注意网络进行多变量时间序列异常检测( Zhao et al., 2020)进行了修改,使用目标输出数量和微调器代替重构模型,以帮助提高模型训练和泛化能力。详细信息可以参考Zhao et al., 2020。

图2.基于图注意的多元时间序列预测模型(GAMTF)结构

模型实现流程如图3所示。将三种类型的输入和输出组合输入模型,并评估和比较它们的性能:1)输入原水特征来预测混凝剂剂量。该组合将作为评估不同模型性能的基准;2)将沉淀水浊度添加到输入中,以评估沉淀水浊度的影响,其作为模型学习过程中控制混凝剂剂量的条件特征;3)开发原水特征来预测混凝剂剂量和沉淀水浊度。

图 3. DWTP中混凝剂用量预测模型的概念结构

除了GAMTF,该研究还比对了与以下模型的区别:

- 多元线性回归

- 随机森林

- 门控循环神经网络

使用相关系数(R)、判定系数 ( R2 ) 和均方根误差(RMSE)来衡量模型性能。为了确定每个特征对模型性能的贡献,进行了特征重要性分析。使用了 RF 模型包中的特征重要性函数。

               

               

               

               

               

               

               
研究结果

                   
原水水质数据分析

原水水质数据显示,过去 11 年来发生了显著变化(图 4)。浊度值普遍较低,平均为 3 NTU,由于原水取自湖泊深水,受湖泊稀释作用影响,水质比较稳定,因此没有出现严重变化。夏季雨季原水浊度较高,尽管其值与降雨量并不成正比。原水浊度的变异系数明显较高(训练数据和测试数据分别为 2 和 1.16),2011 年 8 月急剧上升至约 92 NTU(图 4)。2016 年、2020 年和 2021 年夏季也出现了浊度大幅上升,峰值低于 55 NTU。这种浊度变化只能在长期数据集中看到。.

图4. WTP混凝过程数据特征的时间序列

相关性结果(图5)显示,在训练和测试数据中,混凝剂投加量与原水浊度的相关性最高,分别为0.77和0.88。然而,每年的混凝剂投加量与原水浊度之间的相关性从0.007到0.92不等。每年浊度较高的数据都显示出较高的相关性。

图 5 .训练数据集(对角线左下方)和测试数据集(对角线右上方)中凝血过程数据特征之间的Pearson相关系数。
  利用原水特征预测混凝剂用量
以原水特征作为输入来预测混凝剂用量。由此得出的 MLR 模型表明混凝剂用量与流速、温度和浊度呈正相关,而与 pH 值和碱度呈负相关。直到7月中旬,MLR对混凝剂剂量的预测趋势与实际值相似,但之后在雨季原水浊度较高时,预测剂量趋于低于实际剂量(图6a)。MLR对高剂量范围的预测偏离身份线,低于实际值(图7a)。7月中旬之后,RF在高混凝剂剂量范围内表现更好(图6b ),GRU预测呈现出平滑的趋势,没有描绘每个数据点的细节(图6c)。GAMTF 预测与整个测试期间的实际值一致,提供了详细的预测行为(图 6d)。

图 6.使用(a) MLR (b) RF (c) GRU (d) GAMTF 进行预测;另外输入沉淀水浊度:(e) MLR (f) RF (g) GRU (h) GAMTF;并使用 GAMTF 进行 (i) 混凝剂剂量和 (j) 沉淀水浊度的预测。
  利用原水特征预测混凝剂用量和沉淀水浊度

添加了沉淀水的浊度作为输入。每个模型的预测结果(图 6 e-h 和7 e-h)与上一节中的预测结果类似。GAMTF 能够跟踪混凝剂用量和沉降水浊度的趋势(图 6i、j)。在处理低浊度原水时,预测的混凝剂用量值在 7 月中旬之前低于实际用量,但在处理高浊度原水时,预测的混凝剂用量值高于实际用量,而沉降水浊度保持在 1 NTU 以下。这表明,基于长期数据实施模型预测可以降低处理低浊度水的化学成本,同时增加处理高浊度水的混凝剂量,以确保沉降水浊度符合指导方针。与单输出模型的结果相反,该模型表现出对混凝剂用量的改进预测,特别是在极高用量需求的情况下(图 7i)。这种建模方法通过根据原水质量和之前的用量以及预测的沉降水浊度来建议混凝剂用量,提供了更好的决策支持系统。

图 7。混凝剂剂量预测与地面实况的散点图:(a)MLR(b)RF(c)GRU(d)GAMTF;使用原水特征和沉淀水浊度预测混凝剂剂量与地面实况:(e)MLR(f)RF(g)GRU(h)GAMTF;使用原水特征与地面实况的 GAMTF 预测:(i)混凝剂剂量和(j)沉淀水浊度。
文献信息             
:5              

点击“原文链接”,查看论文


               

               

声明:本公众号分享的前沿学术成果来源于各学术网站,不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!         

邮箱:environmodel@sina.com         

若您认为有用,欢迎

Environmodel设为星标,或

点击“在看”或“分享”给他人


Environmodel
Environmodel(环境模型)专注于环境科学与工程领域的建模及模型研究进展,并分享涵盖机器学习、深度学习以及人工智能等相关领域的理论知识、主流工具和Python编程技巧。
 最新文章