WR | 从数据中心的角度推进基于深度学习的声学泄漏检测方法在供水系统中的应用

文摘   2024-11-04 10:30   浙江  
点击订阅公众号 | 前沿学术成果每日更新               

第一作者:Yipeng Wu

通讯作者:Shuming Liu

DOI:https://doi.org/10.1016/j.watres.2024.121999


                 

                 

                 

                 

                 

                 

     

             
内容速览

               

文字摘要

在严重漏水问题背景下,研究人员专注于开发基于深度学习的声波漏检技术。然而,这些研究往往优先考虑模型开发,而忽视了数据的重要性。这项研究探讨了数据增强技术对基于深度学习的声波漏检技术的影响。提出了五种随机转换基本方法——抖动、缩放、扭曲、迭代振幅调整傅里叶变换(IAAFT)和屏蔽。抖动、缩放、扭曲和 IAAFT 直接处理原始信号,而屏蔽则在时频谱图上运行。来自现实世界 WDS 的声信号被增强,并使用卷积神经网络分类器验证其有效性,以识别声信号的光谱图。结果显示,在数据分割前实施数据增强的重要性,以防止数据泄露和过于乐观的结果。在这些技术中,IAAFT 脱颖而出,显着增加了数据量和多样性,提高了识别准确率超过 7%。屏蔽主要通过迫使分类器学习光谱图的全局特征来提高性能。IAAFT 和屏蔽的连续应用进一步增强了漏检性能。此外,当将复杂模型应用于声波数据时,数据增强也可以通过迁移学习提高漏检的有效性。这些发现从数据中心的角度推进了人工智能驱动的声波漏检技术的发展,朝着更成熟的应用方向发展。

图片摘要

Highlights

  • 探索了时间和时频域内的声学数据增强。

  • 分割前的数据增强防止了因数据泄露而导致的偏斜结果。

  • IAAFT 将精度提高了 7%,非常适合用于声学泄漏检测。

  • IAAFT 和掩码的顺序使用协同作用,以提高性能表现。

Keywords:

Water distribution system;Acoustic leak detection;Data augmentation;Convolutional neural network;Time–frequency spectrogram


               

               

               

               

               

               

               
研究背景

                   
数据增强是数据中心型人工智能的一个重要方面,可以在数据有限的情况下有效增加数据量和多样性(Zha 等人,2023 年)。在深度学习的图像识别领域,数据增强技术涉及添加噪声、裁剪和旋转等随机变换,模拟真实场景以增加数据量和多样性,保留标签并增强泛化能力(Shorten 和 Khoshgoftaar,2019 年;Alqudah 等人,2023 年)。在基于深度学习的声学泄漏检测中,创建具有足够且准确标记数据的完整数据库在时间和人力方面成本高昂,因此在有全面的数据库可用之前利用数据增强可能对提高性能至关重要。然而,将数据增强应用于高频时间序列数据(例如声学信号)带来了独特的挑战。这些数据集的动态性质,加上对环境干扰的敏感性和被监测目标的多样性,需要采取更细致入微的方法。并非所有对图像有效的变换都适用于时间序列数据,因为它们可能会无意中改变信号的基本特征,导致错误分类或关键信息丢失(Iwana 和 Uchida,2021 年;Um 等,2017 年)。尽管如此,在专注于高频传感器数据(例如可穿戴设备、惯性测量单元)的研究中,已经探索了一些数据增强技术。某些技术直接在时间域中应用随机变换,例如在原始时间序列中添加白噪声和裁剪(Rashid 和 Louis,2019 年;Um 等,2017 年)。其他技术将高频信号转换到频域或时频域以进行随机变化(Park 等,2019 年;Steven Eyobu 和 Han,2018 年)。
鉴于上述情况,目前尚不清楚是否已使用框架数据正确开发了基于深度学习的泄漏检测模型,以及是否存在其他适当的方法来增强声学信号。为了解决这些研究空白,该文旨在从数据为中心的角度探索合适的数据增强技术,并增强基于深度学习的声学泄漏检测方法在 WDS 中的适用性。在以下章节中,将首先介绍各种数据增强技术。随后,讨论将围绕应用这些技术的缺陷和实际结果展开,并得出最终结论。

               

               

               

               

               

               

               
主要方法

                   
数据收集
数据是从安装在中国南方城市运行的WDS上的加速度计收集的。加速度计每天凌晨2:00到4:00自动记录声音信号,采样频率为8192 Hz,采样持续时间为5秒。本研究共选取了600个信号,平均分为无泄漏和泄漏两类,有效减轻了数据不平衡的影响。现场检查人员确认并标记了这些数据。非泄漏数据主要由环境噪声组成,还包括各种环境噪声,如抽水声和滴水声。任何泄漏点和传感器之间的距离都在200米以内(受加速度计的检测范围限制)

数据增强技术

考虑到声学泄漏检测的深度学习分类器常用的输入是时频域中的图像,因此引入了时域原始信号和时频域变换图像的数据增强技术。图 1显示了本文使用的所有数据增强技术。这些方法旨在扩展数据集,同时尽可能保留原始数据的标签。

图 1.数据增强技术概述

用于泄漏检测的深度学习分类器

CNN分类器是声学泄漏检测任务中使用最广泛的深度学习模型。如图 2所示,典型的CNN分类器包括卷积层、池化层、全连接层和输出层。在卷积层中,卷积核遍历二维频谱图,逐点与每个区域的元素相乘,然后将结果聚合以获得一个值。这些由滑动卷积核生成的值共同形成一个特征图。池化层用作卷积后生成的特征图的特征压缩器。这种压缩有助于降低计算复杂度并从卷积输出特征中提取重要信息。卷积层和池化层之间可以有各种组合,包括一对一或多对一配置。在本研究中,数据增强技术的评估主要基于时频CNN (TFCNN) 分类器,该分类器具有两个卷积层、一个最大池化层、两个全连接层(分别有 512 个和 256 个神经元)和一个输出层。

 图2. CNN分类器主要组件图

               

               

               

               

               

               

               
研究结果

                   
数据泄露导致的结果偏差

该研究比较两种条件下 TFCNN 分类器的性能:使用先实现分帧的数据的 TFCNN 分类器称为 TFCNN-post-splitting,而使用先实现数据拆分的数据的 TFCNN 分类器称为 TFCNN-pre-splitting。如图3所示,TFCNN-post-splitting的性能明显优于TFCNN-pre-splitting,凸显了数据拆分和分帧中实施顺序的重要性。防止分类器可能会在训练阶段从不可用或看不见的数据中收集信息,从而导致有偏差的乐观结果。这种现象通常被称为数据泄漏。

图 3 . TFCNN 分类器在两种条件下的性能:一种在将原始信号拆分为训练、验证和测试数据集后实现分帧(即预拆分),而另一种在将原始信号拆分为训练、验证和测试数据集之前实现分帧(即后拆分)

为了评估数据泄漏的发生,采用广泛使用的相似性度量余弦相似性来分析增强帧的时频谱图(展平为矢量)。图 4说明了来自同一信号的不同帧的频谱图之间(即,帧内相似性)以及来自不同信号的帧之间(即,帧间相似性)的余弦相似性的分布。

图4 .来自同一信号的不同帧的频谱图之间(即,内部相似性)以及来自不同信号的帧之间(即,外部相似性)的余弦相似性的分布
  数据增强技术的评估
如图5所示,五种数据增强技术在性能增强方面表现出不同的能力。随着数据量的增加,每种技术都有助于提高所有四个性能指标的泄漏检测性能。随着数据量的增加,性能并没有持续提高;事实上,在将数据增强到 12,000 个样本后,性能略有下降。这表明,在原始数据集大小固定时,数据增强的有效性是有限的,更多的增强并不一定会带来更好的结果。

图 5.使用不同的单一数据增强技术时的泄漏检测性能比较
为了解释为何五种数据增强方法在增强泄漏检测性能方面表现出不同的能力,计算了不同数据增强技术的增强数据频谱图与原始信号之间的余弦相似度,如图6所示。

图 6.不同数据增强技术的增强数据与原始信号的频谱图余弦相似度。框中的数字代表中值。

文献信息             
:5              

点击“原文链接”,查看论文


               

               

声明:本公众号分享的前沿学术成果来源于各学术网站,不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!         

邮箱:environmodel@sina.com         

若您认为有用,欢迎

Environmodel设为星标,或

点击“在看”或“分享”给他人


Environmodel
Environmodel(环境模型)专注于环境科学与工程领域的建模及模型研究进展,并分享涵盖机器学习、深度学习以及人工智能等相关领域的理论知识、主流工具和Python编程技巧。
 最新文章