基于混合注意力的多小波系数融合滚动轴承剩余寿命预测方法

文摘 2024-08-23 08:30 北京

ZUO T, ZHANG K, ZHENG Q, et al. A hybrid attention-based multi-wavelet coefficient fusion method in RUL prognosis of rolling bearings [J]. Reliability Engineering & System Safety, 2023, 237: 109337.

摘要

小波变换是一种评估非平稳信号的时频分析方法，有助于表征设备在长时间使用过程中的退化。然而，单一的小波基函数很难适用于所有的周期瞬态波形。因此，本研究提出了一种基于混合注意力的多小波系数融合方法来评估轴承的剩余使用寿命。该方法首先利用多个小波得到原始信号的特性，然后将分解后的各个频带组织成二维映射；其次，设计了一种基于注意力的混合卷积长短期记忆网络(HA-ConvLSTM)，自适应地对小波系数通道进行加权。学习到的特征被多层感知器用于评估剩余寿命(RUL)。最后，在PHM2012滚动轴承数据集上进行了测试，验证了所提方法的有效性。总体而言，该方法在性能指标上优于以前的方法，可选择性地解决周期瞬态波形的小波基函数匹配问题。

1.介绍

滚动轴承对于重型设备、风力涡轮机、高速列车和盾构机中的旋转机械是必不可少的。它的健康状况对整个系统在严苛的工作环境和连续高强度工艺下的安全运行至关重要。轴承的故障可能导致致命的安全事故。因此，迫切需要利用剩余使用寿命(RUL)预测技术，及时掌握轴承寿命信息，预警潜在故障，制定有效的维修策略，降低故障率和维修成本，有效防止重大事故的发生。

基于深度学习(Deep learning, DL)的方法作为一种数据驱动的方法，由于其强大的数据挖掘能力以及与传统方法相比具有更高的通用性和准确性，近年来受到了学术界和工业界的广泛关注。它们已逐渐成为RUL预后领域的研究热点。在早期阶段，这些策略通过将单个或多个经验指标或融合指标输入预后模型来估计RUL。在进一步的研究中，一些研究人员通过使用深度神经网络直接从原始信号中提取特征来估计RUL。尽管LSTM和RNN变化产生了良好的结果，但轴承的运行环境变化很大，从原始数据中获得的特征不能充分反映轴承的劣化过程。

时频分析是研究信号动态特性的一种分析方法。它结合了信号的频率和时间信息，这有助于更好地理解信号的变化模式。另一方面，深度学习是一种强大的数据驱动技术，可以自适应地从复杂信号中提取相关特征。一些研究人员探索了深度学习模型与时频分析技术的结合。将时频图像作为深度学习网络的输入，提高了动态信号特性的分析和预测能力。这种结合可以为各个领域的预后和健康管理(PHM)提供新的方法和思路。对原始信号进行时频变换预处理可以在不丢失退化信息的情况下提高估计精度。然而，短时傅里叶变换仅在频域具有固定的分辨率，经验模态分解缺乏理论依据。对于自适应信号表征和数据挖掘，将小波变换与神经网络相结合是一个可行的研究课题。该方法将小波系数分解后的基本特征输入到深度神经网络中进行预测。然而，如何选择小波基函数，由信号决定使用哪个小波基函数，在RUL预后领域尚未达成共识。由于轴承在整个寿命周期中存在各种信号冲击，单个小波基函数不可能满足所有的周期瞬态波形。这是由于轴承退化的进程在周期性瞬态波形的形状和特征上发生了变化。

多小波融合策略提供了一种改变周期瞬态波形的解决方案，避免了选择最优小波函数的问题，有助于提取更好的特征。先前的研究也表明，基于深度学习的数据驱动模型具有多个小波融合的性能更好。一般认为，接近故障阈值的数据包含更多的退化信息。因此，使用各种小波函数来创建高分辨率频段可以提供更详细的信号特性说明。此外，根据退化类型和操作环境的不同，RUL预测任务对使用不同小波函数的预处理也有不同的响应。许多小波系数通常被认为是同样重要的输入。然而，在不同的情况下选择不同小波类型的权重是必要的。

在注意力机制的帮助下，基于深度学习的数据驱动模型可以关注与目标相关的输入，并根据输出与输入的相似程度调整注意权重。空间注意力在直接学习原始信号时具有更好的可解释性，这相当于为时间序列中的不同位置分配权重。空间注意力有助于模型关注全局信息，在关键位置为任务相关信息分配更高的权重，并减弱不相关的噪声细节。然而，这种技术使得提取不同位置之间的相关信息变得困难。结合通道关注计算各通道特征的重要程度，合理分配权重，可以减少特征提取的冗余。然而，通道注意力通常使用全局平均池，而忽略每个通道内的信息。此外，它对跨通道相互作用的计算不足也不利于模型的学习特征。一般来说，混合注意力将来自多个位置的相关数据与来自每个通道的空间信息相结合。为了实现任务标准，混合注意模型是一种很有潜力的退化特征提取方法，它将从通道中提取的信息与不同通道维度上的信息交互结合。

针对上述问题，本研究提出了一种基于卷积块注意力模块的混合注意力下多小波融合RUL预测方法。该模型将LSTM网络与混合注意机制相结合，实现了输入多小波系数矩阵和网络更新的自适应更新。卷积算子的优势，如稀疏连通性和参数共享等，被运用到卷积长短期记忆网络（ConvLSTM）中。与此同时，LSTM在获取长期记忆方面的优势得到了保留。此外，在LSTM中引入了一个包含残差连接和激励块的全局关注层，用于在空间维度上对多个小波系数进行权重分配。LSTM单元中的自关注(SA)机制利用时间维度，根据生成的数据与输入的多个小波系数矩阵的相似度，自适应地赋予时间数据权重。最后，该模型通过多层感知器(MLP)输出评估后的RULE。

2. 理论背景

2.1. 小波包变换

小波包变换是对小波变换的改进。用小波包变换对原始信号进行分解，将运动中的稳态频率和瞬态频率划分为不同的频段。小波包变换会对低频和高频输出进行分解，经过n层小波包变换，将原始信号拆分为个子信号。此外，当运动同时具有两个以上的频率分量时，可以使用几个小波尺度参数来获得最佳分辨率。

离散小波包变换可以通过一系列低通和高通滤波器的卷积来实现。具体来说，当时，高通滤波器h(·)和低通滤波器g(·)可以定义为:

其中为标度函数，为对应的小波函数，为内积，t和k为变量。对于一个离散的一维信号，可迭代计算其各频带和分解层次的小波系数，公式如下:

式中，W0,0为长度为N的原始离散信号为第i个分解层次的第j个子带的小波系数，和分别为第(i+1)个分解层次的第2j个子带和(2j+1)个子带的小波系数，其中j在分解层次的取值范围为0~。

有多种可选的离散变换小波基函数可以连续分解信号以达到最佳分辨率。例子包括DB (Daubechies)小波、sym (symlets)小波、coiflets (coif)小波、双正交(bior)小波和反向双正交(rbio)小波。一般情况下，可以根据原始信号的波形手动选择小波函数。为了保证变换前后信息的保留，避免误差的引入，还可以利用重构误差指标来指导选择合适的小波函数。假设f(x)为时域信号，为小波函数，重构误差公式如下:

式中，DWT、iDWT分别为离散小波变换和离散逆小波变换；sum(·)为元素求和操作，|·|为绝对值操作。

2.2. 卷积长短期记忆网络

ConvLSTM是LSTM的一种变体，在早期的几项研究中已被证明在学习长期依赖方面具有鲁棒性和可靠性。ConvLSTM网络可以捕获远程空间依赖关系，获得多个时空维度的特征映射，并学习各种信道特征之间的相关性。此外，空间信息在输入到状态和状态到状态转换中使用卷积进行编码。稀疏连接和参数共享是ConvLSTM继承卷积算子的优点。在状态到状态和输入到状态的变化中，卷积操作使得从输入和记忆细胞的先前状态预测网格细胞的未来状态变得简单。图1为ConvLSTM单元图，描述了ConvLSTM的结构布局，其方程如下:

图 1 ConvLSTM单元示意图

2.3. 自注意力机制

注意力机制模拟了人类的视觉如何聚焦于观察对象的特定区域。通常，在构建网络时，人们认为输入和输出数据的贡献是相等的。该模型可以采用注意法选择有用的、合适的特征，快速完成任务。图2说明了标准的缩放点积注意过程。注意函数可以描述为一个三元组(Q, K, V)，输入特征的线性变换得到所有三元组，Q(query)是要查询的元素，K(key)是源序列中每个元素的位置码，V(value)是源序列中每个元素的值。图2描述了由标量点积和线性变换组成的SA机制。整个计算过程表示为:

图 2 缩放的点积注意力

3. 方法

提出了一种多小波系数融合技术，将多个小波包系数组合在一起，获得更精确的轴承退化信息。提出的估计滚动轴承RUL的HA- ConvLSTM方法见图3。

图 3 所提出的方法

3.1. HA-ConvLSTM模型

一方面，深度网络中的特征融合通常是通过连接特征映射通道来完成的。本文采用ConvLSTM网络自适应融合特征，简化后的特征融合过程如图4(a)所示。在此基础上，将通道SA机制和全局空间注意构成混合注意机制，并引入该网络模型。另一方面，用不同的小波系数对网络模型进行训练。如图4(b)所示，输入数据被预处理为包含大量时频信息的重叠二维图像数据。不同的通道表示使用不同小波函数获得的输入特征。当训练开始时，X表示被测量的单列扁平图像，将图像中每个点的系数作为测量值。具有多列的扁平图像根据设置被用作多通道输入。每个输入特征样本是通过对振动信号进行小波包变换得到的，这是必不可少的预处理步骤。图4(c)为通过多级小波包分解对振动信号进行分解得到时频图像样本的过程，并将分解后的频带级联成二维特征样本。此外，预处理还包括退化检测、数据扩展和连接，以创建快速处理的数据集。

图 4 特征预处理和展示框架

3.1.1. 通道自注意机制

SA机制具有良好的远程信息和全局信息提取能力，可以帮助模型更合理地分配权重。因此，SA机制可以有效地捕获源序列的内部相关性和一般互信息。通过在ConvLSTM网络中引入通道SA机制，实现基本模型，该基本模型表示为:

该模型对记忆ht进行自适应的注意力分配，根据特征数据和退化信息之间的相似性来调整每个ht的权重分配。当多层网络堆叠时，下一层的多个ConvLSTM网络单元将获得ht个通道。通过SA机制作用于ConvLSTM，将原始特征映射到不同的特征空间，得到查询矩阵、位置矩阵、数值矩阵，其中为1×1卷积操作的权值集合。ht是通过原始观测区域的特征进行映射。计算方程如下:

如图5所示，一些张量序列被输入到通道自关注ConvLSTM模型的压缩版本中。每个时间步长的输入顺序可以表示为:

式中i为一类小波系数，t为当前时间步长，每个x由小波带的M行N列组成。后xt经过这个压缩网络，最终得到一个高维矩阵，其通道注意权值被分配。这个矩阵可以表示为:

图 5 通道自关注ConvLSTM层

在该网络中，每个LSTM单元的输出特征ht通过SA机制传递得到。需要注意的是，在空间上传递的过程类似于一个全连通网络的映射关系，每个通道的被认为是同等重要的。

3.1.2. 空间全局注意模型

根据3.1.1中的通道自注意机制，对每个通道中的特征进行同等处理。这意味着每个通道的重要性和它们之间的相关性没有显式建模，并且忽略了跨通道的信息交互。相反，在空间注意机制中，每个空间位置的重要性被明确建模，特征根据其空间位置进行选择性处理。通过增加全球空间关注，可以更好地考虑来自所有特征地图维度的信息，从而解决被忽视的跨通道交互问题。所提出的空间全局注意模型如图6所示。

图 6 空间全局注意模型

通过将挤压块和激励块与残差块相结合，将全局空间注意力引入到特征通道中，以阐明各个通道序列之间的关联。混合注意力是串联的，从而可以更好地利用通道和空间注意力的好处。整个过程如下所示:

其中和分别为空间全局注意过程和通道注意过程。空间注意通过两次池化操作聚合特征图的通道信息。GAP和GMP表示通道的平均和最大池化特征。激活函数和全连接层形成集合F，即空间注意权值集合。学习频道相关性以将注意力权重分配给空间中的映射，可以校准网络的频道特征响应，从而获得更好的退化特征。

3.1.3. 剩余寿命估计模型

RUL估计模型如图7所示。经过监督培训。RUL估计模型可以最大化可训练的权值和偏置，以学习各种退化特征。结果，准确地观察到轴承退化趋势。评价模型由两个完全连通层和一个池化层组成，采用全局池化方法对特征数据进行降维处理。sigmoid函数生成初始RUL估计，而使用两个完全连接的层来辅助学习各种通道之间的非线性相互作用。

图 7 RUL估计模型

虽然深度神经网络可以对RUL进行全局估计，但局部波动是不可避免的，通常会导致估计结果不可靠。因此本实验采用单调递减平滑法来校正该误差，减小了原始RUL值，使估计结果呈现稳定的单调递减趋势。

3.2. 剩余生命估计过程

表1总结了整个预后过程，包括预处理和模型建立。在关键模型训练过程中，将ConvLSTM提取的特征权值表示为ht，并通过通道注意机制获得新的权值。然后，对于不同通道的整体表示为x，经过空间全局关注后得到新的特征权值集x'。

表 1 预测程序

为了训练所提出的模型，通常可以使用以下步骤。学习到的模型参数存储在本地，以便训练的参数可以用于离线RUL估计。此外，实时监测数据可用于提供实时更新，使该方法适用于RUL预后技术。

4. 实验与分析

本节介绍了一个实验数据集作为训练和测试数据，以评估所提出的方法的RUL预测性能。与最新的新技术的比较将在后面的章节中进行。

4.1. 实验装置

图8描述了进行研究的PRONOSTIA实验平台。该实验平台进行加速退化试验，收集滚动轴承性能退化信息，直至其完全失效。两个高频DYTRAN 3035B加速度计安装在垂直和水平轴上测量振动信号。每隔10秒，以25.6 kHz的频率进行加速度测量，采样间隔为0.1秒。与水平振动信号相比，在跟踪轴承性能退化时，垂直振动信号通常提供的有用信息较少。

图 8 PRONOSTIA平台

在实验中，17个轴承样品在三种不同的工况下进行了测试，如表2所示。实验采用留一交叉验证(LOOCV)进行。LOOCV包括在除一个样本外的所有样本上训练模型，并使用训练好的模型来预测剩余样本的rul。对数据集中的每个样本重复此过程，并计算所有样本的平均预测误差，以评估模型的性能。值得注意的是，LOOCV在处理轴承退化数据集时非常有用，因为它可以最大化训练和测试的可用数据。最初，轴承没有一些故障，并且自然退化。因此，轴承具有不同的退化模式。任何球、环或保持架故障都可能同时发生。

表 2 使用的试验平台数据集的详细描述

4.2. 评价指标

在这项工作中，使用两个指标来评估所提出方法的性能。第一个是RMSE，另一个是2008年PHM数据挑战提出的评分函数score。

式中N为样本数，△i为深度神经网络的相应RUL估计减去第i个样本的实际RUL。

4.3. 案例研究的数据预处理

如3.1所述，该方法需要进行必要的预处理，如选择多个小波函数。通常情况下，高频信号是健康的，而低频信号是由轴承故障产生的。当轴承处于崩溃边缘时，低频分量变得更加强大和集中。因此，使用多个小波函数对频带信息进行分割，以更好地表征退化。由于该模型同时处理多组预处理数据，因此延长了训练时间，并增加了过拟合的可能性。如果分辨率太低，就不可能进行详细的分析。总的来说，实验使用了5个小波函数，6个分解层，所有实验组的分辨率和小波基函数相同。然后，表3给出了本研究中使用的一些小波基函数的重构误差。在几个类别中选取误差最小的小波函数进行实验。重构误差由式(3)计算。如图9所示，几个小波系数带的时频信息存在细微差异。

表 3 全生命周期信号的小波基函数重构误差(×E-9)

图 9 用多个小波基函数变换轴承1-1的时频域信息

此外，预处理使用二进制分类器自动检测何时发生退化。分类器需要事先设置好正常样本和故障样本。以轴承1-1和1-3为例，分别选取轴承1-1的1000-6000 s和25000 - 28030s作为正常和故障样本，分别选取轴承1-3的2000-3000 s和8600-9110 s作为正常和故障样本。实验组1-1和实验组1-3的正常概率(PON)和失效概率(POF)对应的分类器输出如图10所示。由于在健康状态下获得的振动信号特征非常相似，对RUL预后不重要，因此不使用正常数据来训练模型。只评估发生降解的序列。

图 10 轴承1 - 1,1 - 3的全生命周期振动信号

及相应的RUL估计结果

4.4. 案例研究结果

所提出的模型在带有NVIDIA GeForce RTX 2060的64位Windows 10台式机上运行。本工作使用的编程工具为“Python 3.7.11″”和深度学习库“TensorFlow 2.1.0″”，后端为“Keras 1.1.2″”。在训练过程中，随机抽取20%的原始训练数据作为验证集，根据验证集的性能选择超参数。训练过程独立于测试集。为了选择合适的超参数，进行了大量的实验。此外，采用网格搜索策略确定合适的超参数。表4给出了一些重要的超参数和初始默认参数。

表 4 默认参数和实验设置

本实验进行了20次重复试验，以平均结果并减少随机性的影响。图10显示了轴承1-1和1-3的初始振动信号，以及输出RUL估计结果。观察到早期估计误差大于后期估计误差。这是因为当故障临近时，可以获得更多关于退化的信息，从而在后期获得较高的估计准确性。根据估计结果，大多数初始估计接近RUL，代表了轴承的一般退化趋势。由于与预后问题有关的不确定性，几乎不可能预测整个操作周期的RUL。因此，通常关注的不是性能下降的精确时刻，而是一般的退化趋势和关键阶段的重大退化事件。可以看出，平滑后的RUL估计滤除了剧烈的波动，呈现单调的下降趋势。初始RUL估计被单调平滑以更好地反映真实的退化趋势。

4.4.1. 不同小波的对比实验

在本节中，我们通过对比研究来证实各种小波系数的有效性。实验研究了单小波系数模型和多小波系数模型对估计精度的影响。此外，上述所有方法都使用表3中的超参数。图11显示了使用各种小波系数模式的测试轴承1-1和1-3的平均RUL估计结果。在众多的小波基函数中，有些显示的小波函数是对原始数据重构误差最小的一类。由于DB小波具有较好的分辨率和较低的损耗，选择两组小波系数DB5和DB6进行测试。采用多小波系数融合的试验组在退化性能评估中的RUL估计值优于单小波基函数的试验组。在降解过程的早期，选取多个小波系数的实验组与实际值存在差异。但在降解中后期，实验结果与实际值非常接近。

图 11 对不同小波模式的RUL估计结果进行平滑处理

在大多数退化区间，估计的RUL值比其他方法更准确。如表5所示，使用RMSE和Score来评估模型的趋势估计能力。可以发现，多小波系数模型的RMSE和Score指标低于单小波系数组。与现有方法的最佳结果相比，RMSE降低了12.6%，Score降低了3.0%。更多信息见图12。从重复测试的统计结果来看，使用多个小波系数的实验组效果优于其他5个实验组。虽然该方法的模型训练时间较长，但其误差度量达到了最优效果。因此，实验结果证明了该方法在评估轴承退化方面的有效性。

表 5 不同小波系数的平均估计结果

图 12 不同小波模式下模型的RMSE、Score和平均训练时间

4.3.2. 不同方法的比较

混合注意机制是提高RUL预测性能的关键，特别是对于多通道数据，如多小波系数数据。在本节中，进行了一些比较测试来验证混合注意机制的有效性。重要的是，本节中所有比较实验的训练集都是多小波系数数据。图13分别显示了不同基于dl的方法下轴承1-1和1-3的RUL估计结果。通过将所提出的方法与其他基于DL的方法进行比较，RUL估计最接近于退化期间的实际RUL值。

图 13 几种方法的RUL估计结果比较

如图14所示，该方法显著降低了RMSE度量，并在Score度量中获得了最佳性能。该方法所需的平均训练时间比其他基于DL的方法稍长，但达到了最佳的性能指标。此外，这些重复实验的统计结果提供了对数据指标的集中趋势、变异性和异常值的直观理解。该方法测试性能稳定，具有一定的通用性。

图 14 不同方法的RMSE、Score和平均训练时间

本节的实验比较了7种基于DL的方法；平均结果如表6所示。所有这些模型都使用表4中的超参数。结果表明，本文提出的混合注意模型在RMSE和Score方面优于其他8种模型。与其他模型的最优结果相比，混合注意模型的RMSE指标降低了7.4%，Score指标降低了6.3%。

表 6 不同方法的平均估计结果(利用多小波系数)

在所有轴承数据集上进行消融实验。具体而言，基于该方法去除了通道注意(No-CSA)和全局注意(No-SGA)。消融实验预测结果见表6。显然，去除CSA机制和SGA机制会导致性能下降。结果表明，CSA和SGA机制对预后表现至关重要。这是因为CSA允许通道特征的动态权衡，并帮助预测模型专注于重要的特征。对于SGA，它可以在训练过程中学习通道与空间特征之间的相关性。因此，预后性能得到改善。

5. 结论

本文提出了一种基于深度学习的滚动轴承RUL预测方法。所提出的深度神经网络可以准确地确定机器的退化程度，并在故障点后对数据进行评估后预测RUL。选取多个小波函数变换后的数据作为输入。以下是主要结论:

（1）提出了一种新的数据驱动深度学习网络用于旋转机械RUL预测。这种端到端预测方法不需要领域知识，可以直接处理图像序列数据，自适应提取有效特征。与其他先进的预测方法相比，该方法的误差指数最低。

（2）研究了不同小波对性能退化特征的影响，采用多小波系数预测方法提高数据驱动模型的预测能力。与使用单个小波基的最佳结果相比，该方法将RMSE降低了12.6%。该多小波预测策略可以为在全生命周期数据中连续变化的周期暂态波形选择最佳小波提供解决方案。

（3）所提出的混合注意机制可以分配适当的权重来区分和有效融合多个小波系数，有利于提高RUL预测的准确性。与单独使用注意力的最佳结果相比，该方法将RMSE降低了7.4%。

PRONOSTIA平台上的实验验证验证了该方法的有效性和优越性。应该强调的是，获得复杂系统整个生命周期的数据是困难的。虽然本文提出的方法仅使用轴承寿命周期数据来验证方法的有效性，但该数据集包含来自负载电机及其相关部件的干扰，是一个复杂的耦合退化系统。本文一方面通过添加不同类型的小波基提高性能退化特征提取的多样性，另一方面通过混合注意机制自适应集成不同特征，具有更广泛的适应性和鲁棒性。根据该方法提出的超参数对模型进行自适应微调训练后，可应用于其他具有类似场景的复杂机械设备的RUL预测任务。