ICDE 2024 | TFMAE: 基于时频掩码自编码器的对比时序异常检测

文摘   2024-12-25 13:14   北京  

论文标题: Temporal-Frequency Masked Autoencoders for Time Series Anomaly Detection

作者:方雨晨,谢建东,赵艳,陈璐,高云君,郑凯

机构: 电子科技大学,华为云,奥尔堡大学,浙江大学

关键词: 异常检测,分布偏移,对抗对比

论文链接:https://zheng-kai.com/paper/icde_2024_fang.pdf

IEEE链接https://ieeexplore.ieee.org/abstract/document/10597757

代码链接:https://github.com/LMissher/TFMAE

TL; DR: 此文分别从时域频域视角出发预消除潜在异常,并将时域异常掩码后与频域异常掩码后的对比差异作为异常检测判别标准。

点击文末阅读原文跳转本文IEEE链接 

 挑战(Challenge) 

作者首先指出当前时序异常检测任务仍存在两个挑战:

  • 首先是异常偏置。作者指出现有深度学习模型性能与训练数据息息相关,然而训练数据中难免会存在异常点或片段,导致模型学到与正常模式无关的偏置从而拟合异常事件导致性能下降。如下图所示,TimesNet网络也能重建周期性函数中的脉冲从而导致异常无法被检测。
  • 其次是时序分布漂移,也即训练数据中的演化及异常现象在测试集中可能不再适用甚至导致错误。下图展示了传统重建模型的异常检测得分累积分布函数,可以看出测试与验证集存在明显差异,这将导致无法确定阈值进行高准确率的异常检测。

 贡献(Contribution) 

此文提出了一个基于对抗对比损失的时频掩码自编码器 Temporal-Frequency Masked Autoencoders (TFMAE) 网络进行时序异常检测。主要的贡献有三:

  • 为了消除潜在的异常观测或模式对模型带来负面影响,此文提出了基于窗口的时间掩码自编码器和基于幅值的频率掩码自编码器来预消除时频域异常。因此没有时域或频域异常的输入使其对应自编码器不会被时域或频域异常所误导,即 TFMAE 是一种抗异常偏置的模型。
  • 这项工作将基于时间和频率双通道掩码自编码器的对比差异取代重建误差进行时间序列异常检测,这是因为时频域异常与其相对另一自编码器消除异常后表示之间差异将超过正常表示间差异。对比差异借助同一输入的不同表示相似性分布无关这一事实,从而削弱分布偏移影响。
  • 此文不仅通过对真实世界数据集的实验验证了所提出方法的有效性与高效性,而且还揭示了时频域最佳掩码比率。

 方法(Method) 

Overview

如下图所示,此文所提出的模型由四部分构成,分别为 Temporal-Frequency Masks, Transformer-based Autoencoders, Model Training 和 Anomaly Detection. 其中 Temporal-Frequency Masks 由  Window-based Temporal Masking 和 Amplitude-based Frequency Masking 组成。其中 Transformer-based Autoencoders 由 Transformer 堆叠  层对序列进行表示。


Temporal-Frequency Masks

给定一个单变量或多变量时间序列,TFMAE 采用基于窗口的时间掩码策略和基于幅值的频率掩码策略有选择性地预消除潜在的异常观测点及模式,从而避免异常偏置对模型造成影响,并得出输入序列的两个不同表示。



基于窗口时间掩码:上图展示了该掩码策略的流程,首先使用滑动窗口提取子序列,然后使用局部子序列统计数据作为是否掩码的异常度量。之所以采用滑动窗口提取子序列,是因为与原始观测值相比,基于窗口计算的统计数据具有局部时间丰富性,并且对分布偏移更鲁棒。与直接使用子序列的平均值或标准差不同,此文采用变异系数,其可以反映局部子序列的相对波动程度。具体而言,给定时间序列  第  个特征在  时刻的观测值 ,滑动窗口采样子序列为 ,其中  表示滑动窗口的长度。第  个子序列的变异系数计算如下:
其中  表示第  个子序列中  个特征的变异系数之和, 表示第  个子序列中第  个特征的平均值。变异系数越大,表示数据越分散,即局部子序列越异常。因此,此文选择变异系数较大的一部分观测子集作为候选异常进行掩码,以减少异常偏置影响。该掩码策略不受数据尺度变化的影响,因变异系数由其平均值归一化。此外,考虑到效率是异常检测的关键,但基于窗口时间掩码引入了两个不可避免的循环(内部循环用于计算统计数据,外部循环用于滑动窗口),从而大幅增加计算时间。因此此文探索了变异系数的另一种推导方法,该方法依赖于预期值和平均值。这种替代形式可以简单地表述如下:
其中  表示子序列平方均值。通过在  上滑动全  滤波器(即在时间序列上使用全为1卷积核的卷积)可获得每个窗口均值。根据维纳-辛钦定理,通过快速傅里叶变换 (FFT) 可以加速计算变异系数:

其中  表示第  个特征的变异系数。 和  表示 FFT 及其逆运算。因此,两个循环被 FFT 运算所取代,该运算可以并行执行,复杂度为 


基于幅值频率掩码:上图展示了频率频率过程。值得注意的是,此文选择对原始时间序列频率掩码,而不是对时间掩码后的序列进行。这种双通道的设计使异常模式能时间掩码后保留,并在频率掩码后保留异常点。这种选择源于对比检测异常需要两种不同的表示来计算差异。首先,频率掩码需要将时间序列转换为频率表示,以增强对模式变化感知灵敏度。对于给定输入时间序列 ,通过对每个特征使用离散傅里叶变换 (DFT) 可获得其频率表示 。从数学上讲,特征  的频谱 (角频率为 )公式如下:

以往基于频率的时间序列建模方法通常会直接舍弃高频噪声分量(具有较大角频率)。然而,此文认为仅凭频率不足以作为判断异常模式的标准。首先,某些高频操作(如在服务器集群中写入日志)应被保留。其次,趋势和周期异常等也可能为低频分量。因此此文使用幅值代替频率作为掩码标准,以期更全面从持续时间和时间尺度等方面评估各频率重要性。输入时间序列的振幅  可以按如下方式计算:

最后此文选择振幅较小一部分频率子集作为被掩码模式,因为它们的时间尺度较低且存在时间较短。与时间域中掩码和非掩码时间点可被简单分割不同,不同频率在被恢复到时间域后将会融合。因此,传统的掩码自编码器范式(通常按顺序对非掩码和所有 token 进行建模)在频域中遇到挑战。此文则直接使用可学习向量  来替换掩码频率,然后再转换到时间域。因此,替换的表示可以形成如下:

Transformer-based Autoencoders


频率掩码自编码器: 此文使用基于 vanilla Transformer 的解码器来用正常模式恢复被掩码频率,这是因为 Transformer 具有强有力捕获时间依赖性能力。频率掩码自编码器仅采用解码器架构的,这是因为逆傅里叶变换后,被掩码频率和未被掩码频率已然混合。具体的,如上图左侧所示,vanilla Transformer 包括位置编码和随后的  层自注意力模块。

时间掩码自编码器:如上图右侧所示,未被掩码的时间点首先由基于 Transformer 的编码器处理,以学习正常时间依赖。随后,所有时间点也即掩码与未掩码时间点将被共同输入到基于 Transformer 的解码器中,以通过学习到的正常依赖恢复被掩码的时间点。

Model Training

对比目标:虽然重构误差一直是异常检测任务中的主要损失函数,但时间序列分布偏移的持续挑战阻碍了其有效性。时间序列分布偏移表示测试数据与训练数据相比的分布变化,这给从先前学习的模式中重构未见数据带来了困难。换句话说,异常分数高的观测值不一定是异常的,而是未见的。为减轻时间序列分布偏移的负面影响,此文提出一种全新的对比目标函数来训练模型,它用最小化时间和频率掩码表示之间的差异来取代最小化原始和重构时间序列之间的差异。这是因为,即使是未见样本,相同时间序列基于时频掩码的表示也会根据其时频一致性从而保持一致。此外,与使用正负对的经典对比学习不同,此文仅使用正样本,以尽量降低时频掩码间差异。在训练阶段,异常将被逐渐凸显,这是因为与表示一致的正常时序相比,不同表示中异常的恢复和原始异常之间的差异是难以降低的。因此,在推理阶段,差异较大的时序将被检测为异常。

对抗训练:单独使用对比学习容易导致过拟合,如对比训练后,时间掩码后表示中异常频率往往接近其在频率掩码表示中对应的正常恢复。这种现象与最小化正常观测之间的差异同时最大化异常之间的差异的预期目标相矛盾。为解决这个问题,此文在目标函数中引入了对抗机制,其旨在增加正常表示之间的相似性,同时保持异常表示与其对应的正常视图之间的显著差异。在训练阶段,异常表示的差异与正常表示的差异之间的差距逐渐增大,因为异常表示的差异更难减小而更容易增加。此外,时间和频率掩码表示梯度分别在最小化和最大化阶段停止,这是因为时间掩码表示可保留更多原始信息,因此更适合在对抗训练中充当标签。

Anomaly Detection

在对比设计中,时频掩码表示之间的差异大小直接对应于异常的可能性。因此,此文在推理阶段采用对比差异作为异常分数。时间点  的分数可以计算如下:

最终,根据异常分数和预定阈值  评估观察结果,即当分数超过阈值时即检测到异常。检测到的标签  如下所示:

 实验(Experiments) 

Datasets

此文使用七个常用的时序数据集进行异常检测,分别是MSL、PSM、SMD、SWaT、SMAP、NIPS-TS-Global 和 NIPS-TS-Seasonal,他们的详细信息如下表:

Main Results

主要结果如下表所示,可以看出 TFMAE 在所有 task 都取得了 sota 的结果,并且在五个数据集的平均结果上取得  以上提升。

Ablation Study

如下图所示,此文分别从时间、频率、对抗角度进行消融实验。其中以 w/o  和 w/  表示去除对抗训练并且反转对抗目标,可以看出对抗训练是必要的并且时域信息更适合作为标签。w/o Fre 与 w/o Tem 结果显示单纯重建目标将会受分布漂移影响降低性能。w/o FD 与 w/o TD 结果表明在掩码自编码器中,使用已知信息在解码器中恢复掩码节点至关重要。

Investigation on Temporal-Frequency Masks

此外作者对不同掩码策略进行实验。分别是不使用时间掩码 w/o MT、不使用频率掩码 w/o MF、使用标准差时间掩码 w/ SMT、 使用高频率掩码 w/ HMF、使用随机时间与频率掩码 w/o RMT 与 w/o RMF。效果如下,可以看到不使用掩码效果甚至好于使用随机掩码,表明建模的关键在于掩码潜在异常节点而非简单进行掩码。此外,可以看出频率上高频掩码效果不佳不足以代表频率是否异常。

Hyper-Parameter Sensitivity Analysis

如下图所示,SWaT、SMD、SMAP、PSM 和 MSL 的最佳时间掩码比例分别为  和 。尽管使用较小的掩码率(例如 SMD 数据集上的 )即可实现比较好性能,但将时间掩码率增加到 SWaT 数据集上的  时也会观察到类似的结果。这归因于时间序列表现出显著时间冗余,因此从缺失的观测值中恢复起来相对容易。此外,SWaT、SMD、SMAP、PSM 和 MSL 的最佳频率掩码率分别为  和 。据观察,与较大时间掩码率相比,较大的频率掩码率会导致性能较差。这种差异源于单个频率比单个点包含更多信息。

Model Efficiency Study

如下图所示,TFMAE 获得了最高的 F1-Score,拥有最高效的 GPU 内存利用率,并在训练速度方面排名第二。虽然 TranAD 在速度方面表现出色,但与 TFMAE 相比,更大的内存占用和更低的性能表明 TFMAE 在速度和性能之间实现了更好的平衡,同时具有出色的内存使用率。此外,w/o FFT 训练速度的明显下降凸显了我们基于 FFT 加速的时间掩码有效性。



推荐阅读
2025 KDD | PatchSTG: 不均匀空间点 Patching 助力大规模时空图预测
ICDE 2024 | 时间序列(Time Series)论文总结
ICDE 2024 | 时空(Spatial-Temporal)数据论文总结
NeurIPS2024 | 多元概率时间序列预测中的误差相关性建模

欢迎各位作者投稿近期有关时空数据时间序列录用的顶级会议期刊的优秀文章解读,我们将竭诚为您宣传,共同学习进步。如有意愿,请通过后台私信与我们联系。


点击文末阅读原文跳转本文IEEE链接。

如果觉得有帮助还请分享,在看,点赞

时空探索之旅
分享时空数据和时间序列前沿文献。偶尔聊聊影视剧。
 最新文章