正常时序转化为图像,进行高效且可解释的多元时序异常检测

科技   2024-10-28 18:30   中国  

点击名片

关注并星标

#TSer#

扫下方二维码,加入时序人学术星球
参与算法讨论,获取前沿资料
280+篇专栏笔记,已有260+同学加入学习)

传统的异常检测方法依赖于偏离分布的特性和手动设置的静态阈值。然而,静态阈值无法检测上下文中的异常,导致误报率较高。因此,需要一种自适应阈值方法来提高异常检测的准确性。

本文的研究者提出了一个将层次上下文表示学习与深度学习方法相结合的多元异常检测框架 HCR-AdaAD。其核心思想是将正常时间序列模式转换为图像,从而提取空间特征并为正常时间序列生成稳健的表示。之后采用极值理论(EVT)为流式时间序列设置自适应阈值,这有助于提高异常检测的精度,并结合上下文信息提供高可解释性。


【论文标题】
Hierarchical Context Representation and Self-Adaptive Thresholding for Multivariate Anomaly Detection


论文背景


时间序列异常可以分为三种类型:点异常、上下文异常和集体异常。这些复杂的异常模式在各种时间序列数据中很常见,并给异常检测带来了挑战。

传统方法在识别这些类型的异常方面存在众所周知的局限性。以前,异常阈值是静态的、专家定义的,未能很好地捕捉上下文异常,因为它们忽略了时间和空间依赖性。这些方法导致了大量的假阴性,从而导致了巨大的经济损失。后来,统计方法被引入以解决上下文异常的问题,通过基于时间序列数据分布的变化更新阈值。然而,这些方法对于非平稳多变量时间序列中的预期正常概念漂移不够鲁棒,并且未能考虑和挖掘多变量时间序列之间的交互信息,导致了大量的假阴性。

为了解决这些问题,应该提出一种针对多变量时间序列的自适应阈值方法。多变量时间序列异常检测可以通过两个阶段完成:(1)多变量时间序列表示学习以平滑偏差;(2)自适应阈值计算和异常检测。实现这一理念有两个主要挑战:

  • 考虑到多变量时间序列的时空动态依赖性,如何学习鲁棒的潜在表示;
  • 基于扎实的统计理论设计自适应阈值策略,以实现期望的预警结果。

该论文的主要贡献总结如下:

  • 提出了一种新的有效的多变量时间序列异常检测框架,并将异常检测任务分解为两个子任务:多变量时间序列表示和动态阈值生成。研究者将多变量时间序列数据转换为图像以进行数据增强,并从层次上完全提取多变量时间序列之间的复杂时空相关性。

  • 基于极值理论优化了自适应阈值方法,并设计了更好的异常检测的自适应策略。在三个公共数据集上对所提方法进行了全面分析,包括与基线的比较、消融研究和深入的案例研究,实验证明了该方法的有效。



模型方法


图1:HCR-AdaAD框架


HCR-AdaAD 框架整体流程包括四个步骤:


  • 数据处理:使用滑动窗口对数据进行归一化和分割;

  • 离线训练:使用分层上下文表示(HCR)模型从数据中学习正常模式

  • 在线异常检测:利用训练好的表示模型为每个数据点生成异常分数

  • 使用 AdaAD 方法进行异常检测。


图2:HCR多元时间序列表示模型


HCR 模型由三个组件组成,可以看作是一个编码器-解码器框架。第一个组件是局部时间上下文表示模块,用于提取正常时间序列模式。第二个组件通过构建图结构学习多变量时间序列之间的空间特征和相关性。最后一个组件基于 Transformer 编码器提取全局时间表示,完成层次化上下文表示过程。


01

本地时间上下文表示学习 


传统方法直接从原始数据中提取时空特征,与之不同的是,本文目标是捕获与上下文和集体异常相关的上下文时间序列模式。从递归图(RP)中汲取灵感,研究者通过生成图形表示来表示时间序列数据的动态模式。RP 和其他数据增强技术可以有效地突出时间序列数据的周期性、趋势、噪声和突发性。因此,研究者将每个一维时间序列转换为二维图像,并使用卷积神经网络(CNN)提取局部时间特征。


图3:时间序列的典型模式,包括周期漂移、增量漂移、噪声和突然漂移


02

基于图的空间相关性学习 


研究者所提出的模型旨在捕获多变量时间序列之间的空间语义信息,以实现更准确的时间序列表示。为了实现这一点,构建了一个图来学习测量之间的空间关系,以此利用图结构的强大表示能力。


为了捕获测量之间的动态空间依赖性,研究者提出了一个基于图注意力的表示模块,该模块根据预定义的图结构学习节点的表示。类似于图注意力网络(GAT)中的信息传播和更新机制,通过关注具有高相似性分数的邻近节点来更新聚合表示。


03

基于Transformer的全局时间上下文表示学习 


为了捕获时间序列中的全局时间模式和转换,研究者利用空间和局部时间嵌入来获得全局时间嵌入。由于 Transformer 在序列学习任务中表现出色,则使用了位置嵌入和注意力机制来捕获时间序列的动态全局趋势。


由于 Transformer 对排列是不变的,它们无法捕获时间序列数据的顺序信息,这对于有效的序列学习至关重要。为了解决这个问题,研究者引入了位置编码,将输入时间序列嵌入的位置信息纳入模型中(如图4所示)。


图4:Transformer结构


04

使用层次化上下文表示进行训练 


这里使用了非线性神经网络重建原始输入时间序列,包括卷积、线性投影和层归一化操作,并通过最小化重建损失来训练模型。


为了优化模型参数,使用 Adam 优化器来计算梯度并更新模型参数。在训练阶段,模型在没有任何异常的时间序列数据上进行训练。训练完成后,使用重构误差的偏差来计算异常分数,这可以用于区分测试数据集中的正常和异常模式。异常分数进一步用于 AdaAD 方法。


图5:HCR模型的训练过程


05

使用自适应阈值进行异常检测 


提出了基于峰值超过阈值(POT)方法的自适应流峰值超过阈值(ASPOT)算法。与基于高斯分布的统计方法相比,极值理论不需要对数据做出任何假设,并且在处理大型或多维数据时具有良好的可扩展性。具体来说,对于长序列,首先通过设置滑动窗口来集中化时间序列的初始段,该段遵循相同的分布,主要目的是检测数据流的分布变化。实际上,研究者使用流数据的前10%作为初始段。


之后根据该段的数值特征设置初始峰值阈值,并根据极值理论计算初始异常阈值。移动滑动窗口,并检查后续时间点的数值是否超过异常阈值。如果它们确实超过了,则将它们标记为异常,并从滑动窗口中移除异常值,以确保滑动窗口内序列的分布不受它们的影响。如果它们只超过了初始峰值阈值,这意味着序列表现出概念漂移,极端值的分布需要更新,基于此更新异常阈值。如果它们被识别为正常,阈值保持不变。


图6:ASPOT策略



实验分析


01

与基线的比较性能 


与基线中的最佳结果相比,HCR-AdaAD 在召回率和 F1 上的提升分别为2.7%和4.1%。

具体来说,One Class-SVM 在所有基线中表现最差,因为它不捕获时间特征,只根据距离度量确定异常,而没有时间信息很难检测上下文异常,Isolation Forest 也是如此。在CL-MPPCA中,当测量之间的交互变得复杂时(例如SMD),ConvLSTM 未能识别正常概念漂移,并获得不利的结果。InterFusion 和 OmniAnomaly 都是基于重构的方法,它们捕获了层次化的时间依赖性,它们忽略了空间上下文信息,并生成了粗粒度的时间序列表示。MTAD-GAT 假设所有测量都是相互连接的,然而,这与许多现实世界的场景不一致,并且对于训练和推理来说耗时。


表1:HCR-ADAAD与其他基线方法的精确度、召回率和F1值的比较


02

消融研究 


研究者分别去除了局部时间嵌入、空间语义嵌入和全局时间嵌入,并使用精确度、召回率和F1分数评估了异常检测性能。

结果如图7所示,表明在 SMD、MSL 和 SMAP 数据集中结合所有三种类型的表示可以带来最佳的异常检测性能。缺少一种表示的模型至少有7.3%的性能提升。HCR 模型中缺少局部时间嵌入会导致性能最大幅度的下降,这突出了挖掘局部时间模式的重要性。二维图像可以增强局部时间模式及其后续的时间演变机制。空间表示和全局时间表示在不同数据集中对生成异常分数的贡献各不相同,空间嵌入在 SMD 和 MSL 数据集中扮演了更重要的角色,而在 SMAP 数据集中则相反。这些差异主要是由于数据场景不同,与局部时间表示相比,它们的贡献并不显著。


图7:消融研究结果


03

AdaAD策略分析 


将 AdaAD 方法直接应用于包含异常点的原始时间序列片段,以探索其在检测异常中的表现,并计算 F1 分数以与 OC-SVM 和 HCR-AdaAD 进行比较。

结果如表2所示,清楚地表明仅依赖自适应阈值计算策略的 F1 分数低于基于深度学习的方法,但高于 OC-SVM 等传统方法。这表明仅依赖自适应阈值策略可能无法满足应用场景的高精度要求。这是因为该策略无法有效识别概念漂移和噪声等问题,导致高假警报率,如图8所示。

表2:与三种不同方法的F1分数比较


图8:在突变情况下的性能(案例1)


04

空间上下文嵌入的分析 


研究者从 MSL 数据集中挑选了几个片段,以展示空间相关性建模的有效性,如图9所示。


显然,这三个传感器时间序列中的异常区间属于局部上下文异常,这些异常可能乍一看并不明显。然而,AdaAD 方法在识别这类局部上下文异常方面存在局限性,难以满足实际场景中异常检测的精度要求。当引入空间相关性信息时,可以明显看出这些时间序列在同一时期的波动更加显著,表明异常的可能性更高。因此,可以利用图注意力网络对异常片段进行建模和高效聚合,从而提高该部分的异常分数。


图9:空间特征对异常检测的有效性。(a)、(b)和(c)是MSL数据集中的原始时间序列,而(d)、(e)和(f)是对应的异常分数(蓝色实线)和动态阈值(橙色虚线)。



总结


该论文提出使用层次化上下文表示和自适应阈值(HCR-AdaAD)框架进行异常检测。与直接从原始数据中学习不同,研究者使用数据增强方法将一维时间序列数据转换为二维图像。

HCR 模型提取多尺度时空信息以学习给定数据的正常模式。通过重建正常和异常时间序列数据,异常分数被确定,并且在正常样本和潜在异常之间有明显的界限。此外,使用基于极值理论的 AdaAD 方法来检测异常。

实验结果表明,HCR-AdaAD 在各种基线方法中的性能更优,HCR-AdaAD 中每个组件的有效性,以及在许多应用场景中的潜在预警能力。


扫下方二维码,加入时序人学术星球

星球专注于时间序列领域的知识整理,前沿追踪

提供论文合集、视频课程、问答服务等资源

280+篇专栏笔记,已有260+小伙伴加入

价格随着内容丰富而上涨,早入早享优惠哦~

时间序列学术前沿系列持续更新中 ⛳️

后台回复"讨论",加入讨论组一起交流学习 🏃

往期推荐阅读


Time-MMD:首个涵盖9大主要数据领域的多域多模态时间序列数据集
华东师大团队首创!时间序列异常预测开启全新时序任务
时序异常检测新进展!华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型
如何处理多频段时序特征?这个Transformer变体显著提升预测效果
PeFAD:边缘设备中高效的联邦异常检测框架
KDD 2024 | 数据驱动的分布偏移检测与自适应
NeurIPS 2024 | 分段时序多分类任务下的一致性学习框架
KDD 2024 | 首个基于 Diffusion 的自监督时序表示方法
港大智慧城市大模型 OpenCity 来袭! 时空预测是否将在 GPT 时代重塑?
KDD 2024 | RHiOTS:评估层级化时序预测算法的可靠性
时间序列预测中如何构建层级化的 Transformer 架构?
KDD 2024 | FNSPID:整合新闻与股价的大规模金融数据集
KDD 2024 | 检测并优化时序预测中的分布偏移问题
LSTM再升级!原作者携xLSTM回归,扩展LSTM到数十亿参数

觉得不错,那就点个在看和赞吧

时序人
专注于时间序列领域下的科研、工业干货分享,紧跟AI+等领域的科技前沿
 最新文章