EffiCANet:基于卷积注意力的高效时间序列预测,显著降低计算成本

科技   2024-11-17 10:30   浙江  

点击名片

关注并星标

#TSer#

扫下方二维码,加入时序人学术星球
参与算法讨论,获取前沿资料
280+篇专栏笔记,已有270+同学加入学习)

在智能制造和智慧城市的快速发展中,依赖物联网(IoT)和人工智能(AI)的多变量时间序列预测已成为关键任务。广泛部署的传感器网络实时采集多变量数据,为工业设备监控、资源调度、预测性维护等任务提供了数据支持。然而,如何高效、准确地预测这些复杂的多变量时间序列仍是重大挑战。


近日,来自南开大学、ENN Group 和澳大利亚格里菲斯大学的研究团队深入探讨了多变量时间序列高效预测的核心问题。传统的时间序列预测模型存在各自的局限性:Transformer 类模型擅长捕捉长时间依赖,但计算复杂度较高;基于卷积的模型(如时间卷积网络,TCN)计算高效,但感受野有限,难以捕捉长时间模式;而线性模型虽然高效,但难以处理复杂的非线性依赖。因此,研究的关键在于设计一种能兼顾预测准确性与计算效率的模型,尤其适用于资源受限的场景。


【论文标题】

EffiCANet: Efficient Time Series Forecasting with Convolutional Attention

【论文链接】

https://arxiv.org/abs/2411.04669


研究动机


时间序列数据中变量之间的关系往往复杂且动态,可能受测量误差、异步效应及滞后关系等影响。例如,气候监测中的传感器数据可能不同步,导致系统误判。类似情况也存在于供应链管理中,如库存变化滞后于需求变化。如果忽视这些变量间的复杂关系,预测的准确性将受到影响。


图1: 多变量时间序列中的异步和滞后关系


尽管已有的方法在时间依赖与变量间关系建模上有所进展,但仍存在两大挑战:一是如何平衡计算效率与预测准确性,二是如何有效捕捉多变量间的复杂动态关系。主流的 Transformer 架构在捕捉长时间依赖时计算代价较高,卷积模型虽具备计算效率优势,但感受野有限,而扩展卷积核虽能解决此问题,但计算成本上升。第二个挑战在于应对多变量间的时变关系,尤其在变量异步或滞后效应明显的情况下。为此,需要一种能够动态捕捉这些复杂关系的模型。


基于上述挑战,本文提出了 EffiCANet,一种高效的卷积注意力网络,旨在捕获短期与长期依赖的同时,动态建模变量间的复杂关系。EffiCANet 集成了三个关键组件:时间大核分解卷积(Temporal Large-kernel Decomposed Convolution,TLDC)模块,用于高效捕捉长短期时间依赖;变量间组卷积(Inter-Variable Group Convolution,IVGC)模块,捕捉变量间的动态关系;以及全局时间变量注意力(Global Temporal-Variable Attention,GTVA)机制,增强对关键时间点和变量的关注。通过这些创新设计,EffiCANet不仅提升了预测准确性,还显著降低了计算开销,特别适合需要低延迟预测的场景。



模型方法


EffiCANet 的核心由多个堆叠的块组成,每个块都包含三个主要部分:TLDC、IVGC、GTVA。模型首先通过 patching 和 embedding 层将输入的原始多变量时间序列转换为适合处理的特征空间。然后,数据经过层堆叠的块,逐步优化特征表示。在每个块内,特征表示通过与其输入进行逐元素相乘来进一步增强,从而捕捉不同的时间和变量模式。最终,模型通过预测头输出时间序列的预测结果。


图2: EffiCANet 模型架构


01

时间大核分解卷积模块(TLDC) 


TLDC 模块旨在通过分解大卷积核来高效捕捉短期和长期的时间依赖性。直接使用大卷积核计算开销高,TLDC 通过两步分层卷积的方式来简化这种计算:首先通过深度卷积(Depth-Wise Convolution, DW Conv)捕捉局部的时间依赖性,接着通过深度扩张卷积(Depth-Wise Dilated Convolution, DW-D Conv)扩大感受野,从而捕捉长距离的时间关系。两者的结果进行逐元素相加,既能高效处理局部依赖,又能捕捉全局信息,大大降低了计算复杂度。


图3: TLDC 模块架构


02

变量间组卷积模块(IVGC) 



IVGC 模块专注于建模多变量时间序列中变量之间的复杂动态关系。为了捕获时间序列数据中的局部相关性,IVGC 将输入数据划分为固定大小的时间窗口,对每个窗口内的变量进行组卷积操作。这种方式通过在每个时间段内共享卷积核,能够有效捕获局部的变量关系,特别适用于变量存在时序不同步或滞后的情况。


为了增强对不同时间段间关系的捕捉,IVGC 采用了两种不同的 padding 策略:标准 padding 和首尾 padding。这两种策略分别在时间维度上对数据进行填充,以生成稍有偏移的时间窗口。通过对这两种策略的结果进行对齐和合并,IVGC 能够覆盖更丰富的时间变化模式,提升对变量间动态变化的建模能力。最终,IVGC 通过进一步的卷积处理,生成更为集成的变量关系表示。


图4: IVGC 模块架构


03

全局时间-变量注意力模块(GTVA) 


GTVA 模块基于 Squeeze-and-Excitation (SE) 原理,分别对时间和变量维度引入注意力机制,进一步增强模型对多变量时间序列中长时依赖和复杂变量交互的捕捉能力。该模块通过独立生成时间注意力权重和变量注意力权重,分别强调时序信息和变量间的相关性。


首先,时间注意力通过全局平均池化操作,从变量维度上提取全局时间特征,并通过一个两层全连接网络生成时间注意力权重,动态调节每个时间步的特征。类似地,变量注意力在时间维度上进行池化,提取变量间的依赖关系,并通过同样的网络结构生成变量注意力权重。最后,这两种注意力权重与卷积输出相乘,实现对时序和变量信息的联合调整。


图5: GTVA 模块架构




实验结果


  • 主结果

EffiCANet 在9个公开数据集上进行了评估,包括 ETTh1、ILI、Electricity 等。实验结果显示,在72个测试场景中,EffiCANet 52次获得第一,13次获得第二。在 ETTh2 数据集上,EffiCANet 的均方误差(MSE)比次优模型降低4.7%,在 ILI 数据集上,MSE 降低了10.02%。


图6: EffiCANet 主结果


  • 模型效率

EffiCANet 在计算复杂度、参数量和预测性能方面综合表现优异。与 Transformer 类模型(如 PatchTST)和 MLP 类模型(如 DLinear)相比,EffiCANet 在保持低计算成本的同时,仍具备领先的预测准确性。


图7: EffiCANet 模型效率对比


  • 消融实验

消融实验验证了各模块的贡献。结果显示,去除时间维度或变量维度的模块会显著降低性能。相比传统大核卷积,TLDC 模块在保持精度的同时,显著减少了计算成本。


图8: 消融实验结果


  • 可视化分析

EffiCANet 的 IVGC 模块在 Weather 数据集上的卷积权重可视化展示了变量间的动态依赖关系,显示了模型捕捉动态变量相互作用的能力。


图9: 变量依赖关系可视化



总结


EffiCANet 是一种专为多变量时间序列预测设计的高效模型。它通过三个核心模块有效捕捉时间和变量间的依赖关系。TLDC 模块通过大核分解,平衡了短期和长期依赖的建模,适用于长序列数据。IVGC 模块则专注于变量间动态关系,灵活捕捉时序中的关键依赖。GTVA 模块进一步提升了模型的准确性,通过同时关注时间和变量维度,提供更精准的上下文理解。未来工作将专注于提升模型在非平稳数据上的表现,并进一步增强模型的可解释性,扩展其在复杂系统中的应用。


扫下方二维码,加入时序人学术星球

星球专注于时间序列领域的知识整理,前沿追踪

提供论文合集、视频课程、问答服务等资源

280+篇专栏笔记,已有270+小伙伴加入

价格随着内容丰富而上涨,早入早享优惠哦~

时间序列学术前沿系列持续更新中 ⛳️

后台回复"讨论",加入讨论组一起交流学习 🏃

往期推荐阅读


NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用
综述 | 时空图神经网络模型在时间序列预测和分类中的应用
填补空白!Salesforce 提出首个通用时序预测模型评测基准 GIFT-Eval
清华与深大提出TimeBridge,有效处理长期时间序列预测中的非平稳性问题
Salesforce 推出 Moirai-MoE,新视角设计下一代时序基础模型
一文解读:时序基础模型的缩放定律
FoundTS:首个覆盖多场景的时序预测基础模型评测基准
正常时序转化为图像,进行高效且可解释的多元时序异常检测
Time-MMD:首个涵盖9大主要数据领域的多域多模态时间序列数据集
华东师大团队首创!时间序列异常预测开启全新时序任务
时序异常检测新进展!华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型
如何处理多频段时序特征?这个Transformer变体显著提升预测效果
PeFAD:边缘设备中高效的联邦异常检测框架
KDD 2024 | 数据驱动的分布偏移检测与自适应
NeurIPS 2024 | 分段时序多分类任务下的一致性学习框架

觉得不错,那就点个在看和赞吧

时序人
专注于时间序列领域下的科研、工业干货分享,紧跟AI+等领域的科技前沿
 最新文章