点关注,不迷路,用心整理每一篇算法干货~
今天给大家介绍一篇南开大学计算机院发表的多元时间序列预测文章,提出了一种新的多元时间序列预测模型结构,采用卷积网络和注意力机制相结合的方式,同时提取长周期信息、短周期信息、变量间关系信息。
论文标题:EffiCANet: Efficient Time Series Forecasting with Convolutional Attention
下载地址:https://arxiv.org/pdf/2411.04669v1
在多元时间序列预测中,长周期关系、短周期关系、变量间关系都很重要。然而,现有的模型缺少同时高效率提取三种类型信息的能力。例如长周期关系,Transformer模型的计算效率会比较低,而TCN等卷积网络由于卷积核尺寸的关系只能提取局部信息。针对变量间关系,现有的方法大多都将时序关系和变量间关系的建模割裂开,没有考虑到时序关系和变量间关系的联动,例如不同时间步各个变量之间的影响。
为了解决上述问题,本文提出了一种基于卷积+注意力机制的多元时序预测网络结构,在多元时序预测任务上取得了一定的效果提升。
本文提出的模型结构包含4个核心模块:序列Embedding生成,Temporal Large-kernel Decomposed Convolution(TLDC)使用层次卷积同时进行短期和长期的序列建模;Inter-Variable Group Convolution(IVGC)使用卷积网络在时间—变量维度上进行建模提取变量间关系;Global Temporal-Variable Attention(GTVA)利用注意力机制进行全局的时序和变量间关系建模。
序列Embedding生成:对于每个变量的原始时间序列,使用卷积进行处理,划分成多个重叠的patch,并通过卷积核的channel,将每个变量的序列映射成多维向量。通过上述过程,将原始的[M, T]时间序列变成了[M, D, N]的Embedding。其中M代表变量数,D代表卷积的channel数,N代表划分出的patch数量。
Temporal Large-kernel Decomposed Convolution:TLDC模块主要基于卷积网络,对每个变量的每个channel进行短期和长期的特征提取。对于每个变量的每个channel的patch序列,使用一个较小的卷积核(DW Conv)进行滑动提取局部表征,并在此基础上使用一个带空洞卷积的大卷积核(DW-D Conv)进一步提取长期表征。最后将两部分表征加和,得到长期短期信息的融合表征。通过这种两层卷积方式,可以实现在计算量较小的情况下,提升模型的感受野,实现长期信息建模。
Inter-Variable Group Convolution:IVGC模块主要进行变量间的关系建模。为了在建模变量间关系时,同时考虑到时序关系,进而学习到变量之间在不同时间步之间可能存在的关系,文中仍然采用了卷积网络的方式。文中首先用两种padding方式,对原来的张量表征进行填充。然后分别使用二维卷积进行变量间+时间维度的信息融合,生成考虑时间关系的变量间关系表征。
Global Temporal-Variable Attention:GTVA模块利用注意力机制进行时序和变量间关系提取。GTVA分别在时间维度和空间维度进行average pooling,获取融合表征。以时间维度为例,将原来[M, N, D]的张量第一个维度进行pooling,得到[N, D]的表征,相当于将同一个时刻所有变量的表征融合到了一个表征。接下来使用一个两层的MLP,结合Sigmoid激活函数,将每个元素映射成一个0-1之间的mask。这个mask表示了一种信息强度,可以用来进行原始输入的mask。变量维度也同样生成类似的mask。最后,使用两个mask对原始的输入进行element-wise的对应相乘,实现对原始序列数据的信息过滤变换。
文中在多个数据集、不同预测窗口的建模问题上进行了实验对比,本文提出的建模方法相比其他SOTA模型均取得了比较显著的效果提升。
此外,文中对于模型参数的敏感度、不同时间窗口的变量间关系打分、预测case也都进行了可视化分析。
投稿&加交流群请加微信,备注机构+方向拉群~