标题 | MICN: Multi-scale Local and Global Context Modeling for Long-term Series Forecasting |
---|---|
作者 | Huiqiang Wang; Jian Peng; Feihu Huang; Jince Wang; Junhui Chen; Yifei Xiao |
机构 | Sichuan University;University of Electronic Science and Technology of China |
邮箱 | wanghuiqiang@stu.scu.edu.cn; |
论文 | https://openreview.net/pdf?id=zt53IDUR1U |
1 摘要
最近,基于 Transformer 的方法在长期序列预测领域取得了令人惊讶的性能,但计算全局相关性的注意力机制需要很高的复杂性。而且它们不允许像 CNN 结构那样对局部特征进行有针对性的建模。为了解决上述问题,我们建议结合局部特征和全局相关性来捕获时间序列的整体视图(例如波动、趋势)。为了充分利用时间序列中的底层信息,采用多尺度分支结构来分别对不同的潜在模式进行建模。每个模式均通过下采样卷积和等距卷积分别提取局部特征和全局相关性。除了更有效之外,我们提出的方法,称为多尺度等距卷积网络(MICN),在具有合适的卷积核的序列长度的线性复杂度上更有效。我们对六个基准数据集的实验表明,与最先进的方法相比,MICN 对多变量和单变量时间序列分别产生了 17.2% 和 21.6% 的相对改进。
2 介绍
与时间序列预测相关的研究在现实世界中得到了广泛的应用,例如传感器网络监测、天气预报、经济和金融以及疾病传播分析和电力预测。特别是,现实中对长期时间序列预测的需求越来越大。因此,本文重点关注长期预测的任务。
作为经典的基于 CNN 的模型,TCN使用因果卷积来建模时间因果关系,并使用扩张卷积来扩展感受野。它可以更好地整合序列的局部信息,并在中短期预测中取得有竞争力的结果。然而,受感受野大小的限制,TCN往往需要很多层来对时间序列的全局关系进行建模,这大大增加了网络的复杂性和模型的训练难度。
基于注意力机制的 Transformers 在序列数据上显示出强大的威力,例如自然语言处理 、音频处理 甚至计算机视觉。它最近也被应用于长期序列预测任务,并且可以有效地对序列的长期依赖性进行建模,从而在准确性和长度上实现跨越式发展时间序列预测。学习到的注意力矩阵代表了序列不同时间点之间的相关性,可以相对较好地解释模型如何根据过去的信息做出未来的预测。然而,它具有二次复杂度,并且许多计算token对之间的信息不是必需的,因此降低其计算复杂度也是一个有趣的研究方向。
然而,时间序列作为一种特殊的序列,迄今为止还没有形成统一的建模方向。在本文中,我们将 CNN 的建模视角与 Transformer 的建模视角相结合,根据序列本身的真实特征(即局部特征和全局相关性)构建模型。局部特征表示序列在小周期 内的特征,全局相关性是多个周期 之间表现出的相关性。例如,某一时刻的温度不仅受一天中特定变化的影响,还可能与一段时期(例如周、月等)的总体趋势相关。通过了解某个时间点的整体特征以及之前多个时间点之间的相关性,我们可以更准确地识别该时间点的价值。因此,一个好的预测方法应该具备以下两个特性:(1)能够提取局部特征来衡量短期变化。(2) 能够对全球相关性进行建模以衡量长期趋势。
基于此,我们提出了多尺度等距卷积网络(MICN)。我们使用不同卷积核的多个分支分别对序列的不同潜在模式信息进行建模。对于每个分支,我们使用基于下采样卷积的局部模块提取序列的局部特征,在此之上,我们使用基于等距卷积的全局模块对全局相关性进行建模。最后,采用合并操作来融合来自多个分支的不同模式的信息。这种设计将时间和空间复杂度降低到线性,消除了许多不必要和冗余的计算。MICN 在五个现实世界基准上实现了最先进的准确性。贡献总结如下:
提出的MICN能有效替代self attention,实现线性计算复杂度和空间消耗。 验证了在输入数据复杂多变的情况下对单一时间模式单独建模的必要性和有效性。 提出了一种局部-全局结构来实现时间序列的信息聚合和长期依赖建模,其性能优于自注意族和自相关机制。 与SOTA模型相比,在多变量预测任务,模型提高了17.2%的性能;在单变量预测任务,模型提高了21.6%的性能。
3 模型
3.1 MICN框架
MICN的整体结构如图1所示。长时间序列预测任务是根据过去长度为I的序列来预测未来长度为的序列,可以表示为,其中 比 大得多。受到传统时间序列分解算法 的启发,我们设计了一个多尺度混合分解 (MHDecomp) 块来分离输入序列的复杂模式。然后我们使用季节预测块来预测季节信息,使用趋势周期预测块来预测趋势周期信息。然后将预测结果相加得到最终的预测 。我们将 作为多元时间序列中的变量数量,将 作为该序列的隐藏状态。详细信息将在以下部分中给出。
3.2 MULTI-SCALE HYBRID DECOMPOSITION
我们设计了一个多尺度混合分解块,它使用 的多个不同内核,并且可以有目的地分离趋势循环和季节性部分的几种不同模式。与 FEDformer 的 MOEDecomp 模块不同,我们使用简单的均值运算来整合这些不同的模式,因为我们无法在学习每个模式的特征之前确定其权重。相应地,我们将此加权操作放在季节性预测块的合并部分中,位于特征表示之后。
3.3 TREND-CYCLICAL PREDICTION BLOCK
目前,Autoformer将原始序列的平均值连接起来,然后将其与从内部序列分解块获得的趋势循环部分相加。但对此没有任何解释,也没有证据证明其有效性。在本文中,我们使用简单的线性回归策略对趋势周期进行预测,证明趋势周期的简单建模对于非平稳序列预测任务也是必要的。具体来说,对于使用 MHDecomp 块获得的趋势循环序列 ,过程为:
其中 表示使用线性回归对趋势部分的预测策略。
3.4 SEASONAL PREDICTION BLOCK
如图 2 所示,季节性预测模块专注于更复杂的季节性部分建模。嵌入输入序列 Xs 后,我们采用多尺度等距卷积来捕获局部特征和全局相关性,不同尺度的分支对时间序列的不同底层模式进行建模。然后我们将不同分支的结果进行合并,完成序列的综合信息利用。可以概括如下:
其中 表示用零填充的占位符, 表示 Xs 的嵌入表示。 表示第 l − 个多尺度等距的输出卷积(MIC)层, 表示经过 线性函数投影和截断操作后季节部分的最终预测。下面对Embedding和MIC进行详细描述。
Embedding:
最新的基于 Transformer 的模型的解码器,例如 Informer 、Autoformer 和 FEDformer 包含编码器输入的后半部分,其中 长度 和长度的占位符由标量填充,这可能会导致冗余计算。为了避免这个问题并适应预测长度 ,我们用更简单的互补 0 策略替换传统的编码器-解码器样式输入。同时,我们遵循FEDformer的设置,采用三部分来嵌入输入。过程为:
表示时间特征编码(例如,MinuteOfHour、HourOfDay、DayOfWeek、DayOfMonth 和 MonthOfYear), 表示位置编码, 表示值嵌入。
Multi-scale isometric Convolution(MIC) Layer:
MIC层包含多个分支,每个分支使用不同尺度来建模潜在的不同时间模式。每个分支都包含了Local-Global模块,如下图所示:
首先,我们先进行局部特征提取:
这里的平均池化作用是获得对应的单个模式。,在Conv1D中,,目的是把序列下采样到原来的下采样卷积后的序列代表压缩的局部特征。
接下来利用局部特征来建模全局相关性:
IsometricConv实际上就是个的一维卷积。论文认为一维卷积的参数是由全部数据训练得到,能够引入全局时间归纳偏差(平移方差等),相对于传统的点积自注意力有更好的泛化效果(相关性又不同元素点积而得)。论文做了利用masked-self attention来替换IsometricConv的消融实验,实验结果表明在短序列情况下(序列长度为96 192 336 720),IsometricConv优于masked-self attention。
当建模完全局相关性后,使用转置卷积来对序列进行上采样:
最后,我们对不同分支的进行merge和前向后,得到该MIC layer的输出:
4 实验
对于多元长期序列预测,MICN 在所有基准和所有预测长度设置中都实现了最先进的性能(表 1)。与之前的最佳模型 FEDformer 相比,MICN 的平均 MSE 降低了 17.2%。特别是,在 设置下,MICN 使 ETTm2 相对 MSE 减少 12%,电力相对 MSE 减少 14%,交易所相对 MSE 减少 31%,流量相对 MSE 减少 12%,相对 MSE 减少 26% 天气中的 MSE 降低,ILI 中的 MSE 相对降低 17%,在此设置中平均 MSE 降低 18.6%。我们还可以发现,随着预测的增加,MICN 不断改进,显示出其在长期时间序列预测方面的竞争力。请注意,MICN 仍然提供了显着的改进,在没有明显周期性的 Exchange 数据集中平均 MSE 降低了 51%。综上所述,MICN能够很好地应对现实应用中的各种时间序列预测任务。附录 A.3 中提供了有关其他 ETT 基准的更多结果。
我们还在表 2 中显示了单变量时间序列预测结果。值得注意的是,与 FEDformer 相比,MICN 的平均 MSE 降低了 21.6%。特别是对于天气数据集,MICN 在预测 96 设置下给出了 53% 的相对 MSE 降低,在预测 192 设置下相对 MSE 降低了 75%,在预测 336 设置下相对 MSE 降低了 44%,在预测 336 设置下相对 MSE 降低了 56% 在预测 720 设置下。再次验证了更强的时间序列预测能力。
5 总结
本文提出了一种基于卷积的MICN框架,分别对趋势循环部分和季节性部分进行预测。它实现了 复杂性,并在广泛的现实数据集中产生一致的最先进性能。在季节预测块中,我们使用不同的尺度来挖掘序列中潜在的不同模式,每个模式都是从局部和全局角度建模的,这是通过不同的卷积运算实现的。所提出的等距卷积在捕获短序列的全局相关性方面优于自注意力。大量的实验进一步证明了我们的建模方法对于长期预测任务的有效性。