标题 | Revitalizing Multivariate Time Series Forecasting: Learnable Decomposition with Inter-Series Dependencies and Intra-Series Variations Modeling |
---|---|
作者 | Guoqi Yu , Jing Zou ,Xiaowei Hu , Angelica I. Aviles-Rivero , Jing Qin , Shujun Wang |
论文 | https://arxiv.org/abs/2402.12694 |
代码 | https://github.com/LeviAckman/Leddam |
摘要
预测多变量时间序列至关重要,它要求精确建模复杂模式,包括系列间的依赖性和系列内的变化。每个时间序列中的独特趋势特征都带来了挑战,现有的方法依赖于基本的移动平均核可能难以处理现实世界数据中的非线性结构和复杂趋势。鉴于此,我们引入了一种可学习的分解策略,以更合理地捕获动态趋势信息。此外,我们提出了一个双重注意力模块,专门用于同时捕获系列间的依赖性和系列内的变化,以更好地预测时间序列,该模块通过通道式自注意力和自回归自注意力实现。为了评估我们方法的有效性,我们在八个开源数据集上进行了实验,并与最先进的方法进行了比较。通过比较结果,我们的Leddam(可学习分解和双重注意力模块)不仅在预测性能上显示出显著的进步,而且所提出的分解策略可以插入到其他方法中,显著提高性能,从11.87%到48.56%的均方误差降低。
1.引言
在多样化的实际应用领域中不断上升的需求,产生了对精确的多变量时间序列预测方法的迫切需求,正如在能源管理、天气预报、疾病控制以及交通规划等领域所展示的那样。精确预测模型的基础在于有效识别和建模嵌入在多变量时间序列中的复杂模式。
两个主要的模式显现为序列间依赖和序列内变化。
前者描述了不同变量之间复杂的相互作用和相关性, 而后者包含了每个特定时间序列中持久和短暂的波动。
多变量时间序列数据中的固有不一致性增加了序列间依赖性和序列内动态变化模式建模的复杂性。
因此,一个稳健的预测方法应该能够应对以下两个挑战:
如何在趋势成分的干扰下精确地解析原始时间序列中的模式。
如何有效地建模序列间依赖性和序列内变化。
我们的Leddam旨在为时间序列预测挑战提供更健壮和全面的解决方案。主要贡献总结如下。
我们提出了结合以高斯分布初始化的可学习卷积核来增强时间序列分解。 我们设计了一个“双重注意力模块”,能够熟练地同时捕获序列间依赖性和序列内变化。 我们通过验证Leddam不仅在预测性能上显示出显著的进步,而且所提出的分解策略可以作为插件应用于其他方法,大幅提升性能,从11.87%到48.56%的均方误差降低。
2.相关工作
现有方法使用不可训练的移动平均核进行趋势-季节性分解,不可训练性会导致缺乏鲁棒性。滑动窗口内每个数据点的统一权重分配可能妨碍它们识别特定模式的能力。尤其是处理非线性结构、显著噪声水平或用复杂趋势的数据。因此需要一种可学习的分解方法来提高多变量时间序列预测的准确性。
尽管Transformer架构在处理序列内依赖性和多层次表示提取方面表现出色,但现有方法在处理序列间依赖性和序列内变化时存在缺陷,如iTransformer缺乏对序列内变化的显式学习,其他方法则可能因使用排列不变的注意力机制或将时间序列划分为块而导致信息丢失或最佳块长度难以确定,因此需要一种新的双注意力模型来同时有效地捕捉序列间依赖性和序列内变化。
最近的工作发现,虽然通道依赖性(CD)理想情况下受益于更高的容量,但由于样本稀缺,通道独立(CI)可以大大提升性能,因为大多数当前的预测基准数据集不够大。然而,忽视变量之间的相互依赖可能导致次优结果。
【作者认为CD的性能受样本稀缺的限制,而CI虽然在样本稀缺时可以提高性能,但是CI忽视变量之间的相互依赖还是可能导致次优结果。】
3.方法论
我们首先对时间序列进行嵌入并加入位置编码。然后,时间序列被分解为其趋势部分和季节性部分,每个部分都通过不同方法处理。最后,这两个组件的处理结果被聚合以获得最终的预测结果。Leddam的整体架构如图2所示。
3.1. 问题定义
给定一个多变量时间序列输入 ,时间序列预测任务的目的是预测其未来的 个时间步 ,其中 是变量或通道的数量, 代表回顾窗口的长度。我们的目标是使 尽可能接近 , 代表实际值。或真实情况。
3.2 可学习分解模块
我们采用一个更优越的可学习1D卷积分解核,而不是移动平均核,以全面封装时间序列中的微妙时间变化。
3.2.1 投影和位置嵌入
Leddam模型做投影和位置嵌入的思路与iTransformer模型完全一致,公式如下:
,其中权重 ,, 是层的维度。
3.2.2 可学习的一维卷积分解核
初始化卷积分解核
为了实现可学习的卷积分解,我们首先需要定义卷积分解核。具体来说,我们实验性地预定义步长为 S = 1 和卷积核大小为 K = 25。关于其权重,我们使用高斯分布进行初始化。我们假设其权重是 ,和一个超参数 。这里我们将 设置为 1。公式如下:
由于初始化符合高斯分布的概率密度函数,这种初始化方式导致卷积核的中心位置具有最大权重,而核的边缘位置权重相对较小。这对于卷积层在识别特定特征时对中心位置更加敏感通常是有益的。
终端填充序列并利用卷积核提取趋势成分
为了保持卷积前后序列长度的等价性,我们使用终端值进行填充,因此我们得到 ; 我们将其分割成 个独立的单变量时间序列 ,( )。
随后,对于每个 ,我们应用一个共享权重的可学习1D卷积核来提取其趋势成分,表示为 。然后,所有 的卷积输出被连接起来,形成结果矩阵 。整个过程可以总结为:
趋势部分处理
考虑到趋势部分的平滑性和可预测性,我们采用一个简单的多层感知器(MLP)进行投影,以推导趋势部分的输出,公式如下:
季节部分处理
考虑到季节性成分适合于建模序列间的依赖性和序列内的变化,我们将 在双注意力模块转换为两种不同的嵌入:整体序列嵌入和自回归嵌入。这有助于对这两种模式进行建模和学习过程。
3.3 Dual Attention Module(双注意力模块)
我们提出了一个双重注意力模块来同时模拟序列间的依赖性和序列内的变化。具体来说,我们设计了通道自注意力来模拟前者,以及自回归自注意力来模拟后者。
序列间依赖性建模
为了模拟序列间的依赖性,我们遵循iTransformer的方法,将 视为一个token。随后所有这些标记被送入一个普通的Transformer Encoder进行学习,以获得 :
这种方法在与使用片段(patches)或段落(segments)相比时,能够保留序列的大部分信息,更适合于模拟序列间的依赖性,因为所有的变量语义信息都被保存下来了。
序列内变化建模
对于序列内的变化,如图3所示,
我们首先将 分解为N个独立的单变量时间序列 ,其中 。 对于每一个 ,给定一个长度L,我们通过从序列的开头切割给定长度的数据,并将其与时间序列的末尾连接起来,生成 的标记。
然后我们仍然使用另一个普通的变压器编码器来模拟序列内的变化,该编码器的权重在所有通道中共享。但是考虑到我们对原始序列的时间信息的主要兴趣,我们将原始序列 仅指定为Q,同时使用整个序列 作为 和,所有通道的输出 被连接起来,形成 :
对于序列内变化建模这一块的思路,我认为和 Autoformer 的时延聚合的思路比较相似,这里先是根据种不同的切割方式得到种标记,这些标记可以看做我们人为对序列内制造出一些变化去让变压器编码器来学习。然后通过注意力机制中注意力分配的原理,我们可以实现让与 更相似的标记有更高的注意力得分,模型认为与与 相似更高的标记更有可能在现实中发生,更真实,值得分配更多的注意力。
季节性输出
季节性部分的最终输出结果通过以下方式获得:
4. 实验
4.1 实验设置
数据集
我们进行了广泛的实验,使用了八个现实世界的多变量时间序列预测数据集,包括电力、交通和天气数据,以及太阳能数据集。所有数据集遵循统一的标准协议进行划分,除了ETT数据集外,其他数据集均按照6:2:2的比例分为训练集、验证集和测试集。
评估协议
我们采用均方误差(MSE)和平均绝对误差(MAE)作为核心评估指标,所有模型的历史时间范围长度统一设置为96,预测长度F则有多个选项。Leddam的超参数设置详细记录在附录中。
基线设置
我们选择了八种近期认可的预测模型作为基线,包括基于Transformer的方法、基于线性的方法和基于TCN的方法。这些模型覆盖了多种不同的时间序列预测技术,为我们的比较提供了一个全面的基准。
4.2 实验结果
定量比较
毫无疑问,Leddam在除交通数据集外的所有数据集上都展现出了卓越的预测性能。
iTansformer, PatchTST, Leddam这三个模型在大多数数据集上仍然保持着对其他模型的领先地位。
值得注意的是,在这三个模型中:
PacthTST采用了一个通道独立的设计,专门处理系列内的变化而不考虑系列间的依赖性。 iTransformer使用通道自注意力来模拟系列间的依赖性,但未能充分捕捉系列内的变化。 与两者相比,提出的Leddam结合了‘全系列嵌入’和‘自回归嵌入’来模拟系列间的依赖性和系列内的变化。 这与我们的假设一致,即适当地模拟多变量时间序列中的序列间依赖性和序列内变化是实现更精确预测的关键。
双注意力模块的消融研究
与使用线性层相比,‘自回归自注意力’在五个数据集上平均降低了19.02%的MSE,而‘通道自注意力’实现了21.09%的改进。
此外,它们的协同整合进一步增强了模型性能,平均降低了25.03%的MSE,达到了最优水平。
这证明了两个设计元素的有效性,并再次验证了我们的假设,即适当地模拟多变量时间序列中的系列间依赖性和系列内变化可以带来更好的预测性能。
可学习分解模块优于移动平均核的优势研究
我们对使用高斯初始化的可学习分解模块进行了实验,与使用移动平均核的DLinear进行比较。实验中,我们将DLinear的核替换为我们的模块,分别测试了可训练(LD_TL)和不可训练(LD_UTL)两种情况。
如表4所示,与简单的移动平均核相比,可学习分解模块在所有四个数据集上一致展现出更优越的预测性能,无论其是否可训练。
不可训练版本的1D卷积核在五个数据集上平均降低了7.28%的MSE,而可训练版本则降低了11.98%; 所获得的结果明确地证明了可学习分解模块比简单的移动平均核具有更优越的效果; 并且核的可训练性在其适应性中起着重要作用。
时间序列分解结果分析
此处采用FFT计算了每种方法获得的季节性部分与原始序列的主导频率(前25%)之间的幅度相似性,采用动态时间弯曲(DTW)来计算原始序列与两种分解获得的趋势部分之间的相似性。
在表5中,LD的DTW和FFT一致优于MOV,在所有八个数据集上都是如此。这表明LD是一个比MOV更好的时间序列分解方法。
可学习分解模块泛化性分析
为了实现这一目标,我们在一系列代表性的时间序列预测模型结构中进行了实验,包括:
(1)基于Transformer的方法:Informer、Transformer;(2)基于线性的方法:LightTS;(3)基于TCN的方法:SCINet;(4)基于RNN的方法:LSTM。
显然整合Leddam结构显著提高了各种模型的预测性能。
具体来说,LightTS在五个数据集上平均MSE降低了11.87%,其他模型分别是LSTM:48.56%,SCINet:23.15%,Informer:31.72%,和Transformer:26.27%。
5. 总结
本文立足于多变量时间序列预测问题,基于对基础移动平均核处理现实世界数据中的非线性结构和复杂趋势的能力的质疑和对同时捕获通道自注意力和自回归自注意力的认可,提出用可学习的卷积核取代传统的移动平均核,利用其高斯初始化和自适应特性更好地捕捉数据的复杂趋势。同时,引入了融合通道和自回归自注意力的双重注意力模块,以精确捕捉数据的内部和外部依赖性。
从实验上看,本文提出的方法达到了最先进的性能,并展示了出色的框架通用性,这一点比较引人注目。