标题:Pathformer: Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting
单位:East China Normal University, Alibaba Group, Aalborg University
1、研究背景:
现实场景中的时间序列在不同的时间尺度展现出不同的变化,如云计算场景中的CPU,GPU,内存等资源需求呈现出日、月、季节等独特尺度的时间模式。多尺度建模主要从不同的尺度中提取时序特征和依赖关系,建模多尺度需要考虑两个方面:时间分辨率和时间距离。时间分辨率指用于建模的每个时间片段的大小。如图1中,相同的时序别划分为小的片段(蓝色)或大的片段(橙色),提出细粒度和粗粒度的时序特征。时间距离对应于显示建模时间依赖性,决定用于时序建模时时间步之间的距离。如图1中,黑色箭头模拟了相邻时间步之间的关系,提取时序的局部细节,而彩色箭头模拟了跨长距离的时间步之间的关系,提取时序的全局关联。
1)提出多尺度划分,将时间序列划分为不同大小的patch,形成不同时间分辨率的视图;
2)进一步提出了自适应路径来激活多尺度建模能力并赋予其自适应建模特性;
3)具有时间分解的多尺度路由器与聚合器协同工作,根据输入数据的时间动态自适应地提取和聚合多尺度特征,实现时间序列的自适应多尺度建模。
3、研究方法:
基于Transformer模型的多尺度建模,主要有两个挑战。一、不完备的多尺度建模。只是针对时间分辨率不能有效地捕捉不同范围的时间依赖关系,相反,考虑时间距离虽然能提取不同范围的时间依赖,但全局和局部间隔受到数据划分的影响,单一的时间分辨率并不完备。二、固定的多尺度建模过程。对比图1中的两个时序,上面的时序展现快速的波动,可能需要更关注细粒度和短期特征。相反,下面的时序需要关注粗粒度和长期特征。因此对所有时序采用固定的多尺度建模阻碍了每个时序的重要特征捕捉,然而为每个数据集或每个时序手动调整最佳尺度非常耗时且难以处理。
针对以上挑战,文章提出了一个基于Pathways架构的自适应多尺度Transformer模型(Pathformer),如图2所示。整个预测网络由:实例正则化(Instance Norm)、自适应多尺度块(Adaptive Multi-Scale block, AMS Blocks)的堆叠,以及预测器(Predictor)组成,Predictor是一种全连接神经网络,核心是中间的自适应多尺度AMS block模块。它整合了时间分辨率和时间距离提出了一个多尺度Transfomer模块,使模型具备完备的多尺度建模能力。文章进一步提出自适应pathways,激活Transformer的多尺度间建模能力。它基于输入时序的时间动态自适应提取和聚合多尺度特征,实现了自适应多尺度建模。
图2 Pathformer的架构
(1)多尺度Transformer模块:
在多尺度Transformer块中,我们对输入的时序特征进行不同patch大小的时序划分,不同的patch大小代表不同时序的时间分辨率。基于每个尺度的Patch划分,使用双重注意力机制来建模不同范围的时间依赖性,如图3所示,通过patch内注意力(intra-patch attention)建模每个patch内部不同时间点之间的关联来捕捉时序的局部细节,通过patch间注意力(inter-patch attention) 建模不同patch之间的关系来捕获全局信息。
图3 多尺度Transformer模块
总体而言,多尺度分割提供了不同patch大小的时间序列的不同视图,而patch大小的变化进一步影响了双注意机制,双注意在patch分割的指导下从不同距离建模时间依赖性。这两个组件一起工作以支持Transformer中的多个时间建模尺度。
由于不同的时序偏好不同的尺度,这取决于它们不同的时间特征和动态性。为了实现自适应多尺度建模,文章提出了基于多尺度Transformer的自适应Pathways。如图2所示,它包含了两个关键部分:多尺度路由器和聚合器。多尺度路由器根据输入数据选择特定大小的patch进行划分(选择的patch大小在图2中用蓝色表示),这激活了Transformer中特定部分,并控制多尺度特征的提取。路由器和聚合器一起协同工作,通过加权聚合将这些特征组合起来得到Transformer块的输出。
1)多尺度路由器:通过傅里叶变换选择最佳的patch划分尺寸,从而控制了多尺度建模的过程。由于每个时间序列的最优尺度或临界尺度可能受到其复杂的固有特征和动态模式(如周期性和趋势)的影响,因此文章在路由器中引入了一个时间分解模块,该模块包含季节性(利用离散傅里叶变化和逆变换将时间序列从时域转换到频域,以提取周期模式)和趋势分解(采用移动平均线平均池化的不同核,在季节性分解后的剩余部分基础上提取趋势模式),如图4所示。选择top K个权重送至多尺度Transformer模块以执行多尺度建模。
2)多尺度聚合器:由于不同的patch大小产生的时间维度不同,聚合器首先执行一个变换函数来对齐不同尺度的时间维度。然后,聚合器根据路径权重对多尺度输出进行加权聚合,得到该AMS块的最终输出。
为了评估Pathformer的可转移性,文章对比三个基线模型设计两个不同的迁移实验,表2给出了文章迁移学习评估的结果。在直接预测和全调优方法中,Pathformer都超越了基线模型,突出了其增强的泛化和可转移性。文章还进行了消融实验说明了每个模块的独特影响,并进行参数敏感性研究,结果表明预测精度随K(自适应选择的patch大小的数量)的变化而变化。
本文提出了一种用于时间序列预测的多尺度Transformer与自适应路径(Pathformer)。它通过引入具有多尺寸的patch划分和对划分的patch进行双重注意力建模,将多尺度序列分辨率和距离整合在一起,从而实现了对多尺度特征的全面建模。此外,自适应路径根据不同的时间动态路由选择和聚合尺度特定特征。这些创新机制共同使Pathformer能够在多个预测任务中取得出色的预测性能,并展现出强大的泛化能力。