NeurIPS 2024 | 基于自适应多尺度超图Transfromer的时间序列预测方法

文摘   2024-12-12 11:05   新加坡  

在现实世界中,观测到的时间序列通常表现出复杂多样的多尺度时间模式。尽管基于 Transformer 的方法在多尺度时间模式交互建模中取得了显著成功,但是两个关键问题限制了其在时间序列预测中的进一步发展:(1)单个的时间点包含的语义信息较少,利用 attention 建模 pair-wise 交互会造成信息利用瓶颈。(2)时间模式中存在多种固有的时序变化(如上升,下降或波动),这些时序变化相互纠缠,为建模多尺度时间模式交互带来了较大的挑战。

针对上述问题,本文介绍一篇来自浙大研究团队的最新相关研究工作,该工作目前已被 NeurIPS 2024 接收。作者提出了一种基于自适应多尺度超图 Transformer 的框架(Ada-MSHyper),用于时间序列预测。具体而言,作者通过设计自适应超图学习模块,为建模 group-wise 交互提供基础。然后通过设计多尺度交互模块,赋予 Transformer 建模不同尺度时间模式间 group-wise 交互的能力。此外作者还引入了节点和超边约束机制,用于聚集具有相似语义信息的节点,并区分每个尺度内的时序变化。在11个真实世界数据集上的结果显示,Ada-MSHyper 达到了最先进(SOTA)的性能。

【论文标题】

Ada-MSHyper: Adaptive Multi-Scale Hypergraph Transformer for Time Series Forecasting

【论文地址】

https://arxiv.org/pdf/2410.23992


论文背景

时间序列预测在众多领域中展现了其广泛的应用价值,例如能源消耗规划、交通与经济预测,以及疾病传播预测等。在这些实际应用中,观测到的时间序列通常表现出复杂多样的多尺度时间模式。例如,由于周期性的人类活动,交通流量和电力消耗会呈现出显著的天模式(如早高峰或晚高峰)、周模式(如工作日或周末)以及月模式(如夏季或冬季)。

得益于建模 pair-wise 交互以及提取序列多尺度表示的能力,Transformer 被广泛应用到时间序列预测中。虽然基于 Transformer 的方法在多尺度时间模式交互建模中取得了显著成功,但是两个关键问题限制了 Transformer 在时间序列预测中的进一步发展:

  1. 语义信息稀疏性:不同于自然语言处理和计算机视觉,时间序列中单个的时间点包含较少的语义信息。为了解决语义信息稀疏性的问题,之前的方法通过划分 Patch 或者预定义超图结构的方法增强局部信息并建模 group-wise 交互,但是简单划分 Patch 或者预定义的超图结构容易引入噪声干扰,且难以捕获隐式交互。
  2. 时间变化纠缠:由于真实世界时间序列的复杂性和非平稳性,观察到的时间序列模式通常包含大量固有的变化(如上升,下降或波动),这些变化可能相互混合和重叠。特别是在不同尺度上存在不同的时间模式时,多种时序变化深度纠缠,为时间序列预测带来了极大的挑战。

模型方法

为了解决上述问题,作者提出了一种基于自适应多尺度超图 Transformer 的框架(Ada-MSHyper),Ada-MSHyper 的核心在于建模不同尺度时间模式间 group-wise 交互。Ada-MSHyper 首先将输入序列映射为多尺度特征表示,然后通过将多尺度特征表示视为节点,引入了一种自适应多尺度结构,以发掘不同尺度下节点间丰富而隐含的 group-wise 交互。Ada-MSHyper 主要由四个主要部分组成:多尺度特征提取模块、自适应超图学习模块、多尺度交互模块和多尺度融合模块。

图1:Ada-MSHyper的整体框架图

01 多尺度特征提取模块(MFE) 

多尺度特征提取(Multi-Scale Feature Extraction,MFE)模块用来将原始输入序列映射为多尺度特征表示,这种多尺度结构可以使模型在不同尺的上观察时间序列表示。具体来说,小尺度可以反映局部变化模式(如天模式),而大尺度可以反应全局变化模式(如周模式和月模式)。

MFE 模块由多个映射函数组成,每个映射函数将前一个尺度的子序列作为输入,并生成更大尺度的子序列作为输出,映射函数可以由1D卷积或 average pooling 实现。

02 自适应超图学习模块(AHL) 

自适应超图学习(Adaptive Hypergraph Learning, AHL)模块通过学习点边关联矩阵来捕获每个尺度下节点间group-wise的交互。但是,作者认为纯数据驱动的学习方式存在两大局限:(1)难以有效聚集具有相似语义信息的节点(2)难以有效区分每个尺度内的时序变化。为了解决上述问题,作者在自适应超图学习的过程中引入了节点和超边约束(Node and Hyperedge Constraint,NHC)机制,其具体结构如下:

图2:节点和超边约束机制示意图

如图2(a)所示,在每个尺度内,NHC机制首先根据点边关联矩阵,通过聚合超边所连接的节点特征得到超边特征表示。

如图2(b)所示,节点约束损失通过计算超边特征表示和节点特征表示之间的差异得到。

如图2(c)所示,超边约束损失通过计算超边特征表示间的欧式距离和余弦相似性得到。通过最小化超边约束损失和节点约束损失,NHC机制可以聚集具有相似语义信息的节点并区分每个尺度内的时序变化。

03 多尺度交互模块 

在得到超图结构以后,为了建模不同尺度上的时间模式交互,一种直观的方法是混合不同尺度的节点特征表示。然而,作者认为,尺度内交互和尺度间交互反应了时间模式交互的不同方面,其中尺度内交互主要描述具有相似语义信息的节点间细粒度的交互,而尺度间交互则更强调宏观变化交互。

因此,作者提出了多尺度交互模块,分别处理尺度内交互和尺度间交互。具体而言,尺度内交互模块通过超图卷积 attention 计算每个尺度内具有相似语义信息的节点特征间 group-wise 交互,尺度间交互模块通过 attention 计算不同尺度间超边特征间的交互。

04 多尺度融合模块 

在通过多尺度交互模块得到更新后的节点特征和超边特征后,多尺度融合模块通过拼接操作将这些特征拼接起来,并送入线性层得到最终输出。

实验分析

01 实验效果 

Ada-MSHyper 在11个真实时间序列数据集上和15个基线方法进行了比较。实验结果显示,Ada-MSHyper 在多个预测任务上都取得了 SOTA 性能,对于长时,短时和超长时时间序列预测,Ada-MSHyper 的均方误差(MSE)相比于最优基线分别降低了 4.56%,10.38% 和 4.97%。

表1:长时时间序列预测结果

表2:短时时间序列预测结果

表3:超长时时间序列预测结果

02 消融实验 

作者在 ETTh1 数据集上的消融实验结果如表4所示。结果显示,去掉 AHL 模块或者 NHC 机制会显著降低模型性能,实验结果验证了 AHL 模块和 NHC 机制的有效性。

表4:消融实验结果

03 可视化分析 

作者在 Electricity 数据集上的可视化结果如图3所示。为了进一步验证 NHC 机制的有效性,作者根据节点值的大小将节点分为四组,相同颜色的节点表示其具有相似的语义信息。如图3(a)所示,对于目标节点来说,其他颜色的节点被视为噪声。如图3(b)所示,由于缺乏节点约束,-w/o NHC 只能捕获目标节点及其邻居节点间的交互,无法区分细微的噪声干扰。而在图3(c)中,通过引入节点约束,-w/o HC 不仅可以聚集邻居节点还能聚集距离较远但具有较强相关性的节点。最后在图3(d)中,通过 NHC 机制,Ada-MSHyper 不仅可以聚集具有相似语义信息的节点,还能区分时序变化。

图3:可视化结果示意图

总结

本文提出了 Ada-MSHyper,一种基于自适应多尺度超图的时间序列预测方法。通过引入 AHL 模块和多尺度交互模块,Ada-MSHyper 能够建模更全面的 group-wise 交互,从而解决语义信息稀疏性的问题。实验结果显示,Ada-MSHyper 实现了 SOTA 的性能,在长时、短时和超长时时间序列预测中,Ada-MSHyper 的均方误差(MSE)相比于最优基线分别降低了 4.56%,10.38% 和 4.97%。此外,可视化分析和消融实验进一步验证了 NHC 机制在聚类具有相似语义信息节点以及解决时间变化纠缠问题上的有效性。

转自:数据派THU

深度图学习与大模型LLM
关注图机器学习,图表示学习,大模型LLM. 最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
 最新文章