NeurIPS 2024 | 基于自适应多尺度超图Transfromer的时间序列预测方法

科技   2024-11-23 08:30   浙江  

点击名片

关注并星标

#TSer#

扫下方二维码,加入时序人学术星球
参与算法讨论,获取前沿资料
280+篇专栏笔记,已有280+同学加入学习)

在现实世界中,观测到的时间序列通常表现出复杂多样的多尺度时间模式。尽管基于 Transformer 的方法在多尺度时间模式交互建模中取得了显著成功,但是两个关键问题限制了其在时间序列预测中的进一步发展:(1)单个的时间点包含的语义信息较少,利用 attention 建模 pair-wise 交互会造成信息利用瓶颈。(2)时间模式中存在多种固有的时序变化(如上升,下降或波动),这些时序变化相互纠缠,为建模多尺度时间模式交互带来了较大的挑战。


针对上述问题,本文介绍一篇来自浙大研究团队的最新相关研究工作,该工作目前已被 NeurIPS 2024 接收。作者提出了一种基于自适应多尺度超图 Transformer 的框架(Ada-MSHyper),用于时间序列预测。具体而言,作者通过设计自适应超图学习模块,为建模 group-wise 交互提供基础。然后通过设计多尺度交互模块,赋予 Transformer 建模不同尺度时间模式间 group-wise 交互的能力。此外作者还引入了节点和超边约束机制,用于聚集具有相似语义信息的节点,并区分每个尺度内的时序变化。在11个真实世界数据集上的结果显示,Ada-MSHyper 达到了最先进(SOTA)的性能。



【论文标题】

Ada-MSHyper: Adaptive Multi-Scale Hypergraph Transformer for Time Series Forecasting


【论文地址】

https://arxiv.org/pdf/2410.23992


论文背景


时间序列预测在众多领域中展现了其广泛的应用价值,例如能源消耗规划、交通与经济预测,以及疾病传播预测等。在这些实际应用中,观测到的时间序列通常表现出复杂多样的多尺度时间模式。例如,由于周期性的人类活动,交通流量和电力消耗会呈现出显著的天模式(如早高峰或晚高峰)、周模式(如工作日或周末)以及月模式(如夏季或冬季)。


得益于建模 pair-wise 交互以及提取序列多尺度表示的能力,Transformer 被广泛应用到时间序列预测中。虽然基于 Transformer 的方法在多尺度时间模式交互建模中取得了显著成功,但是两个关键问题限制了 Transformer 在时间序列预测中的进一步发展:


  1. 语义信息稀疏性:不同于自然语言处理和计算机视觉,时间序列中单个的时间点包含较少的语义信息。为了解决语义信息稀疏性的问题,之前的方法通过划分 Patch 或者预定义超图结构的方法增强局部信息并建模 group-wise 交互,但是简单划分 Patch 或者预定义的超图结构容易引入噪声干扰,且难以捕获隐式交互。

  2. 时间变化纠缠:由于真实世界时间序列的复杂性和非平稳性,观察到的时间序列模式通常包含大量固有的变化(如上升,下降或波动),这些变化可能相互混合和重叠。特别是在不同尺度上存在不同的时间模式时,多种时序变化深度纠缠,为时间序列预测带来了极大的挑战。


模型方法


为了解决上述问题,作者提出了一种基于自适应多尺度超图 Transformer 的框架(Ada-MSHyper),Ada-MSHyper 的核心在于建模不同尺度时间模式间 group-wise 交互。Ada-MSHyper 首先将输入序列映射为多尺度特征表示,然后通过将多尺度特征表示视为节点,引入了一种自适应多尺度结构,以发掘不同尺度下节点间丰富而隐含的 group-wise 交互。Ada-MSHyper 主要由四个主要部分组成:多尺度特征提取模块、自适应超图学习模块、多尺度交互模块和多尺度融合模块。


图1:Ada-MSHyper的整体框架图


01

多尺度特征提取模块(MFE) 


多尺度特征提取(Multi-Scale Feature Extraction,MFE)模块用来将原始输入序列映射为多尺度特征表示,这种多尺度结构可以使模型在不同尺的上观察时间序列表示。具体来说,小尺度可以反映局部变化模式(如天模式),而大尺度可以反应全局变化模式(如周模式和月模式)。


MFE 模块由多个映射函数组成,每个映射函数将前一个尺度的子序列作为输入,并生成更大尺度的子序列作为输出,映射函数可以由1D卷积或 average pooling 实现。


02

自适应超图学习模块(AHL) 


自适应超图学习(Adaptive Hypergraph Learning, AHL)模块通过学习点边关联矩阵来捕获每个尺度下节点间group-wise的交互。但是,作者认为纯数据驱动的学习方式存在两大局限:(1)难以有效聚集具有相似语义信息的节点(2)难以有效区分每个尺度内的时序变化。为了解决上述问题,作者在自适应超图学习的过程中引入了节点和超边约束(Node and Hyperedge Constraint,NHC)机制,其具体结构如下:


图2:节点和超边约束机制示意图


如图2(a)所示,在每个尺度内,NHC机制首先根据点边关联矩阵,通过聚合超边所连接的节点特征得到超边特征表示。


如图2(b)所示,节点约束损失通过计算超边特征表示和节点特征表示之间的差异得到。


如图2(c)所示,超边约束损失通过计算超边特征表示间的欧式距离和余弦相似性得到。通过最小化超边约束损失和节点约束损失,NHC机制可以聚集具有相似语义信息的节点并区分每个尺度内的时序变化。


03

多尺度交互模块 


在得到超图结构以后,为了建模不同尺度上的时间模式交互,一种直观的方法是混合不同尺度的节点特征表示。然而,作者认为,尺度内交互和尺度间交互反应了时间模式交互的不同方面,其中尺度内交互主要描述具有相似语义信息的节点间细粒度的交互,而尺度间交互则更强调宏观变化交互。

因此,作者提出了多尺度交互模块,分别处理尺度内交互和尺度间交互。具体而言,尺度内交互模块通过超图卷积 attention 计算每个尺度内具有相似语义信息的节点特征间 group-wise 交互,尺度间交互模块通过 attention 计算不同尺度间超边特征间的交互。


04

多尺度融合模块 


在通过多尺度交互模块得到更新后的节点特征和超边特征后,多尺度融合模块通过拼接操作将这些特征拼接起来,并送入线性层得到最终输出。



实验分析


01

实验效果 


Ada-MSHyper 在11个真实时间序列数据集上和15个基线方法进行了比较。实验结果显示,Ada-MSHyper 在多个预测任务上都取得了 SOTA 性能,对于长时,短时和超长时时间序列预测,Ada-MSHyper 的均方误差(MSE)相比于最优基线分别降低了 4.56%,10.38% 和 4.97%。


表1:长时时间序列预测结果


表2:短时时间序列预测结果


表3:超长时时间序列预测结果


02

消融实验 


作者在 ETTh1 数据集上的消融实验结果如表4所示。结果显示,去掉 AHL 模块或者 NHC 机制会显著降低模型性能,实验结果验证了 AHL 模块和 NHC 机制的有效性。

表4:消融实验结果


03

可视化分析 


作者在 Electricity 数据集上的可视化结果如图3所示。为了进一步验证 NHC 机制的有效性,作者根据节点值的大小将节点分为四组,相同颜色的节点表示其具有相似的语义信息。如图3(a)所示,对于目标节点来说,其他颜色的节点被视为噪声。如图3(b)所示,由于缺乏节点约束,-w/o NHC 只能捕获目标节点及其邻居节点间的交互,无法区分细微的噪声干扰。而在图3(c)中,通过引入节点约束,-w/o HC 不仅可以聚集邻居节点还能聚集距离较远但具有较强相关性的节点。最后在图3(d)中,通过 NHC 机制,Ada-MSHyper 不仅可以聚集具有相似语义信息的节点,还能区分时序变化。

图3:可视化结果示意图



总结


本文提出了 Ada-MSHyper,一种基于自适应多尺度超图的时间序列预测方法。通过引入 AHL 模块和多尺度交互模块,Ada-MSHyper 能够建模更全面的 group-wise 交互,从而解决语义信息稀疏性的问题。实验结果显示,Ada-MSHyper 实现了 SOTA 的性能,在长时、短时和超长时时间序列预测中,Ada-MSHyper 的均方误差(MSE)相比于最优基线分别降低了 4.56%,10.38% 和 4.97%。此外,可视化分析和消融实验进一步验证了 NHC 机制在聚类具有相似语义信息节点以及解决时间变化纠缠问题上的有效性。


扫下方二维码,加入时序人学术星球

星球专注于时间序列领域的知识整理,前沿追踪

提供论文合集、视频课程、问答服务等资源

280+篇专栏笔记,已有280+小伙伴加入

价格随着内容丰富而上涨,早入早享优惠哦~

时间序列学术前沿系列持续更新中 ⛳️

后台回复"讨论",加入讨论组一起交流学习 🏃

往期推荐阅读


无惧漂移!D3R方法可用于不稳定多元时间序列异常检测,SOTA提升11%

综述 | 时空图神经网络模型在时间序列预测和分类中的应用
填补空白!Salesforce 提出首个通用时序预测模型评测基准 GIFT-Eval
清华与深大提出TimeBridge,有效处理长期时间序列预测中的非平稳性问题
Salesforce 推出 Moirai-MoE,新视角设计下一代时序基础模型
一文解读:时序基础模型的缩放定律
FoundTS:首个覆盖多场景的时序预测基础模型评测基准
正常时序转化为图像,进行高效且可解释的多元时序异常检测
Time-MMD:首个涵盖9大主要数据领域的多域多模态时间序列数据集
华东师大团队首创!时间序列异常预测开启全新时序任务
时序异常检测新进展!华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型
如何处理多频段时序特征?这个Transformer变体显著提升预测效果
PeFAD:边缘设备中高效的联邦异常检测框架
KDD 2024 | 数据驱动的分布偏移检测与自适应
NeurIPS 2024 | 分段时序多分类任务下的一致性学习框架


觉得不错,那就点个在看和赞吧

时序人
专注于时间序列领域下的科研、工业干货分享,紧跟AI+等领域的科技前沿
 最新文章