点击名片
关注并星标
#TSer#
在现实世界中,观测到的时间序列通常表现出复杂多样的多尺度时间模式。尽管基于 Transformer 的方法在多尺度时间模式交互建模中取得了显著成功,但是两个关键问题限制了其在时间序列预测中的进一步发展:(1)单个的时间点包含的语义信息较少,利用 attention 建模 pair-wise 交互会造成信息利用瓶颈。(2)时间模式中存在多种固有的时序变化(如上升,下降或波动),这些时序变化相互纠缠,为建模多尺度时间模式交互带来了较大的挑战。
针对上述问题,本文介绍一篇来自浙大研究团队的最新相关研究工作,该工作目前已被 NeurIPS 2024 接收。作者提出了一种基于自适应多尺度超图 Transformer 的框架(Ada-MSHyper),用于时间序列预测。具体而言,作者通过设计自适应超图学习模块,为建模 group-wise 交互提供基础。然后通过设计多尺度交互模块,赋予 Transformer 建模不同尺度时间模式间 group-wise 交互的能力。此外作者还引入了节点和超边约束机制,用于聚集具有相似语义信息的节点,并区分每个尺度内的时序变化。在11个真实世界数据集上的结果显示,Ada-MSHyper 达到了最先进(SOTA)的性能。
【论文标题】
Ada-MSHyper: Adaptive Multi-Scale Hypergraph Transformer for Time Series Forecasting
【论文地址】
https://arxiv.org/pdf/2410.23992
论文背景
时间序列预测在众多领域中展现了其广泛的应用价值,例如能源消耗规划、交通与经济预测,以及疾病传播预测等。在这些实际应用中,观测到的时间序列通常表现出复杂多样的多尺度时间模式。例如,由于周期性的人类活动,交通流量和电力消耗会呈现出显著的天模式(如早高峰或晚高峰)、周模式(如工作日或周末)以及月模式(如夏季或冬季)。
得益于建模 pair-wise 交互以及提取序列多尺度表示的能力,Transformer 被广泛应用到时间序列预测中。虽然基于 Transformer 的方法在多尺度时间模式交互建模中取得了显著成功,但是两个关键问题限制了 Transformer 在时间序列预测中的进一步发展:
语义信息稀疏性:不同于自然语言处理和计算机视觉,时间序列中单个的时间点包含较少的语义信息。为了解决语义信息稀疏性的问题,之前的方法通过划分 Patch 或者预定义超图结构的方法增强局部信息并建模 group-wise 交互,但是简单划分 Patch 或者预定义的超图结构容易引入噪声干扰,且难以捕获隐式交互。 时间变化纠缠:由于真实世界时间序列的复杂性和非平稳性,观察到的时间序列模式通常包含大量固有的变化(如上升,下降或波动),这些变化可能相互混合和重叠。特别是在不同尺度上存在不同的时间模式时,多种时序变化深度纠缠,为时间序列预测带来了极大的挑战。
模型方法
图1:Ada-MSHyper的整体框架图
01
多尺度特征提取模块(MFE)
多尺度特征提取(Multi-Scale Feature Extraction,MFE)模块用来将原始输入序列映射为多尺度特征表示,这种多尺度结构可以使模型在不同尺的上观察时间序列表示。具体来说,小尺度可以反映局部变化模式(如天模式),而大尺度可以反应全局变化模式(如周模式和月模式)。
MFE 模块由多个映射函数组成,每个映射函数将前一个尺度的子序列作为输入,并生成更大尺度的子序列作为输出,映射函数可以由1D卷积或 average pooling 实现。
02
自适应超图学习模块(AHL)
图2:节点和超边约束机制示意图
如图2(a)所示,在每个尺度内,NHC机制首先根据点边关联矩阵,通过聚合超边所连接的节点特征得到超边特征表示。
如图2(b)所示,节点约束损失通过计算超边特征表示和节点特征表示之间的差异得到。
如图2(c)所示,超边约束损失通过计算超边特征表示间的欧式距离和余弦相似性得到。通过最小化超边约束损失和节点约束损失,NHC机制可以聚集具有相似语义信息的节点并区分每个尺度内的时序变化。
03
多尺度交互模块
04
多尺度融合模块
在通过多尺度交互模块得到更新后的节点特征和超边特征后,多尺度融合模块通过拼接操作将这些特征拼接起来,并送入线性层得到最终输出。
实验分析
01
实验效果
表1:长时时间序列预测结果
表2:短时时间序列预测结果
表3:超长时时间序列预测结果
02
消融实验
03
可视化分析
图3:可视化结果示意图
总结
本文提出了 Ada-MSHyper,一种基于自适应多尺度超图的时间序列预测方法。通过引入 AHL 模块和多尺度交互模块,Ada-MSHyper 能够建模更全面的 group-wise 交互,从而解决语义信息稀疏性的问题。实验结果显示,Ada-MSHyper 实现了 SOTA 的性能,在长时、短时和超长时时间序列预测中,Ada-MSHyper 的均方误差(MSE)相比于最优基线分别降低了 4.56%,10.38% 和 4.97%。此外,可视化分析和消融实验进一步验证了 NHC 机制在聚类具有相似语义信息节点以及解决时间变化纠缠问题上的有效性。
扫下方二维码,加入时序人学术星球
星球专注于时间序列领域的知识整理,前沿追踪
提供论文合集、视频课程、问答服务等资源
280+篇专栏笔记,已有280+小伙伴加入
价格随着内容丰富而上涨,早入早享优惠哦~
时间序列学术前沿系列持续更新中 ⛳️
后台回复"讨论",加入讨论组一起交流学习 🏃
往期推荐阅读
无惧漂移!D3R方法可用于不稳定多元时间序列异常检测,SOTA提升11%
觉得不错,那就点个在看和赞吧