适用于各类结构&领域时序数据的通用时序预测模型

科技   2024-11-08 09:36   北京  

点关注,不迷路,用心整理每一篇算法干货~

后台留言”交流“,加入圆圆算法交流群~
👇🏻扫码👇🏻加入圆圆算法知识星球~
(最后3天 双11优惠券!)

时间序列预测在金融、制造、零售、医疗保健和气象等多个领域中扮演着不可或缺的角色。然而,现有的时间序列预测模型通常假设数据是规则采样的、结构良好的,这限制了它们在包含缺失值、不等序列长度和不规则时间间隔的时间序列中的应用。

今天为大家介绍一篇来自德国L3S Research Center, Leibniz Universität Hannover 和南洋理工大学合作提出的通用时序预测范式:FlexTSF 能在在为规则和不规则时间序列数据集中表现出色。此外,经过自监督预训练后,FlexTSF 在零样本和少量样本设置下的时间序列预测中均显示出卓越的性能。

论文标题:FLEXTSF: A Universal Forecasting Model for Time Series with Variable Regularities

下载地址https://arxiv.org/abs/2410.23160

1

研究背景

本文要解决的问题是如何开发一个通用的时间序列预测模型,以应对时间序列数据在领域和结构上的多样性。现有工作通常假设数据是规则采样的,结构良好,但在实际应用中,时间序列数据往往包含缺失值、不等序列长度和不规则的时间间隔。

处理不同测量类型(如收缩压、汇率、用电量)的时间序列,这些序列具有不同的尺度和时间粒度;处理缺失值、不等序列长度和不规则采样时间间隔的结构多样性。这些难点可以归纳为:领域多样性结构多样性,本文也致力于解决这两个难点。

领域多样性:时间序列包含广泛的测量类型,如收缩压、汇率和电力消耗等,每种类型都表现出不同的尺度(例如,1-10,50-150)和时间粒度(例如,分钟、小时、天、月)。这种领域的多样性导致了各种时间模式,这些模式很难通过单一模型来捕捉。

结构多样性:时间序列展现出结构多样性,包括缺失值、变化的序列长度和不规则的采样时间间隔。例如,在下图中,(a)所示的血压观测数据在开始时较为稀疏,但随着时间推移由于患者病情恶化而变得密集。(b)中的某些数据因节假日等因素而缺失。(d)中的时间序列显示出明显的模式,而(c)中的模式则不太明显。

2

整体结构

FlexTSF是一种通用的时间序列预测模型,能够处理具有域多样性和结构多样性的时间序列,主要包括以下3个模块。

VT-Norm:提出了值和时间归一化策略(VT-Norm),通过解耦静态域信息和动态模式,使模型能够统一地学习时间模式和依赖关系。

IVP Patcher:引入了连续时间补丁模块(IVP Patcher),能够处理具有缺失值、任意长度和各种时间间隔的时间序列补丁。

LED Attention:设计了因果自注意力机制(LED Attention),结合了Leader节点、层间时间嵌入和虚拟补丁,以迭代处理时间序列并进行自回归预测。

在自我监督预训练后,FlexTSF在零样本和少样本设置中表现出色,展示了其作为基础模型的潜力和能力。文中在12个数据集上的实验表明,FlexTSF在经典、零样本和少样本场景中均优于专门为规则和不规则时间序列设计的最先进模型。

3

实现方法

这篇论文提出了FlexTSF,一种通用的时间序列预测模型,用于解决时间序列数据的领域和结构多样性问题。具体结构如下:

该过程首先通过VT-Norm进行值和时间戳的标准化,然后将时间序列分割成多个片段(patch),并在末尾附加一个虚拟片段。对于每个片段,IVP Patcher通过使用神经IVP求解器将片段内所有数据点衍生出的潜在状态反向传播,生成其向量表征。这些表征随后经过多个attention层处理,其中Leader节点包含了由VT-Norm提取的统计域特征。在前向传递之后,对应于虚拟片段的最终节点的表示被传递给IVP Patcher,该Patcher将潜在状态前向传播(与输入侧相反),以在指定的时间点生成未来的时间序列值。这些预测值替换之前的虚拟片段,使自回归过程能够继续进行,直到生成预测范围内的所有值。接下来,我们将详细介绍每个组件。

VT-Norm

为了应对时间序列数据的领域多样性,提出了值和时间归一化策略VT-Norm。该策略通过将静态域信息和动态时间模式解耦,实现了对不同特征的时间序列的统一标准化。具体步骤包括全局归一化和实例归一化,计算时间序列的全局均值和标准差,并对每个时间序列进行实例归一化。

全局归一化:计算时间序列的全局均值和标准差,并使用这些统计数据对时间序列进行标准化。

实例归一化:在将每个时间序列输入模型之前,对其进行实例归一化,计算序列的实例均值和标准差。  

通过这两步归一化,VT-Norm能够有效地处理不同测量类型(如收缩压、汇率、电力消耗)的时间序列,这些序列具有不同的尺度和时间粒度。归一化后的时间序列可以在同一模型中进行统一处理,从而提高了模型的泛化能力;

IVP Patcher

IVP Patcher:为了应对时间序列的结构多样性,提出了IVP Patcher模块。该模块通过求解初始值问题(IVP),能够学习具有任意时间间隔的时间序列表示。具体步骤包括将时间序列输入分割成非重叠的patch,对每个patch使用神经IVP求解器从初始条件向后演化状态,并通过变分自编码器(VAE)推断patch的分布。这种方法允许我们以任意时间间隔推导出时间表示,并能够处理不同长度的数据片段。

LED Attention

LED Attention:为了更好地捕捉patch之间的相关性,提出了LED Attention机制。该机制结合了旋转位置编码(RoPE)技术,通过在自注意力模块中引入相对位置表示,能够有效捕捉不规则时间间隔的复杂依赖关系。此外,由于LED注意力机制是在patch表示上操作的,我们在序列末尾添加了一个虚拟patch,该片段与预测时间点相关联。由于因果自注意力机制限制每个节点只能关注其前驱节点,因此虚拟patch被策略性地放置在序列末尾,以汇总来自所有前序patch的潜在信息。这种信息的积累使虚拟patch能够作为整个序列的综合表现,进而用于生成更有表达能力的预测。

4

结果与分析

经典训练-验证-测试:在保留数据集组DhDh上进行经典训练-验证-测试实验,结果表明FlexTSF在所有数据集上均表现出色,尤其是在处理不规则时间序列数据时具有显著优势。

零样本预测:在预训练数据集组DpDp上预训练FlexTSF,并在保留数据集组DhDh上进行零样本预测实验,结果显示FlexTSF在大多数数据集上优于其他预训练模型,特别是在处理不规则时间序列数据时表现尤为突出。

少样本预测:在预训练数据集组DpDp上预训练FlexTSF,并在保留数据集组DhDh上进行少样本预测实验,结果表明FlexTSF在数据有限的情况下仍能保持较高的预测精度,且随着训练样本数量的增加,预测性能进一步提升。

消融研究:通过消融实验评估VT-Norm、IVP Patcher和LED Attention组件的贡献,结果表明去除任何一个组件都会导致模型性能显著下降,进一步验证了这三个组件在FlexTSF中的重要性。

5

总结

本文提出了FlexTSF,一种通用的时间序列预测模型,通过引入VT-Norm、IVP Patcher和LED Attention三个创新设计,成功解决了时间序列数据的领域和结构多样性问题。实验结果表明,FlexTSF在经典、零样本和少样本场景下均表现出色,具有广泛的适用性和潜力。未来的工作将进一步探索在大规模数据集上的预训练效果,以推动时间序列预测基础模型的进一步发展;

END




后台留言”交流“,加入圆圆算法交流群~
后台留言”星球“,加入圆圆算法知识请星球~【时序预测专题课程持续更新中
知识星球提供一文贯通笔记、经典代码解析、问答服务、新人入门,已有910+小伙伴加入价格随人数增加和内容丰富上涨,感兴趣的同学尽早加入~
双11优惠券,扫码领取!

投稿&加交流群请加微信,备注机构+方向拉群~

【历史干货算法笔记】
生成式模型入门:一文讲懂3大类生成式模型
Sptial-Temporal时空预测总结:建模思路、优化方法梳理
时序预测顶会论文数据集、数据处理方法、训练方法汇总
时间序列预测实战方法概述:从数据到模型
Informer模型结构和代码解析
基于Transformer的时序预测模型TFT代码详解
时空预测经典模型STGCN原理和代码解读
一网打尽:14种预训练语言模型大汇总
Vision-Language多模态建模方法脉络梳理
花式Finetune方法大汇总
从ViT到Swin,10篇顶会论文看Transformer在CV领域的发展历程

如果觉得有帮助麻烦分享在看点赞~  

圆圆的算法笔记
定期更新深度学习/算法干货笔记和世间万物学习记录~
 最新文章