时间序列预测中如何构建层级化的 Transformer 架构？

科技 2024-09-08 19:30 中国

点击名片

关注并星标

#TSer#

扫下方二维码，加入时序人学术星球

参与算法讨论，获取前沿资料

（240+篇专栏笔记，已有230+同学加入学习）

近年来，学界和业界致力于通过引入先进的网络架构和自监督预训练策略来提高时间序列预测的准确性。然而现有方法存在两大缺点。本文介绍一篇 KDD 2024 中的时间序列预测工作，来自中科大的研究者提出了一种新的生成式预训练分层 Transformer 架构用于预测，命名为 GPHT。

【论文标题】

Generative Pretrained Hierarchical Transformer for Time Series Forecasting

【论文地址】

https://arxiv.org/abs/2402.16516

【论文源码】

https://github.com/icantnamemyself/gpht

论文背景

时间序列预测作为时间序列分析中的一项基础任务，近年来的热度居高不下。一方面，基于深度学习的方法因其能够捕获时间和跨纬度依赖性的能力而取得成功。另一方面，受自然语言处理（NLP）和计算机视觉（CV）领域预训练方法近期显著进展的启发，学界业界提出了各种基于预训练的时间序列分析方法。对比学习技术在区分性预训练方法中得到了广泛应用，其中模型被期望从构建的正负样本对中学习表示。此外，将生成性目标（如掩码时间序列建模）纳入预训练任务也已被深入研究，目的是在重建过程中提取通用知识。

另外，考虑到时间序列和自然语言之间的共性，最近的一些研究开始通过提示或微调将预训练语言模型调整为准确的预测器。所有这些方法都取得了显著成功，甚至能够有效地与监督预测方法竞争。

尽管这些预训练预测器非常有效，但在提升性能方面仍然存在重大挑战。

首先，这些方法往往依赖于单一数据集进行训练，由于训练数据的规模有限，限制了模型的泛化能力。其次，广泛采用的一步生成方案需要定制化的预测头部，并忽略了输出序列中的时间依赖性，同时在不同预测范围长度设置下也会导致训练成本的增加。

针对上述的研究背景和现有挑战，研究者提出了一种生成式预训练的层次 Transformer 模型，即 GPHT。该模型能够在不同的数据场景和预测设置中具有良好的泛化能力。

研究者将来自不同范围的时间序列作为一个整体进行处理，摒弃了异质性，并将来自不同数据集的每个变量的值连接起来，形成用于预训练的混合数据集。并且，用自回归解码替换了大多数最新预测方法所采用的常规一步生成方法，以提高灵活性和性能。此外，文中还引入了层次结构以更好地捕获混合数据集中的各种模式。

模型方法

GPHT 模型具有两个关键特征，一是 GPHT 在时间序列标记上以自回归方式进行预测。二是 GPHT 在包含多阶段分层 Transformer 块的混合数据集上进行预训练，擅长捕捉来自各种数据场景的时间序列之间的共性。

图1：GPHT模型图

GPHT 采用通道独立假设，将每个多变量时间序列视为多个独立的单变量时间序列。本质上，GPHT 在输入序列的每个变量上进行单独的预测，并将结果预测拼接起来以生成最终预测。

研究者将这种方法扩展到混合预训练数据集的构建中，忽略了每个变量的异质性，并且没有考虑额外的信息。因此，它可以无缝地应用于更多样化的场景，其中协变量信息可能缺失，且数据本身可能是合成的。模型在预训练数据集的构建中，将来自不同领域的多变量时间序列混合，不考虑额外信息，以丰富训练数据的多样性。

序列标记化

序列标记化技术在时间序列建模中已被证明是有效的方法。在本文中，为了处理时间序列数据中的噪声和稀疏信息分布，研究者采用非重叠的标记化策略，将输入系列转换为时间序列标记序列。这不仅有助于减轻噪声和稀疏信息分布的影响，还增强了模型更好地捕获局部语义的能力，最终有助于实现更鲁棒和准确的时间序列预测。

此外，研究者引入了实例归一化层，以解决时间序列数据中的分布偏移问题，增强模型对不同时间分布的适应性。

分层Transformer模块

多尺度表示学习已在各种时间序列建模任务中展示了其有效性，这得益于实际时间序列数据中常见的多重周期性特征。此外，为了更好地发现由不同数据场景组成的混合数据集中隐藏的共性，研究者认为分层编码器是不可或缺的。

这里，研究者在分层 Transformer 模块中引入了一种基于标记的多阶段表示学习方法，通过最大池化操作和多层变换器网络来学习粗粒度和细粒度的时间序列模式。每个阶段的变换器块学习不同尺度的表示，通过上采样操作将预测结果映射回原始时间序列标记。这种全面的多阶段表示学习和预测方法能够捕获不同尺度下的复杂时间模式，有助于提高模型在处理各种时间序列场景时的有效性。

迭代残差学习

利用多阶段层次变换器块，GPHT 通过迭代残差学习策略，将预测过程转化为迭代方式，逐步精细化预测结果。输入下一个阶段的是前一阶段输入和输出的残差，通过自回归训练模式，每个标记可以被视为下一个标记的预测值。

直观上，分层 Transformer 内的池化操作允许模型专注于较低频率的特定模式。此外，较深层块的任务被简化，因为较浅的层过滤掉了已良好近似的信号。因此，迭代残差学习策略使模型能够专注于细化更精细的细节，从而实现预测精度的逐步提升。此外，该策略自然适合混合预训练数据集中多样化的模式，并具有适应各种时间结构的能力，从而保证了良好的泛化性。

优化目标

文中定义了 GPHT 的中间预测结果为所有层次变换器块输出的总和，并通过逆实例归一化层进行反归一化，恢复输入系列的特性。

为了充分利用混合数据集并更好地捕捉时间依赖性，预训练任务被构建为标准的语言建模任务，采用逐标记的自回归损失函数作为优化目标（这同样是一个预测任务）。

推理

鉴于预训练任务可以被视为一个预测任务，预训练的 GPHT 可以直接应用于下游预测任务，而无需任何修改。而 GPHT 也可以通过微调来进一步提升。在实践中，为了在保持泛化能力和在特定数据集上提高性能之间取得平衡，文中采用了一种参数高效的调整策略。

在推理过程中，得益于上述训练模式和通道独立假设，GPHT 在理论上能够对任何输入的多变量时间序列进行通用预测，而不管预测范围（即时间步长）的长度如何。预测过程类似于语言模型的解码过程。给定任何输入，该模型可以首先预测下一个第一个标记。然后，将这个预测标记拼接到输入序列的末尾，以生成对第二个标记的预测。

实验效果

研究者在8个广泛使用的数据集上进行了充分的实验，并与主流的自监督预训练模型和监督模型进行了比较。结果表明，在传统的长期预测任务中，GPHT 在各种微调、零样本/少样本学习设置下均优于基线模型。

表1：将GPHT与最先进的自监督方法和监督方法进行比较的多变量时间序列预测结果

GPHT 在不同数据集上的平均 MSE 降低了9.23%（在 Exchange 数据集上）、1.60%（在Traffic数据集上）和3.00%（在 ETTh1 数据集上）。在 MAE 评估中，改进更为明显，分别降低了5.30%、3.97%和5.07%。GPHT 在较短的预测范围内表现更优，这归功于其显式地对输出系列的时间依赖性进行建模。

文中通过比较不同层次的 GPHT 模型在所有基准数据集上的表现，发现增加层次可以提高模型的性能。随着阶段数的增加，GPHT 在理论上更能够捕获混合数据集中各种时间依赖性，如不同的周期性。

图2：具有不同层次Transformer块阶段的GHPT性能比较

在混合数据集上进行预训练使模型能够利用时间序列之间的共性，从而更好地转移到特定数据集。与从头开始训练的 GPHT 相比，预训练导致平均 MAE 减少了5.75%，

图3：在基准数据集上，GPHT与未进行预训练的GPHT之间的MAE评估

扫下方二维码，加入时序人学术星球

星球专注于时间序列领域的知识整理，前沿追踪

提供论文合集、视频课程、问答服务等资源

240+篇专栏笔记，已有230+小伙伴加入

价格随着内容丰富而上涨，早入早享优惠哦~

时间序列学术前沿系列持续更新中 ⛳️

后台回复"讨论"，加入讨论组一起交流学习 🏃

往期推荐阅读

KDD 2024 | FNSPID：整合新闻与股价的大规模金融数据集

KDD 2024 | 检测并优化时序预测中的分布偏移问题

LSTM再升级！原作者携xLSTM回归，扩展LSTM到数十亿参数

KDD 2024 | ShapeFormer：多维时序分类中基于形状的Transformer

综述 | 可解释性人工智能（XAI）在金融时间序列预测中的应用

ICML 2024 | CaRiNG：在非可逆生成过程中学习时间因果表示

WWW 2024 | FCVAE：从频率角度重新审视 VAE 在无监督异常检测中的效果

ICLR 2024 | FTS-Diffusion：针对金融时序中不规则特征的生成学习

ICML 2024 | BayOTIDE：针对多变量不规则时间序列的高效插补算法

ICML 2024 | 时序异常检测应该如何设计有效的模型？

ICML 2024 | 探索“河流网络拓扑+GNN”在洪水预测任务中的有效性

KDD 2024 | UniST：清华推出首个通用城市时空预测模型，代码数据均已公开

综述 | 一文看懂生成式时序表示与时序大模型

CALF：用于长期时间序列预测的高效跨模态LLM微调框架

觉得不错，那就点个在看和赞吧

http://mp.weixin.qq.com/s?__biz=Mzg3NDUwNTM3MA==&mid=2247501026&idx=1&sn=a200b1cdb727ea8e40df78d08e1e48bc

时序人

专注于时间序列领域下的科研、工业干货分享，紧跟AI+等领域的科技前沿

最新文章

无惧漂移！D3R方法可用于不稳定多元时间序列异常检测，SOTA提升11%

无需安装，一个文件本地运行大模型！

EffiCANet：基于卷积注意力的高效时间序列预测，显著降低计算成本

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

快速学会登上nature的热门算法，LSTM！

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

填补空白！Salesforce 提出首个通用时序预测模型评测基准 GIFT-Eval

LSTM依然能打！原作者带队最新开源成果吊打Transformer和Mamba

涨点神器！100个即插即用缝合模块【合集下载】

清华与深大提出TimeBridge，有效处理长期时间序列预测中的非平稳性问题

Salesforce 推出 Moirai-MoE，新视角设计下一代时序基础模型

一文解读：时序基础模型的缩放定律

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

最强总结，99个时间序列+时空数据的顶会创新！

正常时序转化为图像，进行高效且可解释的多元时序异常检测

NeurIPS 2024 | 时间序列相关论文盘点（附原文源码）

Time-MMD：首个涵盖9大主要数据领域的多域多模态时间序列数据集

华东师大团队首创！时间序列异常预测开启全新时序任务

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

快速学会登上nature的热门算法，LSTM！

如何处理多频段时序特征？这个Transformer变体显著提升预测效果

20场Kaggle机器学习比赛Top方案GrandMaster整理

PeFAD：边缘设备中高效的联邦异常检测框架

KDD 2024 | 数据驱动的分布偏移检测与自适应

NeurIPS 2024 | 分段时序多分类任务下的一致性学习框架

KDD 2024 | 首个基于 Diffusion 的自监督时序表示方法

必看的11种主流注意力机制创新研究！(附代码）