点击名片
关注并星标
#TSer#
【论文标题】
Generative Pretrained Hierarchical Transformer for Time Series Forecasting
【论文地址】
https://arxiv.org/abs/2402.16516
【论文源码】
https://github.com/icantnamemyself/gpht
论文背景
时间序列预测作为时间序列分析中的一项基础任务,近年来的热度居高不下。一方面,基于深度学习的方法因其能够捕获时间和跨纬度依赖性的能力而取得成功。另一方面,受自然语言处理(NLP)和计算机视觉(CV)领域预训练方法近期显著进展的启发,学界业界提出了各种基于预训练的时间序列分析方法。对比学习技术在区分性预训练方法中得到了广泛应用,其中模型被期望从构建的正负样本对中学习表示。此外,将生成性目标(如掩码时间序列建模)纳入预训练任务也已被深入研究,目的是在重建过程中提取通用知识。
另外,考虑到时间序列和自然语言之间的共性,最近的一些研究开始通过提示或微调将预训练语言模型调整为准确的预测器。所有这些方法都取得了显著成功,甚至能够有效地与监督预测方法竞争。
尽管这些预训练预测器非常有效,但在提升性能方面仍然存在重大挑战。
针对上述的研究背景和现有挑战,研究者提出了一种生成式预训练的层次 Transformer 模型,即 GPHT。该模型能够在不同的数据场景和预测设置中具有良好的泛化能力。
研究者将来自不同范围的时间序列作为一个整体进行处理,摒弃了异质性,并将来自不同数据集的每个变量的值连接起来,形成用于预训练的混合数据集。并且,用自回归解码替换了大多数最新预测方法所采用的常规一步生成方法,以提高灵活性和性能。此外,文中还引入了层次结构以更好地捕获混合数据集中的各种模式。
模型方法
GPHT 模型具有两个关键特征,一是 GPHT 在时间序列标记上以自回归方式进行预测。二是 GPHT 在包含多阶段分层 Transformer 块的混合数据集上进行预训练,擅长捕捉来自各种数据场景的时间序列之间的共性。
图1:GPHT模型图
GPHT 采用通道独立假设,将每个多变量时间序列视为多个独立的单变量时间序列。本质上,GPHT 在输入序列的每个变量上进行单独的预测,并将结果预测拼接起来以生成最终预测。
研究者将这种方法扩展到混合预训练数据集的构建中,忽略了每个变量的异质性,并且没有考虑额外的信息。因此,它可以无缝地应用于更多样化的场景,其中协变量信息可能缺失,且数据本身可能是合成的。模型在预训练数据集的构建中,将来自不同领域的多变量时间序列混合,不考虑额外信息,以丰富训练数据的多样性。
01
序列标记化
此外,研究者引入了实例归一化层,以解决时间序列数据中的分布偏移问题,增强模型对不同时间分布的适应性。
02
分层Transformer模块
多尺度表示学习已在各种时间序列建模任务中展示了其有效性,这得益于实际时间序列数据中常见的多重周期性特征。此外,为了更好地发现由不同数据场景组成的混合数据集中隐藏的共性,研究者认为分层编码器是不可或缺的。
03
迭代残差学习
04
优化目标
05
推理
鉴于预训练任务可以被视为一个预测任务,预训练的 GPHT 可以直接应用于下游预测任务,而无需任何修改。而 GPHT 也可以通过微调来进一步提升。在实践中,为了在保持泛化能力和在特定数据集上提高性能之间取得平衡,文中采用了一种参数高效的调整策略。
在推理过程中,得益于上述训练模式和通道独立假设,GPHT 在理论上能够对任何输入的多变量时间序列进行通用预测,而不管预测范围(即时间步长)的长度如何。预测过程类似于语言模型的解码过程。给定任何输入,该模型可以首先预测下一个第一个标记。然后,将这个预测标记拼接到输入序列的末尾,以生成对第二个标记的预测。
实验效果
研究者在8个广泛使用的数据集上进行了充分的实验,并与主流的自监督预训练模型和监督模型进行了比较。结果表明,在传统的长期预测任务中,GPHT 在各种微调、零样本/少样本学习设置下均优于基线模型。
图2:具有不同层次Transformer块阶段的GHPT性能比较
在混合数据集上进行预训练使模型能够利用时间序列之间的共性,从而更好地转移到特定数据集。与从头开始训练的 GPHT 相比,预训练导致平均 MAE 减少了5.75%,
图3:在基准数据集上,GPHT与未进行预训练的GPHT之间的MAE评估
扫下方二维码,加入时序人学术星球
星球专注于时间序列领域的知识整理,前沿追踪
提供论文合集、视频课程、问答服务等资源
240+篇专栏笔记,已有230+小伙伴加入
价格随着内容丰富而上涨,早入早享优惠哦~
时间序列学术前沿系列持续更新中 ⛳️
后台回复"讨论",加入讨论组一起交流学习 🏃
往期推荐阅读
觉得不错,那就点个在看和赞吧