[论文分享]ICML 2024 Timer:生成式预训练Transformer是大型时间序列模型

文摘   2024-09-05 21:33   广东  
标题Timer: Generative Pre-trained Transformers Are Large Time Series Models
作者Yong Liu, Haoran Zhang, Chenyu Li, Xiangdong Huang, Jianmin Wang, Mingsheng Long
邮箱liuyong21@mails.tsinghua.edu.cn
论文https://arxiv.org/abs/2402.02368
代码https://github.com/thuml/Large-Time-SeriesModel

摘要

深度学习为时间序列分析的进步做出了显著贡献。然而,在现实世界中数据稀缺的情况下,深度模型可能会遇到性能瓶颈,这种情况在当前基准测试中由于小模型的性能饱和而被掩盖。与此同时,大型模型通过大规模预训练在这些场景中展示了巨大的能力。随着大型语言模型的出现,取得了持续的进展,表现出前所未有的能力,如少次泛化、可扩展性和任务通用性,这些在小型深度模型中是缺失的。为了改变从头开始训练特定于训练场景的小模型的现状,本文旨在开发大型时间序列模型(LTSM)的早期发展。在预训练期间,我们策划了大规模数据集,包含多达10亿个时间点,将异构时间序列统一为单序列序列(S3)格式,并为LTSM开发了GPT风格的架构。为了满足多样化的应用需求,我们将时间序列的预测、插补和异常检测转化为统一的生成任务。本研究的成果是一种时间序列变换器(Timer),它通过下一个标记预测进行生成式预训练,并适应于各种下游任务,作为一个LTSM展现出有希望的能力。

1. 引言

时间序列分析包含了一系列关键任务,包括时间序列预测、缺失值填充、异常检测等。尽管现实世界中时间序列无处不在,但在特定应用中训练样本可能非常稀缺。尽管在深度时间序列模型方面取得了显著进展,但最先进的深度模型(PatchTST)在这些场景中的准确性仍可能急剧下降,即使在图1所示的流行基准测试中也是如此。

我们正目睹大型语言模型的快速进步,它们在大规模文本上训练并展现出卓越的少次和零次学习能力。这启示我们开发可通过预训练大量时间序列数据,以适应多种数据稀缺场景的大型时间序列模型(LTSM)。大型模型通过生成式预训练(如GPT)表现出多领域适应性、多场景和任务应对能力以及随参数和数据规模提升的性能,推动了人工通用智能的发展。时间序列与自然语言在生成式建模和自回归上具有本质相似性,为LTSMs提供了发展蓝图。

尽管时间序列的无监督预训练已取得突破,但仍存在挑战:数据集基础建设和异构时间序列的统一处理落后,导致预训练方法规模有限;可扩展的大型模型架构尚未充分探索;现有模型多集中于单一任务,缺乏任务统一性。为此,本文提出通过聚合公开数据集构建UTSD,提出S3格式统一多变量时间序列,并采用GPT风格目标进行预训练,最终推出Timer,一个具有灵活上下文长度和自回归生成能力的大型预训练时间序列变换器,它在预测、插补和异常检测任务上展现出少次泛化、可扩展性和任务通用性,超越了特定任务模型。

总的来说,我们的贡献可以总结如下:

  • 我们通过策划包含10亿个时间点的大规模数据集,提出统一序列格式以应对数据异质性,并提出Timer,一种用于通用时间序列分析的生成式预训练变换器,深入研究了LTSM的发展。
  • 我们将Timer应用于各种任务,在统一的生成方法中实现。Timer在每个任务中都表现出显著的可行性和泛化能力,仅用少量样本就实现了最先进的性能。
  • 通过在不断增加的可用时间序列数据上进行预训练,Timer展示了零样本预测能力。在同期大型时间序列模型中提供了定量评估和质量评估。

2.相关工作

2.1 序列的无监督预训练

在序列领域,无监督预训练通过掩蔽建模、对比学习和生成式预训练等方法,在自然语言处理和多媒体分析中取得了显著成就。尽管时间序列的掩蔽建模和对比学习已取得进展,生成式预训练在该领域尚未得到充分重视。本研究旨在推动时间序列的生成式预训练,利用大规模数据和针对下游任务的适应性设计。

2.2 大型时间序列模型(LTSM)

LTSM研究尚处于初期阶段,现有工作主要分为两类:

  • 一是将大型语言模型应用于时间序列,如通过微调GPT-2或将时间序列编码为数值标记;
  • 二是在大规模时间序列数据上预训练的模型,如针对特定领域的预测模型。

我们的研究通过构建UTSD,不仅提供了10亿个真实时间点,还注重数据的策划处理。Timer模型不仅适用于预测任务,还展现出在多种下游任务中的可扩展性和零样本学习能力,为LTSM领域树立了新的基准。

3.方法

受到语言和时间序列固有的序列结构启发,我们利用大型语言模型的进步来开发大型时间序列模型(LTSMs)。在本文中,我们主张发展具有以下特点的时间序列大型模型:

  • 利用广泛的时间序列语料库;
  • 采用标准化格式处理多样化的时间序列数据;
  • 在仅解码器的Transformer上进行生成式预训练,该Transformer可以自回归地预测下一个时间序列标记。

3.1 数据

大规模数据集对大型模型的预训练至关重要,但策划高质量的时间序列数据集充满挑战。普遍存在的低质量数据,如有缺失值、不可预测性、形状多变和频率不规律,会显著影响预训练效果。为应对这一挑战,我们制定了一套标准来筛选优质数据,并构建了有层次的时间序列语料库。主要实现以下两点:

  • (1)建立过滤高质量数据的标准
  • (2)建立时间序列语料库的层次结构(根据数据集的复杂度和数据量)

我们详细记录了数据集的统计信息,包括基本属性和时间序列特征,如周期性、平稳性和可预测性,以评估数据集的复杂性和质量并实现可扩展的预训练。


我们策划了如图2所示的统一时间序列数据集(UTSD)。它按层次构建,旨在促进大型模型可扩展性研究。UTSD跨越七个领域,包含最多10亿个时间点(UTSD-12G),覆盖了时间序列分析的典型应用场景。我们按照保持模式多样性的原则,确保每个层级的数据集既多样又平衡,并随着数据规模的增加,数据复杂性也逐步提高。

3.2 训练策略

与自然语言不同,自然语言得益于成熟的离散化标记和规则的序列结构,构建统一的时间序列序列并不直接,因为时间序列本身在幅度、频率、平稳性以及数据集在变量数量、序列长度和目的上的异质性。为了促进在广泛时间序列上的预训练,我们提出将异构时间序列转换为单序列序列(S3),这种格式保留了序列变化的模式,并具有统一的上下文长度。


如图3所示,我们的初始步骤涉及在变量级别进行归一化和合并。具体步骤如下:

  • 第一步:在变量层面上进行归一化和合并。每个代表变量的序列将被分为9:1的比例用于预训练的训练集和验证集。我们应用训练集的统计数据来归一化整个序列。
  • 第二步:归一化后的时间序列被合并成一个单变量序列池。用于训练的单变量序列的时间点遵循正态分布,这减少了多个数据集中幅度和变量数量的差异。
  • 第三步:我们通过窗口从池中均匀采样序列,获得具有固定上下文长度的单序列序列,作为S3格式。

S3不需要时间对齐,适用于广泛的单变量和不规则时间序列。然后我们采用生成式预训练,将S3中的单个序列视为大语言模型预训练的一个句子。

3.3 模型设计

鉴于对大型时间序列模型的骨架(backbone)探索有限,我们在实验中在同一预训练规模上广泛评估候选骨架,证实了Transformer作为可扩展的选择。


如图4所示,Encoder-only的非自回归模型是普遍的Transformer小时间序列预测器,它使用回顾序列的全局扁平化表示来生成预测。尽管直接投影可能受益于端到端的监督,但扁平化也可能抹去由注意力建模的序列依赖性,从而削弱了Transformer层展现时间变化模式的能力。

受到仅解码器大型语言模型(LLMs)迭代生成能力的实质性进展的启发,我们选择了一种未被充分探索的自回归方法来进行生成式预训练。

在标记序列 上,我们首先使用统一的上下文长度 确立了给定的单序列序列(S3) 的标记化,其中 是统一的上下文长度。我们将时间序列标记定义为包含序列变化的连续时间点(段)长度为S :

我们采用 层的Decoder-only Transformer来对这 个token进行生成式预训练:

在这里 是属于实数域 中的 维矩阵,它们分别用于编码和解码在 中的token嵌入,其中 是一个 维的矩阵,表示独立于序列的token嵌入。,而表示可选的时间戳嵌入。通过仅解码器Transformer的因果注意机制,自回归生成的 被获取作为 的下一个标记。

因此,我们如下制定预训练目标:

因此,生成式预训练模型具备了在推理过程中处理不固定上下文长度的灵活性,并通过迭代滑动和扩大输入标记来擅长多步生成。虽然小型时间序列模型通常避免进行迭代多步预测以减少误差累积,但我们的实验表明,在大规模数据上预训练的自回归模型也能像直接的多步预测器一样具有竞争力。

4. 实验

  • 我们将Timer与最先进的特定任务模型进行比较,并展示了在数据稀缺场景中预训练的好处,即大型模型的少样本学习能力。

  • 此外,我们深入研究了模型的可扩展性,包括模型/数据大小,

  • 并尝试在同时进行的大型时间序列模型中构建全面的零样本评估。

  • 为了防止数据泄露,所有的下游数据集都不包括在预训练阶段。

4.1 下游任务性能比较实验

我们通过一个统一的生成方案,在时间序列预测、填充和异常检测中展示了Timer作为一个大型时间序列模型的能力,如图5所示。


4.1.1 时间序列预测

如图6所示,我们展示了在不同数据稀缺情况下,预训练的Timer(实线)和从头开始训练的Timer(虚线)的结果。我们还通过在完整样本上训练,将最先进的预测器作为竞争基线进行评估。

由图6可以得出下列结论:

1)在仅有少量训练样本的情况下,经过微调的Timer显示出与先进的小型深度预测器相当的结果,展现出显著的少样本学习能力。

2)为了评估预训练的好处,我们比较了实线和虚线:通过预训练,即使只有很少的数据,也能让模型表现得很好。当所有样本都可用时,预训练的Timer的性能也可以优于从头开始训练。

总的来说,在普遍的数据稀缺场景中,通过LTSMs(大型时间序列模型)的少样本泛化能力,可以缓解性能下降的问题。

4.1.2 时间序列插补

缺失值插补在实际应用中极为普遍,它旨在填充损坏的时间序列数据。尽管机器学习算法和线性插值能处理随机损坏,但长时间监控中断造成的连续损坏需更复杂的恢复策略。

本任务中的段级别插补极具挑战,特别是处理包含复杂序列变化的长跨度。我们的方法包括:

  • 将时间序列分为8段,每段含24个时间点,且可能完全缺失。
  • 在UTSD-4G数据集上进行生成式预训练,采用段长S=24和Token数N=15来训练Timer模型。
  • 为适应下游任务,我们基于T5模型,采用去噪自编码技术。

我们建立了一个全面的段级插补基准测试,它包括11个数据集,每个数据集有四种掩蔽比例。Timer与之前最先进的插补模型TimesNet进行了比较,如图七所示:


如图7所示,在{5%,20%,100%}的数据稀缺情况下,Timer在44个插补场景(11个数据集,每个数据集四种掩蔽比例)中分别以100.0%、86.4%和56.8%的比例表现更佳,验证了Timer在具有挑战性的插补任务中的有效性。

我们在图8中展示了具体的插补误差的降低比例,其中在5%下游样本上预训练的情况下始终产生积极的效果。


图8展示了使用5%可用样本的下游插补任务中Timer的预训练好处。每个数据集使用四种掩蔽比例{12.5%,25%,37.5%,50%}进行插补,我们计算相对于从头开始训练的平均减少的插补误差的均方误差(MSE)的降低率。

4.1.3 时间序列异常检测

基于我们的生成模型,我们采用预测性方法来处理异常检测,该方法利用观察到的片段来预测未来片段,并将预测片段建立为与接收到的实际值进行比较的标准。与之前需要收集一段时间序列进行重建的方法不同,我们的预测方法允许即时进行段级别的异常检测。因此,该任务被转换为下一个令牌预测任务。

我们引入了UCR异常档案,其中包含250个任务。在每个任务中,提供一个单一的正常时间序列用于训练,模型应该在测试序列中定位异常的位置。

  • 我们首先在训练集上训练一个预测模型,
  • 并计算预测序列与测试集上的真实值之间的均方误差(MSE)。
  • 通过将所有片段的MSE视为置信水平,置信度高于α分位数的片段被标记为潜在的异常位置。



如上图所示,我们展示了在给定分位数下检测到的异常数量,其中Timer在其他高级异常检测模型中表现更佳,展示了我们生成性时间序列模型的多功能性。


  • 上图中左侧的图表显示了模型在3%和10%的分位数内完成检测的数据集数量;
  • 右侧的图表显示了所有250个UCR数据集的分位数分布和平均分位数;其中Timer模型的平均分位数较小,这意味着它在多数情况下都能较早地检测到异常,因此它是一个更准确的检测器。

4.2 可扩展性实验

可扩展性是从预训练模型到大型模型出现的基本属性。为了研究Timer的扩展行为,我们用增加的模型尺寸和数据尺寸对Timer进行预训练,并在PEMS的所有子集上对其进行下游预测评估。

4.2.1 模型尺寸扩展性


我们保持使用UTSD-4G作为预训练数据集。结果在上图中展示。

  • 在保持模型维度D=256的同时,我们增加了层数。参数数量从1M增加到4M,使得在两种少样本情景下的预测误差平均分别降低了14.7%和20.6%。
  • 随后,在固定的层数L=6的情况下,我们增加了模型维度,参数数量从3M扩大到50M,结果性能分别进一步提高了25.1%和18.2%,证实了扩大模型尺寸的有效性。

4.2.2 数据规模扩展性


在更大的数据集上训练的Timer在下游预测上展现出更好的性能。模型配置为L=8和D=1024。

通过增加模型尺寸和数据规模,Timer在少样本情景下的预测误差从0.231降至0.138(降低了40.3%)和从0.194降至0.123(降低了36.6%),超越了最先进的多变量预测器PatchTST。

4.3 LTSM骨干模型选择


如上图所示,Transformer作为LTSMs的主干展现出了出色的可扩展性,而基于MLP和CNN的架构在适应多样化的时间序列数据时可能会遇到瓶颈。

尽管在上图中仅编码器Transformer实现了较小的训练损失,但是LTSMs的核心目的是在下游适应中具有更强的泛化能力。因此,我们继续比较它们在不同程度数据稀缺下的预测性能结果如下表所示:


由上表可以发现,特别是在经过12G数据预训练后,仅解码器Transformer(Timer)在数据稀缺情境下在多种下游任务中表现最佳,显示出更强的泛化能力。

4.4 大型时间序列模型Zero-shot评估

时间序列领域中大型模型的开发迅速增长,特别是零样本预测(ZSF)。我们扩展数据集,预训练Timer,并建立了首个LTSM零样本预测基准。


由上图可以发现,尽管预训练可以帮助模型在未见过的数据集上表现更好,但模型性能的提升并不完全依赖于预训练数据的规模。所以高质量数据和模型大小的同步扩展对于提高模型的泛化能力和性能至关重要。

5.总结和未来工作

实际的时间序列分析越来越强调对大型时间序列模型(LTSM)的需求。在本文中,我们发布了一个具有10亿个时间点的时间序列数据集,提出了一个统一的序列格式来解决多变量时间序列的异质性,并开发了一个生成性预训练的Transformer,作为一个可泛化、可扩展、通用任务的LTSM。从实证角度,我们在预测、插补和异常检测中评估了我们的模型,取得了最先进的性能,并在数据稀缺的情况下显著地获得了预训练的好处。进一步的分析验证了模型的可扩展性,探索了LTSMs的架构,并突出了我们的自回归生成的多功能性。通过对可用的大型模型进行零样本预测,我们在LTSMs之间进行了初步的定量评估。质量评估揭示了未来发展的关键途径,包括更好的零样本泛化和促进概率性和长上下文预测。


EvoIGroup
Evolutionary Intelligence (EvoI) Group。主要介绍进化智能在网络科学,机器学习,优化和实际(工业)应用上的研究进展。欢迎投稿推文等。联系方式:evoIgroup@163.com。
 最新文章