Title | Retrieval-Augmented Diffusion Models for Time Series Forecasting |
---|---|
Author | Jingwei Liu, Ling Yang, Pedro Mercado, Hongyan Li, Shenda Hong |
Affiliations | School of Intelligence Science and Technology, Peking University |
Emails | jingweiliu1996@163.com |
Paper | https://arxiv.org/pdf/2410.18712 |
Code | https://github.com/stanliu96/RATD |
摘要
While time series diffusion models have received considerable focus from many recent works, the performance of existing models remains highly unstable. Factors limiting time series diffusion models include insufficient time series datasets and the absence of guidance. To address these limitations, we propose a Retrieval-Augmented Time series Diffusion model (RATD). The framework of RATD consists of two parts: an embedding-based retrieval process and a reference-guided diffusion model. In the first part, RATD retrieves the time series that are most relevant to historical time series from the database as references. The references are utilized to guide the denoising process in the second part. Our approach allows leveraging meaningful samples within the database to aid in sampling, thus maxmizing the utilization of datasets. Meanwhile, this reference-guided mechanism also compensates for the deficiencies of existing time series diffusion models in terms of guidance. Experiments and visualizations on multiple datasets demon-strate the effectiveness of our approach, particularly in complicated prediction tasks. Our code is available at https://github.com/stanliu96/RATD.
Introduction
时间序列预测在各种应用中都发挥着关键作用,其中条件生成模型用于学习给定观察到的历史序列 xH 预测目标时间序列 xP 的条件分布 P(xP |xH)。作为当前最先进的条件生成模型,扩散模型已在许多时间序列预测任务的研究中得到应用。现有的时间序列扩散模型虽然在某些时间序列预测任务上表现良好,但在某些场景下仍不稳定。限制时间序列扩散模型表现的因素很复杂,其中两个因素尤为明显。首先,大多数时间序列缺乏直接的语义或标签对应关系,这往往导致时间序列扩散模型在生成过程中缺乏有意义的指导(例如文本指导或图像扩散模型中的标签指导)。这也限制了时间序列扩散模型的潜力。第二个限制因素来自于时间序列数据集的两个缺点:规模不足和不平衡。相较于图像数据集,时间序列数据集通常规模较小。流行的图像数据集(例如LAION-400M)包含4亿个样本对,而大多数时间序列数据集通常仅包含数万个数据点。训练一个扩散模型来学习规模不足的数据集的精确分布是一项挑战。此外,现实世界的时间序列数据集表现出明显的不平衡性。例如,在现有的心电图数据集MIMIC-IV中,与诊断为预激综合征(PS)相关的记录占总记录数的不到0.025%。这种不平衡现象可能导致模型忽略一些极为罕见的复杂样本,导致在训练过程中倾向于生成更常见的预测,从而难以处理复杂的预测任务。为了解决这些限制,我们提出了用于复杂时间序列预测任务的检索增强时间序列扩散模型 (RATD)。我们的方法由两部分组成:基于嵌入的检索和参考引导的扩散模型。获得历史时间序列后,将其输入到基于嵌入的检索过程中,以检索 k 个最近的样本作为参考。参考在去噪过程中用作指导。RATD 专注于通过在数据集中找到与历史时间序列最相关的参考来最大限度地利用现有的时间序列数据集,从而为去噪过程提供有意义的指导。RATD 专注于最大限度地利用不足的时间序列数据,并在一定程度上缓解数据不平衡造成的问题。同时,这种参考引导机制也弥补了现有时间序列扩散模型中指导的不足。我们的方法在多个数据集上表现出色,尤其是在更复杂的任务上。
Method
本节将讨论预测任务和条件时间序列扩散模型的背景知识。为了避免冲突,我们使用符号“s”表示时间序列,“t”表示扩散过程中的第 t 步。
Framework Overview
图 2(a) 显示了 RATD 的整体架构。我们基于 DiffWave 构建了整个流程,它结合了传统的扩散模型框架和 2D Transformer 结构。在预测任务中,RATD 首先根据历史事件的输入序列从数据库库 DR 中检索运动序列。然后,这些检索到的样本作为参考输入到 ReferenceModulated Attention (RMA) 中。在 RMA 层中,我们将时间步骤 t 的输入 [xH, xt] 的特征与辅助信息 Is 和参考 xR 集成在一起。通过这种集成,参考指导了生成过程。我们将在以下小节中介绍这些过程。生成器和判别器使用一个主函数 m,它是卷积、自注意力和谱归一化的组合。
Constructing Retrieval Database for Time Series
在检索之前,需要构建一个合适的数据库。我们提出了一种从具有不同特征的时间序列数据集构建数据库的策略。有些时间序列数据集规模不足,难以用单一类别标签进行注释(例如,电力时间序列),而有些数据集包含完整的类别标签,但表现出相当程度的类别不平衡(例如,医疗时间序列)。我们对这两类不同类型的数据集使用两种不同的数据库定义。对于第一个定义,直接将整个训练集定义为数据库,对于第二个,将所有的样本子集定义为数据库。
Retrieval-Augmented Time Series Diffusion
基于嵌入的检索机制对于时间预测任务,理想的参考 {si, · · · , si+h} 应该是前 n 个点 {si−n, · · · , si−1} 与 DR 中的历史时间序列 {sj , · · · , sj+n} 最相关的样本。在我们的方法中,时间序列之间的整体相似性是更受关注的。我们使用时间序列嵌入之间的距离来量化时间序列之间的参考。为了确保嵌入能够有效地表示整个时间序列,我们使用了预训练编码器 Eϕ。Eϕ 是在表示学习任务上训练的,参数集 ϕ 在我们的检索机制中是冻结的。对于 DR 中的时间序列(长度为 n + h),它们的前 n 个点被编码. 去噪网络架构与 DiffWave 和 CSDI 类似,我们的管道构建在 Transformer 层的基础上。然而,现有的框架不能有效地利用参考作为指导。考虑到注意模块将 xR 和 xt 整合在一起是一种合理的直觉,我们提出了一个称为参考调制注意(RMA)的新模块。与普通的注意模块不同,我们在 RMA 中实现了三个特征的融合:当前时间序列特征、侧面特征和参考特征。具体来说,RMA 被设置在每个残差模块的开头。我们使用 1D-CNN 从输入 xt、参考 xR 和侧面信息中提取特征。值得注意的是,我们将所有参考连接在一起进行特征提取。侧面信息由两部分组成,表示当前时间序列数据集附录 B 中变量和时间步长的相关性。我们用线性层调整这三个特征的维度,并通过矩阵点积将它们融合。与文本-图像扩散模型类似,RMA可以有效地利用参考信息来指导去噪过程,同时适当的参数设置可以防止结果过度依赖参考。
Experiments
下表展示了我们在四个每日数据集上进行实验的主要结果。我们的方法超越了现有的时间序列扩散模型。与其他时间序列预测方法相比,我们的方法在四个数据集中的三个上表现出色,在剩余的数据集上也表现出色。值得注意的是,我们在风数据集上取得了出色的成绩。由于缺乏明确的短期周期性(每日或每小时),该数据集中的一些预测任务对于其他模型来说极具挑战性。检索增强机制可以有效地帮助解决这些具有挑战性的预测任务。
Discussion
局限性和未来工作。作为一种基于 Transformer 的扩散模型结构,我们的方法仍然面临着 Transformer 框架带来的一些挑战。我们的模型在处理包含太多变量的时间序列时消耗了大量的计算资源。此外,我们的方法在训练期间需要额外的预处理(检索过程),这会导致额外的训练时间成本(大约十个小时)。
结论。在本文中,我们提出了一种新的时间序列扩散建模框架,以解决现有扩散模型的预测性能限制。RATD 从构建的数据库中检索与历史时间序列最相关的样本,并利用它们作为参考来指导扩散模型的去噪过程,从而获得更准确的预测。通过在五个真实数据集上的实验评估,RATD 在解决具有挑战性的时间序列预测任务方面非常有效。