[论文分享]ICML 2024 长期时间序列预测的损失整形约束

文摘   2024-08-20 20:31   广东  
标题Loss Shaping Constraints for Long-Term Time Series Forecasting
作者Ignacio Hounie
论文https://openreview.net/pdf/0a7de7ec995867b5762b80d3fd4cc09e8f866098.pdf

Abstract

时间序列预测中的一些应用需要提前预测多个步骤。尽管该主题有大量文献,但基于深度学习的经典方法和最近的方法都主要关注于最小化预测窗口内的平均性能。我们观察到,这可能会导致预测步骤中的误差分布不同,特别是对于最近在流行的预测基准上训练的Transformer架构。也就是说,平均优化性能可能会导致特定时间步长出现不期望的大错误。在这项工作中,我们提出了一种用于长期时间序列预测的约束学习方法,旨在找到平均性能方面的最佳模型,该模型尊重用户定义的每个时间步的损失上限。我们将我们的方法称为损失整形约束,因为它对每个时间步的损失施加约束,并利用最近的对偶结果来表明,尽管其非凸性,但所产生的问题具有有限的对偶间隙。我们提出了一种实用的原始对偶算法来解决这个问题,并证明所提出的方法在时间序列预测基准中表现出有竞争力的平均性能,同时塑造了预测窗口中的误差分布。

1.Introduction

预测时间序列数据的多个未来值,也称为多步预测,具有多种应用,例如预测天气、电力需求、电力需求、价格和乘客需求。已经提出了几种为下一个窗口生成预测的方法,包括直接、自回归或递归和 MIMO 技术;此外,存在大量的学习参数化,从线性模型到最近的 Transformer和定制架构。

无论模型和参数化如何,大多数方法都会优化性能、风险或模型拟合函数(通常是 MSE),在预测窗口上取平均值。因此,在没有任何额外假设的情况下,整个窗口的误差分布可能会根据模型和数据生成过程而变化。实际上,这可能会导致窗口不同步骤的性能不均匀。

最近使用基于 Transformer 的架构的工作重点关注聚合指标,例如(Kitaev 等人,2019;Wu 等人,2021;Nie 等人,2022),而解决不同时间步骤的误差却很少受到关注(Cheng等人,2023)。然而,在受这种可变性影响的场景中,无法控制预测窗口中每个时间步长产生的误差可能是有害的。例如,分析平均行为不足以评估计量经济学中的金融风险(Chavleishvili & Manganelli,2019)或确保在模型预测控制框架中使用预测变量时的稳定性

贡献一:我们将多步序列预测制定为约束学习问题,其目的是找到平均性能方面的最佳模型,同时对每个时间步的损失施加用户定义的上限。

贡献二:我们在流行的预测基准中使用最先进的 Transformer 架构(Kitaev 等人,2019;Zhou 等人,2021;Wu 等人,2021)针对不同约束评估我们的算法。我们的实证结果展示了通过引入约束来改变损失形状的能力,以及这如何在整个预测窗口的标准差方面带来更好的性能

Related work

在时间序列预测中,之前很少有关于在预测窗口(即在特定时间步长)上促进或施加一定的误差分布的工作。提出在窗口的不同步骤重新加权误差的工作主要旨在通过利用残差结构来提高平均性能并依赖于数据生成过程的属性和预测模型类。另一方面,解决非参数模型中预测误差的经验分布和稳健性的工作并没有分析多个步骤中的误差分布。同样,多步预测的多输出支持向量回归也解决了约束问题,但仅解决了整个窗口内的聚合误差。

尽管我们的方法与其他损失整形方法相关,因为它改变了损失的每个时间步的权重,但这些方法的动机和解决的问题与我们的工作不同。旨在减轻大错误的影响,只要它们的概率较低,无论它们在预测窗口中的位置如何。我们的方法旨在控制每个步骤的平均误差,因此可以朝着牺牲性能的相反方向发展,以减少特定步骤中不期望的大误差。为每个时间步赋予一个固定的权重,该权重与其在窗口中的位置成反比,从而旨在降低远期误差的影响,并为较近的步赋予更高的权重。然而,施加固定权重并没有考虑到在某个时间步长拟合误差的难度,这也取决于模型和数据。也就是说,在窗口上施加一定的权重不需要导致期望的误差分布。

最后,生成时间序列模型的最新工作也试图使用基于惩罚的方法施加约束(Coletta 等人,2023),但约束的性质和提出的方法也与我们的不同。

2.Multi-Step Time Series Forecasting

令 xt∈ X ⊆ R^dx^ 表示特征向量,yt ∈ Y ⊆ R^dy^ 表示其在时间步 t 处的相关输出或测量。多步时间序列预测的目标是预测输出的 T未来值,即,给定输入特征长度 Tc 的窗口,即 yp := y$$[t+1:t+Tp],即 xc := x [t−T:t]。可以使用非负损失函数或度量 l : Y × Y → R+ 在每个时间步评估预测的质量,例如平方误差或绝对差。监督多步预测中最常见的方法是学习一个预测器,该预测器可以最小化预测窗口上的平均预期损失:监督多步预测中最常见的方法是学习一个预测器,该预测器可以最小化预测窗口上的平均预期损失


然而,这种目标选择并没有考虑不同时间步长上的误差结构或分布,这可能会导致预测窗口内出现不同的行为,如图 1 所示。特别是,我们根据经验观察到, SOTA Transformer架构可以产生高度变化的损耗动态,包括非单调、平坦和高度非线性的景观。为了控制或促进理想的损失模式,可以采用跨时间步长的加权平均值。然而,由于实现的损失不仅取决于数据分布,还取决于模型类别和学习算法。因此,必须调整此类惩罚系数才能实现所需的损失模式,相反,这可以自然地表达为要求,如下所示。

3.Loss Shaping Constraints

为了控制时间窗口内损失的形状,我们要求时间步 i 上的损失小于某个数量 εi。这导致了受限统计学习问题:

(P-LS) 的一个优点是,它在约束(与惩罚系数不同)的意义上是可解释的,明确了它们所代表的要求。也就是说,约束是用各个时间步长的预期损失的项来表示的,因此可以利用有关底层数据分布和模型类的先验知识。许多其他约束选择也是可能的。例如,假设误差沿着预测窗口单调增加通常是合理的。在这种情况下,εi 可以根据学习问题的先验知识取越来越大的值。尽管如此,哪种损失模式是理想的和可实现的,最终取决于模型、数据和手头的任务。

(P-LS) 的一个优点是,它在约束(与惩罚系数不同)的意义上是可解释的,明确了它们所代表的要求。也就是说,约束是用各个时间步长的预期损失的项来表示的,因此可以利用有关底层数据分布和模型类的先验知识。在第 5 节中,我们重点关注简单地为所有时间步强加一个恒定的上限,我们使用(无约束)ERM 解决方案的性能来设置该上限。通过限制误差的上限,我们可以防止误差过大,而不管它们在窗口中的位置如何,从而有效地限制误差在整个窗口中的传播。由于我们仍然最小化整个窗口的平均误差,因此这种方法并不像极小极大公式那样保守(Liu & Taniguchi,2021),后者只关注最坏的误差。值得指出的是,许多其他约束选择也是可能的。例如,假设误差沿着预测窗口单调增加通常是合理的。在这种情况下,εi 可以根据学习问题的先验知识取越来越大的值。我们在附录 B.1 中提供了有关此类配置的进一步讨论。尽管如此,哪种损失模式是理想的和可实现的,最终取决于模型、数据和手头的任务。在下一节中,我们将探讨如何在训练期间自动调整约束,以便问题对于错误指定更加稳健。

3.1.适应约束:弹性约束学习

在无约束风险最小化问题 (ERM) 中,最优函数 θ⋆ 始终存在。这不是 (P-LS) 中的约束学习问题的情况,其中如果目标损失 εi 限制性太大,则 θ 中可能没有满足所有要求的参数。

在实践中,达到可满足的损失整形要求可能需要放宽一些约束,即 (P-LS) 中的 εi 值。这是具有挑战性的,因为评估收紧或放松特定约束的影响可能与模型类、未知数据分布和学习算法具有复杂的依赖性,而这些依赖性很难先验确定

因此,问题的关键是提出合理的约束,以在控制整个预测窗口的误差分布和获得良好的平均性能之间实现理想的权衡。也就是说,对于较大的约束水平,平均性能会提高,尽管约束对最优函数 fθ⋆ 的影响较小。

为了做到这一点,我们引入与每个时间步相关的非负扰动 zt ∈ R+,并考虑通过 zi 放松原始问题中的第 i 个约束。明确地,我们施加 E(xc,yp)∼D [li(fθ(xc), yp)] ≤ εi + ζi。我们还引入了一个可微的、凸的、非递减的成本 h : RTp + → R+,它惩罚偏离原始规范的行为,例如,平方 L2 范数 h(z) ∝ ∥z∥22。因此,我们寻求松弛 z ⋆ 通过将目标的边际减少与松弛成本的边际增加等同起来,实现理想的权衡。明确地说,

这使我们能够将初始约束水平 ε 重新解释为软约束,并学习一种使问题更容易解决的松弛方法。如(Hounie et al., 2023)所示,这种松弛可以在联合求解时找到通过解决问题来学习任务

4.Empirical Dual Resilient and Constrained Learning

求解 (P-LS) 和 (R-LS) 的一个挑战是,一般来说,(i) 不存在到可行集或近端算子的封闭形式投影,并且 (ii) 它涉及未知的数据分布 D。接下来,我们描述了解决弹性问题的方法,并指出解决原始约束问题的原始对偶算法可以通过简单地排除松弛变量来类似地导出。为了进行 R-LS,(i) 我们用数据集 {(xcn, yn p ) : n = 1, · · · , N } 上的样本均值替换期望,如(无约束)统计学习中通常所做的那样,并且( ii) 诉诸拉格朗日对偶。这些修改导致了经验对偶问题

其中 ˆ L 是 (R-LS) 的经验拉格朗日量,定义为

λi 是与第 i 个时间步损失 li 的约束相关的对偶变量。

经验对偶问题 (ED-LS) 是基于训练样本的与 R-LS 相关的对偶问题的近似。对偶问题本身可以解释为寻找原始的最紧下界。尽管使用样本均值和假设类的非凸性来估计期望可能会引入对偶间隙,即 ˆ D⋆ < P ⋆,但在某些条件下,该间隙可以是有界的。与无约束的统计学习边界不同,这些近似边界不仅取决于模型类和损失的样本复杂性,还取决于与约束问题相关的最优双变量或松弛。这些反映了满足这些限制是多么具有挑战性。这方面至关重要,因为在给定的学习环境中应用过于严格的损失整形约束可能会对近似产生不利影响,并导致测试性能不佳。我们在附录 A 中总结了这些结果以及对其在此环境中的影响的讨论,并参阅(Chamon & Ribeiro,2020;Hounie 等人,2023)了解更多详细信息。解决经验对偶问题 ˆ D⋆ 的优点是可以使用下一节中介绍的鞍点方法来求解。4.1.算法为了解决问题(ED-LS),我们采用对偶上升方法,即使内部最小化问题是非凸的,该方法也可以收敛)。然后,鞍点问题 (ED-LS) 可以通过交替关于 θ 和 ze 的最小化与关于 λ 的最大化来解决,这导致了原始-对偶约束学习过程算法 1。虽然有界经验对偶差距不能保证运行算法 1 后获得的原始变量一般来说接近最优或近似可行,但最近的约束学习文献为原始迭代提供了次优和接近可行性界限以及丰富的经验证据表明仍然可以获得好的解决方案。

5.Experiments

我们进行了广泛的评估,将受约束和弹性约束学习与八个模型架构和九个流行数据集的常规无约束训练管道进行比较。对于每个数据集,我们训练具有四种不同预测窗口长度的模型,以评估预测范围扩展时约束的影响。总共有 288 种不同的实验设置。具体来说,数据集是:用电量负荷(ECL)、天气、汇率(Lai et al., 2018)、交通、电力变压器温度(ETT)(每小时两个数据集,每 15 分钟两个数据集)(Zhou et al., 2018) 2021)和流感样疾病(ILI)。根据文献,我们对每个数据集使用预测窗口长度 96、192、320 和 720 进行训练,但疾病除外,它被训练为使用长度 24、36、48 和 60 进行预测。有关更详细的解释数据集内容及来源参见附录C.1。

我们还包括各种时间序列预测模型,包括七种基于变压器的架构和一种非变压器架构。即,变压器模型为:Reformer (Kitaev et al., 2019)、Autoformer (Wu et al., 2021)、Informer (Zhou et al., 2021)、Pyraformer (Liu et al., 2021)、iTransformer (Liu等人,2024)、非稳态变压器(Liu 等人,2022)和普通变压器架构(Vaswani 等人,2017)。非变压器模型是 FiLM(Zhou et al., 2022a)。

我们遵循相同的设置,包括预处理、超参数和实现,如 (Kitaev et al., 2019; Wu et al., 2021; Liu et al., 2021; Zhou et al., 2021; Liu et al., 2022;周等人,2022a)。对于我们的方法,我们仅对约束级别 ε 的六个值执行网格搜索。本节中介绍的受约束和弹性损失整形结果对应于最佳性能约束水平。我们对附录 D.5 中的一个数据集提供了额外的消融分析。

数据按时间顺序分为训练、验证和测试,比例为 7:1:2。对于每个数据分割,我们提取长度为 Tc 和 Tp 的每对连续上下文和预测窗口。也就是说,我们使用滚动(重叠)窗口进行训练和测试。2 其他实验细节可在附录 C 中找到。

5.1. Loss Shaping


在本节中,我们证明我们的方法有效地减少了整个窗口的性能波动,同时保持可比较的平均性能。我们计算每个预测时间步长的均方误差 (MSE),并报告平均 MSE 和整个窗口的标准差(称为窗口 STD)。为了简化解释并促进不同实验设置之间的比较,我们使用无约束的 ERM 基线对误差进行标准化。对于具有非标准化 MSE 值和其他示例情况的完整结果表,请参阅附录 D。我们不使用约束违规作为度量标准,因为当损失情况由于较大的泛化差距而始终不可行且约束水平较低时,它可能无法提供任何信息。持续的。在这种情况下,约束违反与 MSE 一样提供信息,即使误差分布超过时间变化。

由于大量的实验设置,我们在图 4 中总结了定量结果,该图说明了 ERM 和约束运行之间 MSE 和 Window STD 的相对差异。它表明,损失整形约束模型通常会降低 Window STD,同时保持甚至提高平均 MSE。

然后,我们通过按预测长度、模型架构和数据集对结果进行分组,分析我们的方法的性能在不同设置之间的差异。首先,它在不同模型之间存在显着差异,如图 3 第二行所示。我们推测这种变化可归因于某些架构的归纳偏差,这使得施加所需的损失景观变得更加困难。其次,随着预测窗口的增加,我们的方法对 MSE 和窗口 STD 的相对影响基本保持不变,如图 3 中的第三行箱线图所示。由于平均 MSE 和窗口 STD 都随着预测长度的增加而增加,因此常数相对效应意味着绝对变化随着预测长度的增加而增加。附录 D.1 显示了这种现象的几个具体例子。

为了定性评估我们的方法对误差分布的影响,我们在图 2 中包含了每个时间步损失的图,比较了使用 ERM 训练的模型和我们的方法。在这些设置中,我们的方法有效地影响了预测窗口中的损失分布。例如,在天气数据集(第一行)中,Autoformer 和 Pyraformer 正在权衡整体 MSE,以获得更平坦的窗口误差。在其他情况下,例如 Informer 和 Transformer 模型的汇率数据集,除了显示更平坦的景观外,受约束的模型总体上比 ERM 模型的表现更好。

虽然我们观察到在许多情况下施加约束是有益的,但我们也区分了两种无法根据需要改变测试损失的故障模式。第一种情况是训练结束时约束不可行,如图 5 第一行所示。这是弹性方法背后的动机,将在下一节中介绍。第二种失败模式是由于固有的泛化差距,这导致训练期间存在可行的约束,但测试数据中没有有效的损失整形,如图 5 的第二行所示。我们遵循附录 D.1 了解更多信息ERM 和约束运行的深度比较。

我们的原对偶方法的另一个优点是乘数表明满足每个约束的难度。因此,我们可以通过分析图 6 中的损失分布和乘数来检查运行中损失景观的约束的影响。在这个实验中,训练损失在预测窗口上近似单调增加。最终的解决方案是不可行的,因为从步骤341开始就违反了MSE约束。因此,最优乘数也很高,反映了满足窗口后半部分中的约束的难度。尽管乘数不断增长,该模型仍然无法满足约束条件。训练期间的这种不可行性会导致测试期间损失整形无效

5.2. Resilience


弹性约束学习可以通过放宽最困难的约束来有效克服训练中的可行性问题(如上一节中提到的问题)。如图 7 所示,当使用与上一节相同的设置将硬约束与弹性约束进行比较时,弹性方法不仅通过放宽一些约束而导致较小的乘数,而且还产生了总体上更可行的解决方案。

此外,我们发现与硬约束相比,通过弹性方法实现的解决方案还可以具有更好的泛化性,如图 8 所示。弹性模型减少了步骤 150 附近的峰值。这说明了弹性学习如何有效地缓解故障模式上一节提到过。由于在训练过程中放松了约束并解决了可行性问题,弹性模型可以有效地减少各种设置中的 Window STD。这由表 6 和表 7 中的实证结果支持了这一点。例如,与约束模型和 ERM 训练模型相比,弹性 FiLM 实现了最低的 Window STD。Autoformer、Pyraformer 和 iTransformer 等模型在使用弹性约束时也实现了最低的 Window STD。

此外,我们发现某些设置在使用弹性约束时也达到了最低的 MSE。iTransformer 在数据集 ETTh2、ETTm1 和 ETTm2 上的情况就是如此,其中弹性模型在几乎所有预测窗口长度中具有最佳总体误差,如完整的 MSE 结果(附录 D 中的表 4 和表 5)所示。

5.3. Monotonically Increasing Constraints

前面部分的结果均使用 εi 设置为从训练或验证 ERM 错误统计数据得出的常数值。正如第 3 节中所讨论的,另一种方法是让约束采用单调递增的值,例如,来自线性或指数拟合。只有在错误预计会像我们预测的那样增长的常见情况下,越来越宽松的约束才是合乎逻辑的更远的未来。请注意,我们将这些约束称为指数约束,因为它们是根据指数拟合设置的,但它们在优化变量中是线性的。使用三种不同模型对 ECL 数据集进行的实证评估表明,这是一种可行的约束设计。表 1 包含三个模型中每个模型的 MSE:在两种情况下,指数在所有窗口中实现最低的 MSE。对于 Window STD,表 2 显示指数并不总是能找到最稳定的形状。然而,这是预期的,因为单调增加的约束不一定会强制减少整个窗口的方差。

6.Conclusion

本文介绍了一种时间序列预测约束学习框架,旨在找到平均性能方面的最佳模型,同时对每个时间步的损失施加用户定义的上限。鉴于我们观察到损失景观的分布变化很大, 0 200 400 600 步骤 0.4 0.6 0.8 1.0 训练 RMSE 约束弹性 0 200 400 600 步骤测试 RMSE 图 8. 训练和测试约束模型和弹性模型的 MSE。通过在训练中找到可行的解决方案,泛化能力得到提高。设置与图 6 中的相同。我们探索了一种弹性约束学习方法,以在训练期间动态调整个体约束。我们利用最近的对偶结果分析了这个问题的性质,并开发了实用的算法来解决它。我们凭经验证实,我们的方法可以有效地改变预测窗口内的损失分布。尽管我们专注于用于长期时间序列预测的变压器,但由于实证发现变压器的损失变化很大,损失整形约束学习框架可以扩展到其他设置。这包括大量其他模型、数据集和任务,其中损失分布在不同的时间步长或网格上。此外,在这项工作中,我们重点关注以所有时间步长的恒定值为特征的约束,但其他类型的约束,例如我们简要介绍的指数增加的逐步约束,将来也可以探索。


EvoIGroup
Evolutionary Intelligence (EvoI) Group。主要介绍进化智能在网络科学,机器学习,优化和实际(工业)应用上的研究进展。欢迎投稿推文等。联系方式:evoIgroup@163.com。
 最新文章