【论文精读】NeurIPS 2024[Spotlight] | CycleNet：通过建模周期模式增强时间序列预测

文摘 2024-10-21 08:28 北京

论文标题：CycleNet: Enhancing Time Series Forecasting through Modeling Periodic Patterns

作者：林升升，林伟伟*，胡心怡，吴文泰，莫瑞超，钟浩城

机构：华南理工大学，鹏城国家实验室，香港中文大学，暨南大学

论文发表：The 38th Annual Conference on Neural Information Processing Systems (NeurIPS 2024 Spotlight)

关键词：时间序列预测，周期性建模，可学习循环周期

论文链接：https://arxiv.org/abs/2409.18479

NeurIPS论文链接：https://neurips.cc/virtual/2024/poster/94391

代码链接：https://github.com/ACAT-SCUT/CycleNet

点击文末阅读原文跳转本文arXiv链接

摘要

时间序列数据中存在的周期模式是进行长周期时序预测的关键。本文开创性地探讨了如何显式建模这种周期模式，以提升模型在长周期时序预测（LTSF）任务中的表现。具体而言，本文引入了残差周期预测（RCF）技术，该技术利用可学习循环周期来建模序列中固有的周期模式，并对已建模周期的剩余残差分量进行预测。将RCF与简单的线性层或双层MLP结合，形成了本文提出的简单而强大的方法——CycleNet。CycleNet在电力、天气和能源等多个领域实现了最先进的预测准确性，同时通过减少90%以上所需的参数数量，提供了显著的效率优势。此外，作为一种新颖的即插即用技术，RCF还可以显著提高现有模型的预测准确性，包括PatchTST和iTransformer等。

引言

时间序列预测 (TSF) 在天气预报、交通和能源管理等多个领域中发挥着至关重要的作用，提供了早期预警的能力并促进了主动规划。尤其是长时间跨度的准确预测（例如跨越数天或数月），被称为长周期时序预测 (LTSF)，能够带来更大的便利。然而，进行长周期预测的基础在于理解数据中固有的周期性。与短期预测不同，长周期预测不仅仅依赖近期的时间信息（包括均值、趋势等）。例如，用户三十天后的电力消耗不仅仅与过去几天的消耗模式相关。

在这种情况下，长期依赖，即数据中的潜在稳定长期周期性，是进行长周期预测的实际基础。因此，现有模型通常强调它们提取长期依赖特征的能力。像Informer、Autoformer和PatchTST等模型利用Transformer在长距离建模上的优势来处理LTSF任务。ModernTCN采用大卷积核增强了TCN捕获长距离依赖的能力，SegRNN则通过分段迭代来改善RNN处理长序列的能力。如果一个模型能够准确捕捉长期依赖，它就能够精确提取历史长序列中的周期模式，从而实现更准确的长周期预测。

然而，如果构建深层且复杂的模型的目的仅仅是为了更好地从长历史序列中提取周期特征，那为什么不对这些周期模式进行直接建模呢？如图1所示，电力数据展现出明显的日周期模式（此外还有可能的周周期模式）。这里可以使用一个全局共享的每日片段来表示电力消耗量中存在的全局周期模式。通过将该每日片段重复次，就可以连续表示天的电力消耗序列的周期分量。

基于上述动机，本文首次探索了显式建模数据中的周期模式，以提升模型在LTSF任务中的表现。具体而言，本文提出了残差周期预测 (Residual Cycle Forecasting, RCF) 技术，它通过可学习循环周期来显式建模时间序列数据中的固有周期模式，随后对已建模周期的残差分量进行预测。将RCF技术与单层线性模型或双层MLP结合，构成了本文提出的简单而强大的方法——CycleNet。CycleNet在多个领域中实现了稳定的最先进性能，并提供了显著的效率优势。

总结而言，本文的贡献如下：

本文识别了长周期预测领域中存在的共享周期模式，并提出了显式建模这些周期模式以提升模型在LTSF任务中的表现。
技术上，本文引入了RCF技术，它利用可学习循环周期来显式建模时间序列数据中的固有周期模式，随后对已建模周期的残差部分进行预测。RCF技术显著提升了基础（或现有）模型的性能。
将RCF应用于线性层或浅层MLP形成了本文提出的简单而强大的方法CycleNet。CycleNet在多个领域中实现了稳定的最先进性能，并提供了显著的效率优势。

方法

给定一个具有个变量或通道的时间序列，时间序列预测的目标是基于过去次观察预测未来步，数学上表示为。事实上，时间序列中固有的周期性对于准确预测至关重要，特别是在进行超长范围预测时，例如 96-720 步（对应于几天或几个月）。为了增强模型在长周期预测任务上的表现，本文提出了残差周期预测（RCF）技术。它结合了线性层或双层 MLP，形成了简单而强大的方法 CycleNet，如图2所示，详细的伪代码见本文附录B.1。

图2. CycleNet 架构。CycleNet/Linear 和 CycleNet/MLP 分别表示使用单层线性模型和双层 MLP 模型作为 CycleNet 的骨干预测网络。这里，D=3.

残差周期预测

RCF 技术包含两个步骤：第一步是通过可学习循环周期在独立通道内建模序列的周期模式，第二步是预测已建模周期的残差分量。

周期模式建模

给定个通道和先验循环长度，本文首先生成可学习循环周期，并全部初始化为零。这些循环周期在通道之间全局共享，意味着通过执行循环复制，本文可以获得长度相同的序列的周期分量序列。这些长度为的可学习循环周期将与骨干模块共同使用梯度反向传播训练，会学习到最佳表示（与最初初始化的零不同），从而揭示序列中的内部循环模式。

这里，循环周期的长度取决于数据集的先验特征，应该设置为数据集中最大的稳定周期。考虑到需要长周期预测的场景通常会展现出明显的、显式的周期（例如电力消耗和交通数据展现出清晰的每日和每周周期），确定具体的周期长度是可行且简单的。此外，可以通过自相关函数 (ACF) 进一步检查数据集的循环，如附录B.2所示。

残差预测

对已建模周期的残差分量进行的预测称为残差预测，步骤如下：

从原始输入中移除周期分量，得到残差分量。
将传入骨干模型以获得残差分量的预测。
将预测的残差分量加入周期分量以得到。

需要注意的是，由于完整的周期分量序列是从的循环复制中衍生出的虚拟序列，无法直接获得上述的子序列和。因此，如图3所示，需要适当对循环周期进行对齐和重复，以获得等效的子序列：(i) 将左移个位置以获得。这里，可以视为当前序列样本在中的相对位置索引。(ii) 重复次，并连接。数学上，这两个等效的子序列可以表示为：

骨干模型

使用RCF技术后，原始预测任务会被转化为周期的残差分量建模，这可以被视为正常序列建模任务。因此，可以使用任何现有的时间序列预测模型作为骨干预测模型。本文目标是提出和检验通过显式建模循环周期（即 RCF）来增强时间序列预测的方法。因此，选择最基本的骨干模型，即单层线性模型和双层 MLP，形成简单而强大的方法 CycleNet/Linear 和 CycleNet/MLP。在此，每个通道的残差分量都利用相同的骨干模型进行建模，并共享参数，这也被称为通道独立策略。

实例归一化

时间序列数据的统计特性（例如均值）通常随时间变化，这被称为分布漂移。这可能导致在历史训练集上训练的模型在应用于未来数据时表现不佳。为了解决这个问题，近期研究引入了像 RevIN这样的实例归一化策略。主流方法如 iTransformer、PatchTST 和 SparseTSF 广泛采用类似技术以提升性能。为了提高 CycleNet 的鲁棒性，也引入了类似的可选策略（详见附录C.4中的完整消融研究）。具体而言，在 CycleNet 的输入和输出步骤之外，从模型的内部表示中去除变化的统计特性：

其中，和分别表示输入窗口的均值和标准差，是一个小常数，用于数值稳定性。该方法与不包含可学习仿射参数的 RevIN 版本相一致。

损失函数

为了与当前主流方法保持一致，CycleNet 默认使用均方误差（MSE）作为损失函数，公式为：

实验

主要结果

表2展示了CycleNet与其他模型在多变量LTSF任务上的比较结果。总体而言，CycleNet实现了最先进的性能（除了Traffic数据集），其中CycleNet/MLP整体排名第一，CycleNet/Linear整体排名第二。由于MLP相比于Linear具有非线性映射能力，CycleNet/MLP在电力和太阳能等高维数据集上表现更佳（即通道数超过100的数据集）。总之，得益于RCF技术，即使是一个非常简单和基础的模型（即Linear和MLP）也能取得当前最佳性能，超越其他深度模型。这充分展示了RCF技术的优势。

表2. CycleNet与其他模型的预测结果对比。这里，回望窗口。完整结果和更长回望窗口下的对比结果见附录C.2

此外，可以观察到CycleNet在Traffic数据集上的表现逊色于iTransformer，后者使用转置Transformer建模时间序列数据中的多变量关系。这是因为Traffic数据集展现出时空特性和时间滞后特性，某个检测点的交通流量显著影响邻近检测点的未来值。在这种情况下，需要建模足够的通道间关系，而iTransformer正是实现了这一点。相对而言，CycleNet只独立地建模每个通道的时间依赖性，因此在这一场景中处于劣势。然而，CycleNet在Traffic数据集上的表现仍显著优于其他基线，显示了CycleNet的竞争力。此外，在附录C.5中对CycleNet在交通场景中的表现进行了更多分析，包括在PEMS数据集上的结果全面比较。

效率分析

所提出的RCF技术作为一种即插即用模块，所需的额外开销极小，仅需额外的可学习参数，并且没有额外的乘加操作（MAC）。CycleNet的骨干结构，即单层Linear和双层MLP，相较于其他多层堆叠模型也显得相当轻量。表3展示了CycleNet与其他主流模型之间的效率比较，其中CycleNet显示出显著优势。特别是，与同样具备强大建模长时间依赖和非线性学习能力的iTransformer相比，CycleNet/MLP的参数和MAC数量减少了十倍以上。至于CycleNet/Linear，它与DLinear共享相同的单层线性骨干，参数和MAC数量也较少。然而，在训练速度方面，DLinear仍快于CycleNet/Linear。这是因为RCF技术需要将循环周期与每个数据样本对齐，这会增加额外的CPU时间。总体而言，考虑到RCF技术带来的预测准确性显著提升，CycleNet在性能与效率之间实现了最佳平衡。

表3.CycleNet与其他模型在Electricity数据集上的计算效率对比。

可学习周期模式的可视化

RCF技术的目的是利用初始化为零的可学习循环周期来建模时间序列数据中的周期模式。与主干网络共同训练后，循环周期能够表示序列的固有周期模式。图4展示了从不同数据集和通道学习到的不同周期模式。例如，图4(c)显示了太阳能光伏发电的每日运行模式，而图4(d)展示了交通流量的每周运行模式，特征是在工作日早晨的高峰交通。这些从全局序列中学习到的周期模式为预测模型提供了重要的补充信息，尤其是在回望窗口长度有限时，可能无法提供足够的循环信息。

此外，尽管同一数据集内不同通道的周期长度相同，但具体的周期模式却有所不同，如图4(e-h)所示。特别是，图4(f)展示了某个家庭电力消耗的工作日间歇性模式，而其他通道则展现出相对均匀的工作日模式。这突显了为每个通道单独建模周期模式的必要性。

总结而言，这些证据表明，RCF技术能够有效学习时间序列数据中的固有周期模式，成为CycleNet实现最先进性能的重要解释因素。

RCF的有效性

为了研究RCF的有效性，在两个具有显著周期性的复杂数据集（电力和交通）上进行了全面的消融实验。结果如表4所示。

首先，当将基本Linear和MLP主干模型（均默认使用实例归一化）与RCF技术结合时，预测准确性显著提高（约10%到20%）。这表明CycleNet的成功主要归功于RCF技术，而非主干网络本身或实例归一化策略。总体而言，无论是否应用RCF技术，MLP的性能均优于线性模型。这表明在使用通道独立策略（在各通道间共享参数）建模高维数据集时，非线性映射能力是必要的，这与之前已有的研究结果一致。

其次，进一步验证了RCF是否可以提升现有模型的预测准确性，因为RCF本质上是一种即插即用的灵活技术。观察到，结合RCF后，现有复杂设计的深层堆叠模型（如PatchTST和iTransformer）仍然有约5%到10%的性能提升。即便对于已经采用经典移动平均的STD技术的DLinear，RCF也能提供约20%的改进。这进一步表明了RCF的有效性和可移植性。

然而，一个有趣的现象被观察到：尽管在将RCF与PatchTST和iTransformer结合时，MAE有所降低，但MSE却增加。这一现象的主要原因是交通数据集中存在极值点，可能影响RCF的作用，因为RCF原理上是学习训练集中的历史平均周期表示。在附录C。5中对此现象进行了深入分析，并提出了一系列改善RCF技术的潜在方向。

不同季节-趋势分解技术的比较

表5.不同季节-趋势分解技术的对比。这里，并且没有使用RevIN来展示分解技术的原生性能对比。

所提出的RCF技术本质上是一种更强大的季节-趋势分解技术。与现有方法通过有限的回望窗口分解周期（季节）成分不同，RCF从训练集中学习全局周期成分。在这里，使用纯Linear模型作为骨干（未应用任何实例归一化策略）比较RCF与现有季节-趋势分解技术的有效性。比较包括Leddam提出的LD（可学习分解核）、DLinear的MOV（滑动平均核）以及SparseTSF中的Sparse（稀疏预测）技术。如表5所示，RCF显著优于其他季节-趋势分解方法，尤其是在强周期性的数据集上，如电力和太阳能。相比之下，其他季节-趋势分解方法未能显示出相对于纯Linear模型的显著优势。

原因有几个。首先，基于MOV和LD的季节-趋势分解方法通过在回望窗口内滑动聚合来实现趋势估计，这存在一些固有问题：(i) 移动平均的滑动窗口需要大于季节成分的最大周期；否则，分解可能不完整（特别是当周期长度超过回溯序列长度时，可能导致分解不可能）。(ii) 需要在序列样本的边缘进行零填充，以获得等大小的移动平均序列，导致序列边缘的失真。至于Sparse技术，作为一种轻量级的分解方法，它更依赖于较长的回望窗口和实例归一化策略才能确保充足的性能。

此外，这些在回望窗口内解耦趋势和季节性的方法实质上等同于无约束或弱约束的线性回归，这意味着在完全训练收敛后，结合这些方法的线性模型在理论上等同于纯线性模型。相比之下，RCF技术获得的周期成分是从训练集中全局估计的，使其超越了有限长度回望窗口的限制，因此，其能力超出了标准线性回归。

超参数的影响

超参数决定了RCF技术中可学习循环周期的长度。原则上，它必须与数据中的最大主周期长度相匹配，以正确建模序列的周期模式。在表6中调查了在不同数据集下CycleNet/Linear模型在不同设置下的表现。当正确设置超参数为数据集的最大周期长度（即表1中预推断的周期长度）时，RCF能够发挥显著作用，与未正确设置的情况相比，表现出较大的性能差距。这表明推断并设置正确的对RCF的正常运作是必要的。此外，当设置不正确时，模型的表现几乎与完全不使用RCF时相同。这表明即使在最坏情况下，RCF也不会带来显著的负面影响。

此外，图7展示了在不同配置下RCF学习到的周期模式，即不同回望窗口、预测视野、预测骨干模型和可学习周期的长度周期。当设置为168（电力数据集的每周周期长度）时，循环周期学习到了完整的周期模式，包括每周和每日周期。当设置为24（每日周期长度）时，循环周期仅学习了每日周期模式。当设置为96（每日周期长度的四倍）时，循环周期学习到了四个重复的每日周期模型。然而，当设置为23（不匹配任何语义上的周期长度）时，循环周期未能学习到任何有意义的模式，结果呈现为一条直线。

讨论

潜在局限性

CycleNet在具有明显和显式周期模式的LTSF场景中展现了其有效性。然而，CycleNet也存在一些潜在的局限性，值得在此讨论：

不稳定的周期长度： CycleNet可能不适用于周期长度（或频率）随时间变化的数据集，例如心电图（ECG）数据，因为CycleNet只能学习固定长度的周期。
不同通道的周期长度变化： 当数据集中的不同通道表现出不同长度的周期时，CycleNet可能会遇到挑战，因为它默认使用相同的周期长度来建模所有通道。考虑到CycleNet的通道独立建模策略，一个潜在的解决方案是通过根据周期长度对数据集进行预处理，或将每个通道独立建模为单独的数据集。
异常值的影响： 如果数据集中包含显著的异常值，CycleNet的性能可能会受到影响。这是因为RCF的基本工作原理是学习数据集中的历史平均周期。当存在显著异常值时，RCF所学习的周期中某一点的均值可能会被放大，导致对周期和残差组件的不准确估计，从而影响预测过程。
长范围周期建模： RCF技术有效地建模中等范围的稳定周期（例如每日或每周）。然而，考虑更长的依赖性（如年度周期）对RCF技术来说是一个更具挑战性的任务。虽然理论上可以将CycleNet的设置为年度周期长度以建模年度周期，但最大困难在于收集足够长的历史数据以训练完整的年度周期，这可能需要数十年的数据。在这种情况下，未来的研究需要开发更先进的技术来专门解决长范围周期建模的问题。

未来工作：进一步建模通道间关系

RCF技术增强了模型对时间序列数据周期性的建模能力，但并没有明确考虑多个变量之间的关系。在一些存在空间和时间依赖关系的时空场景中，这些关系至关重要。例如，最近的研究如iTransformer和SOFTS表明，适当地建模通道间关系可以提高交通场景中的性能。然而，直接将RCF技术应用于iTransformer并没有显著改善（至少在MSE指标上没有提升），如表4所示。因此本文认为，设计一种更合理的多变量建模方法，将CycleNet结合起来，将是一个有前景且有价值的方向，将其留待未来探索。

结论

本文揭示了时间序列数据中固有周期模式的存在，并开创性地探索了显式建模这种周期性以增强时间序列预测模型的性能。技术上，提出了残差周期预测（RCF）技术，通过循环周期建模序列中的共享周期模式，并通过主干网络预测残差周期组件。此外，介绍了简单而强大的LTSF方法CycleNet/Linear和CycleNet/MLP，分别将单层线性模型和双层MLP与RCF技术结合。大量实验验证了RCF技术的有效性，CycleNet作为一种新颖且简单的方法，实现了最先进的结果，并具有显著的效率优势。本文的研究结果强调了周期性作为准确时间序列预测的关键特征的重要性，应该在建模过程中给予更多重视。最后，将CycleNet与有效的通道间关系建模方法相结合，作为一个有前景且有价值的未来研究方向。

注：完整的实验结果和进一步的实验和分析，包括在更长回望窗口的对比，在交通场景的深入分析，对RevIN的完整消融等，请参见原文。