Title | CycleNet: Enhancing Time Series Forecasting through Modeling Periodic Patterns |
---|---|
Author | Shengsheng Lin, Weiwei Lin, Xinyi Hu, Wentai Wu, Ruichao Mo, Haocheng Zhong |
Affiliations | School of Computer Science and Engineering, South China University of Technology, China |
Emails | cslinshengsheng@mail.scut.edu.cn |
Paper | https://arxiv.org/pdf/2409.18479 |
Code | https://github.com/ACAT-SCUT/CycleNet |
Abstract:
时间序列数据中存在的稳定周期性模式是进行长期预测的基础。本文开创了对这种周期性进行显式建模的探索,以提高模型在长期时间序列预测(LTSF)任务中的性能。具体来说,本文引入了残余周期预测(RCF)技术,该技术利用可学习的循环来对序列中固有的周期性模式进行建模,然后对建模周期的残余分量进行预测。将 RCF 与线性层或浅层 MLP 相结合形成了本文提出的简单而强大的方法,称为 CycleNet。CycleNet 在电力、天气和能源等多个领域实现了最先进的预测精度,同时通过减少 90% 以上的所需参数数量来提供显着的效率优势。此外,作为一种新颖的即插即用技术,RCF还可以显着提高现有模型的预测精度。
1.Introduction
时间序列预测 (TSF) 在天气预报、交通和能源管理等各个领域发挥着至关重要的作用,为早期预警提供见解并促进主动规划。特别是,长期(例如,跨越几天或几个月)的准确预测提供了更多的便利,称为长期时间序列预测(LTSF)。然而,实现长期预测的原则在于理解数据中固有的周期性。与短期预测不同,长期预测不能仅仅依赖于最近的时间信息(包括平均值、趋势等)。例如,用户未来 三十天的用电量不仅与其过去几天的用电模式相关
在这种情况下,长期依赖性,或者换句话说,数据中潜在的稳定周期性,可以作为进行长期预测的实际基础。这就是为什么现有模型强调其提取具有长期依赖性的特征的能力。Informer 、Autoformer 和 PatchTST 等模型利用 Transformer 的长距离建模能力来解决 LTSF 任务。ModernTCN 采用大型卷积核来增强 TCN 捕获长程依赖性的能力,而 SegRNN使用分段迭代来改进 RNN 方法对长序列的处理。如果模型能够准确捕获长期依赖性,它就可以从历史长序列中精确提取周期性模式,从而实现更准确的长期预测。
然而,如果构建深度复杂模型的目的仅仅是为了更好地从远程依赖性中提取周期性特征,为什么不直接对模式进行建模呢?如图 1 所示,电力数据表现出清晰的每日周期性模式(除了可能的每周模式)。本文可以使用全球共享的每日分段来表示电力消耗的周期性模式。通过重复这个日常片段N次,本文可以连续表示N天用电量序列的循环分量。
基于上述动机,本文在本文中率先对数据中的周期性模式进行显式建模,以增强模型在 LTSF 任务上的性能。具体来说,本文提出了剩余周期预测(RCF)技术。它涉及使用可学习的循环周期对时间序列数据中固有的周期性模式进行显式建模,然后预测建模周期的剩余分量。将 RCF 技术与单层线性或双层 MLP 相结合,形成了 CycleNet,这是一种简单但功能强大的方法。CycleNet 在多个领域实现了一致的最先进性能,并提供了显着的效率优势。
本文贡献:
• 本文确定了长期预测领域中共享周期性模式的存在,并提出对这些模式的显式建模,以增强模型在 LTSF 任务上的性能。
• 从技术上讲,本文引入了RCF 技术,该技术利用可学习的循环周期对时间序列数据内的固有周期性模式进行显式建模,然后预测建模周期的剩余分量。RCF 技术显着增强了基本(或现有)模型的性能。
• 将RCF 与线性层或浅层MLP 结合使用,形成了所提出的简单而强大的方法,称为CycleNet。CycleNet 在多个领域实现了一致的最先进性能,并提供了显着的效率优势
2 Related work
事实上,利用周期性信息来提高模型预测精度并不是一个新概念。特别是,许多研究引入了一系列季节性趋势分解(STD)技术,使模型能够更好地利用周期性信息。Autoformer 、FEDformer 和 DLinear 等流行模型利用经典的 STD 方法将原始时间序列分解为两个同等大小的子序列:季节性和趋势分量,然后独立建模。这些经典的 STD 方法通常使用基本移动平均 (MOV) 内核来执行滑动聚合以获得趋势分量。最近,Leddam 提出用可学习分解(LD)内核替换 STD 中的传统 MOV 内核,从而提高性能。此外,DEPTS将序列的周期性视为相对于时间的参数化函数,并通过其周期性和局部块逐层学习周期性和残余分量。SparseTSF 是最近的另一项工作,利用跨时期稀疏预测技术来解耦周期和趋势,以极低的成本实现了令人印象深刻的性能。
本文提出的 RCF 技术本质上可以被认为是 STD 方法的一种。与现有技术的主要区别在于它使用可学习的循环周期对独立序列内的全局周期模式进行显式建模。所提出的 RCF 技术概念简单、计算高效,并且可以显着提高预测精度。进一步提出的 CycleNet 将 RCF 技术与简单的主干相结合,是一种基于线性或 MLP 的模型,简单、高效且功能强大,适用于时间序列预测。为了正确定位CycleNet,本文在附录中详细回顾了不同类别的时间序列预测方法(包括基于Transformer、基于RNN等)的发展。
3 CycleNet
给定具有 D 个变量或通道的时间序列 X,时间序列预测的目标是根据过去的 L 个观测值预测未来的 H 步。事实上,时间序列中固有的周期性是准确预测的基础,特别是在大范围内进行预测时,例如 96-720 步(对应于几天或几个月)。为了提高模型在长期预测任务上的性能,本文提出了剩余周期预测(RCF)技术。它结合了线性层或浅层 MLP,形成了一个简单而强大的方法 CycleNet,如图 所示。
3.1 Residual cycle forecasting
RCF 技术包括两个步骤:第一步涉及通过独立通道内的可学习循环来对序列的周期性模式进行建模,第二步需要预测建模周期的剩余分量。
Periodic patterns modeling
给定具有先验周期长度 W 的 D 个通道,本文首先生成可学习的循环周期,全部初始化为零。这些循环在通道内全局共享,这意味着通过执行循环复制,本文可以获得相同长度的序列X的循环分量C。这些长度为 W 的循环周期 Q 与用于预测的骨干模块一起经历梯度反向传播训练,产生学习表示(与最初初始化的零不同),揭示序列内的内部循环模式。
这里,周期长度W取决于数据集的先验特征,并且应该设置为数据集中的最大稳定周期。考虑到需要长期预测的场景通常表现出突出的、明确的周期(例如,用电量和交通数据表现出清晰的每日和每周周期),确定具体的周期长度是可用且简单的。此外,可以通过自相关函数(ACF)进一步检查数据集的周期。
Residual forecasting
对建模周期的剩余部分进行的预测(称为剩余预测)如下:
从原始输入x~t−L+1:t~中去除循环分量c~t−L+1:t~,得到残差分量x′~t−L+1:t~。 将 x′~t−L+1:t~ 通过主干网络,以获得残差分量的预测x′~t+1:t+H~ 。 将预测残差分量 ̄x′~t+1:t+H~ 与循环分量 c~t+1:t+H~ 相加,得到 ̄x~t+1:t+H~ 。
需要注意的是,由于循环分量C是由Q的循环复制导出的虚拟序列,因此本文无法直接获得上述子序列c~t−L+1:t~ 和c~t+1:t+H~ 。因此,如图 3所示,需要对循环 Q 进行适当的对齐和重复以获得等效的子序列:(i) 将 Q 左移 t mod W 位置以获得 Q(t)。这里,t mod W 可以被视为当前序列样本在 Q 内的相对位置索引。(ii) 重复 Q(t) ⌊L/W ⌋ 次并连接 Q(t) 0:L mod W 。在数学上,这两个等价子序列可以表示为:
3.2 Instance normalization
时间序列数据的统计特性(例如均值)通常会随时间变化,这称为分布变化。这可能会导致在历史训练集上训练的模型在应用于未来数据时表现不佳。为了解决这个问题,最近的研究引入了实例标准化策略,例如 RevIN。iTransformer 、PatchTST 和 SparseTSF 等主流方法已广泛采用类似的技术来增强性能。为了提高 CycleNet 的鲁棒性,本文还采用了类似的可选策略。具体来说,本文从 CycleNet 输入和输出步骤之外的模型内部表示中删除了不同的统计属性:
其中 μ 和 σ 分别表示输入窗口的平均值和标准差,ε 是用于数值稳定性的小常数。此方法与 RevIN 版本一致,不包括可学习的仿射参数
4 Experiments
4.1 实验设置:
4.2 多元预测结果:
回溯窗口:96
4.3 效率分析
所提出的 RCF 技术作为即插即用模块,需要最小的开销,仅需要额外的 W × D 可学习参数,并且不需要额外的乘法累加运算(MAC)。CycleNet 的主干,即单层 Linear 和双层 MLP,与其他多层堆叠模型相比也显着轻量级。下表展示了CycleNet与其他主流模型的效率对比,其中CycleNet表现出显着的优势。特别是,与同样具有强大的长期依赖性建模和非线性学习能力的 iTransformer 相比,CycleNet/MLP 的参数和 MAC 数量少了十倍以上。至于CycleNet/Linear,它与DLinear共享相同的单层线性主干,它的参数和MAC也更少。不过,就训练速度而言,DLinear 仍然比 CycleNet/Linear 快。这是因为 RCF 技术需要将循环周期与每个数据样本对齐,这会产生额外的 CPU 时间。总体而言,考虑到RCF技术带来的预测精度的显着提升,CycleNet实现了性能和效率之间的最佳平衡。
4.4 消融实验
RCF的有效性
RCF技术的消融研究。Linear和MLP主干默认应用与CycleNet相同的实例归一化策略,以充分展示RCF技术的效果。
总体而言,无论是否应用RCF技术,MLP的性能都强于Linear。这表明,在使用通道无关策略(跨通道共享参数)对高维数据集进行建模时,非线性映射能力是必要的,这与之前的研究结果一致
其次,本文进一步验证了RCF是否可以提高现有模型的预测精度,因为RCF本质上是一种即插即用的灵活技术。据观察,结合 RCF 仍然可以提高现有复杂设计的深度堆叠模型的性能(大约 5% 到 10%),例如 PatchTST 和 iTransformer。即使对于已经采用基于 MOV 的经典 STD 技术的 DLinear,RCF 也能够提供大约 20% 的改进。这进一步说明了RCF的有效性和可移植性。
然而,观察到一个有趣的现象:当 PatchTST 和 iTransformer 与 RCF 结合时,虽然 MAE 降低了,但 MSE 却增加了。这背后最重要的原因是,流量数据集中存在极值点,可能会影响 RCF 的有效性,而 RCF 从根本上依赖于学习数据集中的历史平均周期。本文在附录 C.5 中进一步详细分析了这种现象,并提出了改进 RCF 技术的潜在方向
不同STD技术的比较
所提出的 RCF 技术本质上是一种更强大的 STD 方法。与从有限回溯窗口分解周期性(季节性)分量的现有方法不同,RCF 从训练集中学习全局周期性分量。在这里,本文使用纯线性模型作为主干(不应用任何实例归一化策略),将 RCF 与现有 STD 技术的有效性进行比较。比较包括来自 Leddam的 LD、来自 DLinear 的 MOV 和来自 SparseTSF 的稀疏技术。如表 下表所示,RCF 显着优于其他 STD 方法,特别是在具有强周期性的数据集上,例如电力和太阳能。相比之下,其他 STD 方法并没有表现出比纯线性模型显着的优势。
这有几个原因。首先,基于MOV和LD的STD方法通过在回溯窗口内滑动聚合来实现趋势估计,这存在固有的问题:
(i)移动平均的滑动窗口需要大于最大值季节性成分的周期;否则,分解可能不完整(特别是当周期长度超过回溯序列长度时,可能导致分解不可能)。
(ii)在序列样本的边缘需要进行补零以获得同等大小的移动平均序列,导致序列边缘失真。至于稀疏技术,作为一种轻量级的分解方法,它更多地依赖于较长的回溯窗口和实例归一化策略来保证足够的性能。
此外,这些在回溯窗口内解耦趋势和季节性的方法本质上等同于无约束或弱约束线性回归,这意味着在完全训练收敛后,与这些方法相结合的基于线性的模型理论上等同于纯线性回归。线性模型。相比之下,RCF技术获得的周期分量是从训练集中全局估计的,使其超越了有限长度回溯窗口的限制,因此,其能力超出了标准线性回归
超参数W的影响
超参数 W 决定了 RCF 技术中可学习循环 Q 的长度。原则上,它必须匹配数据中的最大主周期长度,才能正确建模序列的周期性模式。本文在表 6 中研究了不同数据集在不同 W 设置下的 CycleNet/Linear 模型的性能。当将超参数 W 正确设置为数据集的最大周期长度(即表 1 中预先推断的周期长度)时, RCF 可以发挥重要作用,与未正确设置的情况相比,会产生很大的性能差距。这表明有必要推断和设置正确的 W 以使 RCF 正常运行。此外,当W设置不正确时,模型的性能几乎与根本不使用RCF时相同。这表明即使在最坏的情况下,RCF也不会带来显着的负面影响
学习到的周期性模式的可视化
RCF 技术的目的是利用可学习的循环周期 Q(初始化为零)对时间序列数据中的周期性模式进行建模。与主干网络共同训练后,循环可以代表序列的固有周期性模式。图 4 说明了从不同数据集和通道中学习到的不同周期性模式。例如,图4(c)显示了太阳能光伏发电的每日运行模式,而图4(d)显示了交通流量的每周运行模式,以工作日的早上为高峰。从全局序列中学习到的这些周期性模式为预测模型提供了重要的补充信息,特别是当回溯窗口的长度有限并且当循环长度很长时可能无法提供足够的循环信息。
此外,尽管同一数据集中不同通道的周期长度相同,但具体的周期模式不同,如图 4(e-h) 所示。特别是,图4(f)显示了工作日家庭用电量的间歇性周期性,而其他人则在各自的渠道中表现出相对均匀的工作日模式。这凸显了对每个通道的周期模式单独建模的必要性。
不同回溯长度的性能
回顾长度决定了可以利用的历史信息的丰富程度。理论上,它越大,模型性能应该越好,特别是对于能够捕获长期依赖关系的模型。图5显示了不同模型在不同回溯长度下的性能。可以看出,CycleNet 以及当前最先进模型的代表,如 iTransformer 、PatchTST 和 DLinear ,都通过更长的回溯长度实现了更好的性能。这表明这些模型都具备强大的长期依赖建模能力。
值得强调的是(i)在电力数据集上,CycleNet 在任何预测长度上都优于当前最先进的模型;(ii) 在交通数据集上,与 iTransformer 等强大的现有多元预测模型相比,CycleNet 仍然存在不足。这表明,在周期性较强但没有额外时空关系的场景下,充分利用周期性成分足以实现高精度预测。然而,在需要对变量之间的关系进行彻底建模的更复杂场景中,简单的独立于通道的策略与基本主干相结合(例如 CycleNet)仍然难以完全满足需求。因此,在附录C.5中,本文进一步分析了当前RCF技术在时空场景(例如流量域)中的局限性,并指出未来改进的潜在方向。最后,本文还在附录中使用更长的回顾窗口对 CycleNet 与现有模型在完整数据集上的比较进行了比较
5 Discussion
潜在局限性 CycleNet 在以突出且明确的周期性模式为特征的 LTSF 场景中展示了其功效。然而,CycleNet 有几个潜在的局限性值得在此讨论:
• 周期长度不稳定:CycleNet 可能不适合周期长度(或频率)随时间变化的数据集,例如心电图 (ECG) 数据,因为 CycleNet 只能学习固定长度的循环。
• 不同通道的周期长度:当数据集中的不同通道表现出不同长度的周期时,CycleNet 可能会遇到挑战,因为它默认对具有相同周期长度 W 的所有通道进行建模。鉴于 CycleNet 的通道独立建模策略,一种潜在的解决方案是根据周期长度分割数据集来预处理数据集,或者将每个通道独立建模为单独的数据集。
• 异常值的影响:如果数据集包含显着的异常值,CycleNet 的性能可能会受到影响。这是因为RCF的基本工作原理是学习数据集中的历史平均周期。当存在显着的异常值时,RCF 学习到的循环中某个点的平均值可能会被夸大,导致周期性分量和残差分量的估计不准确,从而影响预测过程。
• 长期周期建模:RCF 技术对于中期稳定周期(例如每日或每周)建模非常有效。然而,考虑更长的依赖性(例如每年的周期)给 RCF 技术带来了更具挑战性的任务。虽然理论上CycleNet的W可以设置为年周期长度来建模年周期,但最大的困难在于收集足够长的历史数据来训练完整的年周期,这可能需要数十年的数据。在这种情况下,未来的研究需要开发更先进的技术来专门解决长程循环建模。
未来工作:进一步建模通道间关系 RCF 技术增强了模型对时间序列数据周期性建模的能力,但没有明确考虑多个变量之间的关系。在一些变量之间存在空间和时间依赖性的时空场景中,这些关系至关重要。例如,iTransformer 和 SOFTS 等最近的研究表明,适当地建模通道间关系可以提高流量场景中的性能。然而,直接将 RCF 技术应用于 iTransformer 并不会带来显着的改进(至少对于 MSE 指标而言),如表 4 所示。本文相信,设计一种结合 CycleNet 的更合理的多元建模方法可能是有前景和有价值的,并且本文将其留待未来探索。
6 Conclusion
本文揭示了时间序列数据中固有周期性模式的存在,并开创了对这种周期性进行显式建模以提高时间序列预测模型性能的探索。从技术上讲,本文提出了残余循环预测(RCF)技术,该技术通过循环对序列中的共享周期模式进行建模,并通过主干预测残余循环分量。此外,本文还介绍了简单而强大的 LTSF 方法 CycleNet/Linear 和 CycleNet/MLP,它们分别将单层 Linear 和双层 MLP 与 RCF 技术结合起来。大量的实验证明了 RCF 技术的有效性,而 CycleNet 作为一种新颖而简单的方法,取得了最先进的结果,并具有显着的效率优势。本文的研究结果强调了周期性作为准确时间序列预测的关键特征的重要性,在建模过程中应给予更多重视。最后,将 CycleNet 与有效的渠道间关系建模方法相结合是一个有前途且有价值的未来研究方向。