[论文分享]ICLR 2024 ModernTCN:用于通用时间序列分析的现代纯卷积结构

文摘   2024-09-11 21:39   广东  
标题ModernTCN: a Modern Pure Convolution Structure for General Time Series Analysis
作者Donghao Luo; Xue Wang
机构Tsinghua University
邮箱ldh21@mails.tsinghua.edu.cn
论文https://openreview.net/forum?id=vpJMJerXHU#

1 摘要

近年来,基于 Transformer 和 MLP 的模型迅速崛起,并在时间序列分析中占据主导地位。相比之下,卷积现在由于性能较差而在时间序列任务中失去动力。本文研究了如何在时间序列分析中更好地使用卷积这一悬而未决的问题,并努力将卷积带回时间序列分析的舞台。为此,我们对传统的TCN进行现代化改造,并进行时间序列相关的修改,使其更适合时间序列任务。 作为结果,我们提出了 ModernTCN,并通过时间序列社区中很少探索的方式成功解决了这个悬而未决的问题。作为纯卷积结构,ModernTCN 在五个主流时间序列分析任务上仍然实现了一致的 state-of-the-art 性能,同时保持了基于卷积的模型的效率优势,因此提供了比 state-of 更好的效率和性能平衡 -最先进的基于 Transformer 和 MLP 的模型。我们的研究进一步表明,与之前基于卷积的模型相比,我们的 ModernTCN 具有更大的有效感受野(ERF),因此可以更好地释放卷积在时间序列分析中的潜力。代码可在此存储库中找到:https://github.com/luodhhh/ModernTCN

2 介绍

时间序列分析广泛应用于工业预测、缺失值插补、动作识别和异常检测等领域。由于其巨大的实用价值,过去几年见证了时间序列分析的快速发展。其中,基于 Transformer 的方法和基于 MLP 的模型的兴起尤其引人注目。但大约在同一时间,基于卷积的模型长期以来受到的关注较少。

在时间序列分析中使用卷积并非易事,因为它提供了效率和性能的更好平衡。早在 2010 年代,TCN 及其变体就被广泛应用于许多时间序列任务中。但到了 2020 年代,情况发生了变化。近年来,基于 Transformer 的模型和基于 MLP 的模型迅速兴起并取得了令人印象深刻的性能。由于其全局有效感受野(ERF),它们可以更好地捕获长期时间(跨时间)依赖性,从而显着优于传统 TCN。结果,基于卷积的模型由于其有限的 ERF 而正在失去动力。

之前的一些基于卷积的模型试图将卷积带回时间序列分析的领域。但他们主要关注于设计额外复杂的结构来与传统卷积一起工作,而忽略了更新卷积本身的重要性。而且它们仍然无法达到与最先进的基于 Transformer 和基于 MLP 的模型相当的性能。其背后的原因可以通过图 1 来解释。增加 ERF 是将卷积带回时间序列分析的关键。

但之前基于卷积的模型ERF 仍然有限,这阻碍了它们进一步的性能改进。如何在时间序列分析中更好地使用卷积仍然是一个不平凡且悬而未决的问题。

作为卷积广泛应用的另一个领域,计算机视觉(CV)采取了截然不同的路径来探索卷积。与时间序列领域的最新研究不同,CV 领域的最新研究侧重于优化卷积本身并提出现代卷积。现代卷积是受 Transformer 启发的一种新的卷积范式。具体来说,现代卷积块结合了 Transformer 中的一些架构设计,因此具有与 Transformer 块类似的结构。

同时,为了赶上 Transformer 中的全局 ERF,现代卷积通常采用大内核,因为它可以有效提高 ERF(图 1)。尽管现代卷积的有效性已经在 CV 中得到了证明,但它仍然很少受到时间序列社区的关注。基于以上发现,我们打算首先对时间序列分析中的卷积进行现代化改造,看看它是否可以增加ERF并带来性能提升。

此外,卷积也是捕获跨变量依赖性的潜在有效方法。跨变量依赖是时间序列中除了跨时间依赖之外的另一种关键依赖。它是指多元时间序列中变量之间的依赖关系。早期的研究(Lai et al., 2018b)已经尝试使用可变维度的卷积来捕获跨变量依赖性。尽管它的性能现在没有那么有竞争力,但它仍然证明了卷积在捕获交叉变量依赖性方面的可行性。因此,有理由相信,经过适当的修改和优化,卷积可以成为一种高效且有效的捕获跨变量依赖关系的方法。

基于上述动机,我们采取了时间序列界很少探索的方法,成功地将基于卷积的模型带回到时间序列分析中。具体来说,我们对传统的TCN进行现代化改造,并进行一些时间序列相关的修改,使其更适合时间序列任务。作为结果,我们提出了一种现代纯卷积结构,即 ModernTCN,以有效利用跨时间和跨变量依赖性进行一般时间序列分析。我们在五个主流分析任务上评估 ModernTCN,包括长期和短期预测、插补、分类和异常检测。令人惊讶的是,作为一个纯粹的基于卷积的模型,ModernTCN 在这些任务上仍然实现了一致的最先进的性能。同时,ModernTCN还保持了基于卷积的模型的效率优势,从而提供了效率和性能的更好平衡。我们的贡献如下:

  • 我们深入研究了如何更好地利用卷积在时间序列中的问题,并提出了一种新的解决方案。实验结果表明所提方法在时间序列分析中比现有的基于卷积的模型更能发挥卷积的潜力。
  • ModernTCN在多个主流时间序列分析任务上实现了一致的最新性能,展现了出色的任务泛化能力。
  • ModernTCN提供了效率和性能的更好平衡。它保持了基于卷积的模型的效率优势,同时在性能方面与最先进的基于Transformer的模型竞争,甚至更好。

3 ModernTCN

3.1 Modernize the 1D Covolution Block

论文将1D卷积按照现代卷积方法进行改进:利用DWConv块来挖掘时间依赖,利用ConvFFN来发现新的特征表示。但是如果只是简单地使用现代卷积方法来进行TSA任务,并没有任何的性能提升。**因为没有考虑到变量维度(varibale dimension)**,具体的改进方法见3.2。

3.2 Time Series Related Modifications

保持变量维度(Maintaining the variable dimension):

在 CV 中,在backbone之前,我们将每个像素的 3 通道 RGB 特征嵌入到 D 维向量中,以通过嵌入层混合来自 RGB 通道的信息。但类似的变量混合嵌入(例如,每个时间步简单地将 M 个变量嵌入到 D 维向量中)并不适合时间序列。首先,时间序列中变量之间的差异远大于图片中 RGB 通道之间的差异(Cirstea et al., 2022)。仅嵌入层无法学习变量之间复杂的依赖关系,甚至由于没有考虑变量的不同行为而失去变量的独立特征。其次,这种嵌入设计导致变量维度的丢弃,使得无法进一步研究跨变量的依赖关系。丢弃了变量维度,使得无法进一步研究跨变量的依赖关系。

针对上诉两个缺点,论文提出variable-independent embedding。对于输入为(分别代表变量个数和时间步)。我们先对其扩充一个变量维度:->,再对其时间维度进行填补并使用不重叠patching(实际上就是下采样操作,提取局部特征):->;最后对变量维度进行嵌入:->

Depthwise Convolution

DWConv 最初是为学习时间信息而设计的。由于仅通过 DWConv 联合学习跨时间和跨变量的依赖关系更加困难,因此让 DWConv 也负责跨变量维度的信息混合是不合适的。因此,我们将原始的DWConv从仅特征独立修改为特征和变量独立,使其独立学习每个单变量时间序列的时间依赖性。我们在DWConv中采用大内核来增加ERF并提高时间建模能力。

ConvFFN:

由于 DWConv 与特征和变量无关,因此 ConvFFN 应混合特征和变量维度的信息作为补充。一种简单的方法是通过单个 ConvFFN 共同学习特征和变量之间的依赖关系。但这种方法导致计算复杂度较高,性能较差。因此,我们通过用分组的PWConv替换PWConv并设置不同的组编号,将单个ConvFFN进一步解耦为ConvFFN1和ConvFFN2。ConvFFN1 负责学习每个变量的新特征表示,ConvFFN2 负责捕获每个特征的跨变量依赖性。

3.3 整体架构

经过嵌入后,我们将输入到Backbone中,得到输出:

Backbone(·)是堆叠的ModernTCN块,每一个Modern TCN块是由残差连接构成:

其中, :

最后的输出为会用于后续的下流任务。

4 实验

我们在五个主流分析任务上评估 ModernTCN,包括长期和短期预测、插补、分类和异常检测,以验证 ModernTCN 的通用性。基线由于我们试图提出一个时间序列分析的基础模型,因此我们广泛采用时间序列社区中最新和先进的模型作为基本基线,其中包括基于 Transformer 的模型:PatchTST (2023)、Crossformer (2023) 和 FEDformer ( 2022);基于 MLP 的模型:MTS-Mixer (2023b)、LightTS (2022)、DLinear (2022)、RLinear 和 RMLP (2023a);基于卷积的模型:TimesNet (2023)、MICN (2023) 和 SCINet (2022a)。我们还在每个特定任务中包含最先进的模型,作为全面比较的额外基线。主要结果 如图 3 所示,ModernTCN 在 5 个主流分析任务上以更高的效率实现了一致的最先进的性能。关于实验结果的详细讨论见 5.1 节。我们在以下小节中提供每个任务的实验细节和结果。在每个表中,最佳结果以粗体显示,次佳结果以下划线显示。

5 总结与未来工作

在本文中,我们采用时间序列界很少探索的方法来解决如何在时间序列分析中更好地使用卷积的问题。通过对传统 TCN 模块进行现代化和与时间序列相关的修改,我们提出了 ModernTCN 并成功地将卷积带回时间序列分析的舞台。实验结果表明ModernTCN具有良好的任务通用性。ModernTCN 在性能方面与最先进的基于 Transformer 的模型相当或更好,同时保持了基于卷积的模型的效率优势,从而提供了性能和效率的更好平衡。由于基于卷积的模型长期以来在时间序列分析中受到的关注较少,我们希望本研究报告的新结果能为时间序列界带来一些新鲜的视角,并促使人们重新思考卷积在时间序列分析中的重要性 。


EvoIGroup
Evolutionary Intelligence (EvoI) Group。主要介绍进化智能在网络科学,机器学习,优化和实际(工业)应用上的研究进展。欢迎投稿推文等。联系方式:evoIgroup@163.com。
 最新文章