[论文分享]ICLR 2023 MICN：用于长时间序列预测的多尺度局部和全局上下文建模

文摘 2024-08-27 19:04 广东

标题	MICN: Multi-scale Local and Global Context Modeling for Long-term Series Forecasting
作者	Huiqiang Wang; Jian Peng; Feihu Huang; Jince Wang; Junhui Chen; Yifei Xiao
机构	Sichuan University;University of Electronic Science and Technology of China
邮箱	wanghuiqiang@stu.scu.edu.cn;
论文	https://openreview.net/pdf?id=zt53IDUR1U

1 摘要

最近，基于 Transformer 的方法在长期序列预测领域取得了令人惊讶的性能，但计算全局相关性的注意力机制需要很高的复杂性。而且它们不允许像 CNN 结构那样对局部特征进行有针对性的建模。为了解决上述问题，我们建议结合局部特征和全局相关性来捕获时间序列的整体视图（例如波动、趋势）。为了充分利用时间序列中的底层信息，采用多尺度分支结构来分别对不同的潜在模式进行建模。每个模式均通过下采样卷积和等距卷积分别提取局部特征和全局相关性。除了更有效之外，我们提出的方法，称为多尺度等距卷积网络（MICN），在具有合适的卷积核的序列长度的线性复杂度上更有效。我们对六个基准数据集的实验表明，与最先进的方法相比，MICN 对多变量和单变量时间序列分别产生了 17.2% 和 21.6% 的相对改进。

2 介绍

与时间序列预测相关的研究在现实世界中得到了广泛的应用，例如传感器网络监测、天气预报、经济和金融以及疾病传播分析和电力预测。特别是，现实中对长期时间序列预测的需求越来越大。因此，本文重点关注长期预测的任务。

作为经典的基于 CNN 的模型，TCN使用因果卷积来建模时间因果关系，并使用扩张卷积来扩展感受野。它可以更好地整合序列的局部信息，并在中短期预测中取得有竞争力的结果。然而，受感受野大小的限制，TCN往往需要很多层来对时间序列的全局关系进行建模，这大大增加了网络的复杂性和模型的训练难度。

基于注意力机制的 Transformers 在序列数据上显示出强大的威力，例如自然语言处理、音频处理甚至计算机视觉。它最近也被应用于长期序列预测任务，并且可以有效地对序列的长期依赖性进行建模，从而在准确性和长度上实现跨越式发展时间序列预测。学习到的注意力矩阵代表了序列不同时间点之间的相关性，可以相对较好地解释模型如何根据过去的信息做出未来的预测。然而，它具有二次复杂度，并且许多计算token对之间的信息不是必需的，因此降低其计算复杂度也是一个有趣的研究方向。

然而，时间序列作为一种特殊的序列，迄今为止还没有形成统一的建模方向。在本文中，我们将 CNN 的建模视角与 Transformer 的建模视角相结合，根据序列本身的真实特征（即局部特征和全局相关性）构建模型。局部特征表示序列在小周期内的特征，全局相关性是多个周期之间表现出的相关性。例如，某一时刻的温度不仅受一天中特定变化的影响，还可能与一段时期（例如周、月等）的总体趋势相关。通过了解某个时间点的整体特征以及之前多个时间点之间的相关性，我们可以更准确地识别该时间点的价值。因此，一个好的预测方法应该具备以下两个特性：（1）能够提取局部特征来衡量短期变化。(2) 能够对全球相关性进行建模以衡量长期趋势。

基于此，我们提出了多尺度等距卷积网络（MICN）。我们使用不同卷积核的多个分支分别对序列的不同潜在模式信息进行建模。对于每个分支，我们使用基于下采样卷积的局部模块提取序列的局部特征，在此之上，我们使用基于等距卷积的全局模块对全局相关性进行建模。最后，采用合并操作来融合来自多个分支的不同模式的信息。这种设计将时间和空间复杂度降低到线性，消除了许多不必要和冗余的计算。MICN 在五个现实世界基准上实现了最先进的准确性。贡献总结如下：

提出的MICN能有效替代self attention,实现线性计算复杂度和空间消耗。
验证了在输入数据复杂多变的情况下对单一时间模式单独建模的必要性和有效性。
提出了一种局部-全局结构来实现时间序列的信息聚合和长期依赖建模，其性能优于自注意族和自相关机制。
与SOTA模型相比，在多变量预测任务，模型提高了17.2%的性能；在单变量预测任务，模型提高了21.6%的性能。

3 模型

3.1 MICN框架

MICN的整体结构如图1所示。长时间序列预测任务是根据过去长度为I的序列来预测未来长度为的序列，可以表示为，其中比大得多。受到传统时间序列分解算法的启发，我们设计了一个多尺度混合分解 (MHDecomp) 块来分离输入序列的复杂模式。然后我们使用季节预测块来预测季节信息，使用趋势周期预测块来预测趋势周期信息。然后将预测结果相加得到最终的预测。我们将作为多元时间序列中的变量数量，将作为该序列的隐藏状态。详细信息将在以下部分中给出。

3.2 MULTI-SCALE HYBRID DECOMPOSITION

我们设计了一个多尺度混合分解块，它使用的多个不同内核，并且可以有目的地分离趋势循环和季节性部分的几种不同模式。与 FEDformer 的 MOEDecomp 模块不同，我们使用简单的均值运算来整合这些不同的模式，因为我们无法在学习每个模式的特征之前确定其权重。相应地，我们将此加权操作放在季节性预测块的合并部分中，位于特征表示之后。

3.3 TREND-CYCLICAL PREDICTION BLOCK

目前，Autoformer将原始序列的平均值连接起来，然后将其与从内部序列分解块获得的趋势循环部分相加。但对此没有任何解释，也没有证据证明其有效性。在本文中，我们使用简单的线性回归策略对趋势周期进行预测，证明趋势周期的简单建模对于非平稳序列预测任务也是必要的。具体来说，对于使用 MHDecomp 块获得的趋势循环序列，过程为：

其中表示使用线性回归对趋势部分的预测策略。

3.4 SEASONAL PREDICTION BLOCK

如图 2 所示，季节性预测模块专注于更复杂的季节性部分建模。嵌入输入序列 Xs 后，我们采用多尺度等距卷积来捕获局部特征和全局相关性，不同尺度的分支对时间序列的不同底层模式进行建模。然后我们将不同分支的结果进行合并，完成序列的综合信息利用。可以概括如下：

其中表示用零填充的占位符，表示 Xs 的嵌入表示。表示第 l − 个多尺度等距的输出卷积（MIC）层，表示经过线性函数投影和截断操作后季节部分的最终预测。下面对Embedding和MIC进行详细描述。

Embedding:

最新的基于 Transformer 的模型的解码器，例如 Informer 、Autoformer 和 FEDformer 包含编码器输入的后半部分，其中长度和长度的占位符由标量填充，这可能会导致冗余计算。为了避免这个问题并适应预测长度，我们用更简单的互补 0 策略替换传统的编码器-解码器样式输入。同时，我们遵循FEDformer的设置，采用三部分来嵌入输入。过程为：

表示时间特征编码（例如，MinuteOfHour、HourOfDay、DayOfWeek、DayOfMonth 和 MonthOfYear），表示位置编码，表示值嵌入。

Multi-scale isometric Convolution(MIC) Layer:

MIC层包含多个分支，每个分支使用不同尺度来建模潜在的不同时间模式。每个分支都包含了Local-Global模块，如下图所示：

首先，我们先进行局部特征提取：

这里的平均池化作用是获得对应的单个模式。，在Conv1D中，，目的是把序列下采样到原来的下采样卷积后的序列代表压缩的局部特征。

接下来利用局部特征来建模全局相关性：

IsometricConv实际上就是个的一维卷积。论文认为一维卷积的参数是由全部数据训练得到，能够引入全局时间归纳偏差（平移方差等），相对于传统的点积自注意力有更好的泛化效果(相关性又不同元素点积而得)。论文做了利用masked-self attention来替换IsometricConv的消融实验，实验结果表明在短序列情况下（序列长度为96 192 336 720）,IsometricConv优于masked-self attention。

当建模完全局相关性后，使用转置卷积来对序列进行上采样：

最后，我们对不同分支的进行merge和前向后，得到该MIC layer的输出：

4 实验

对于多元长期序列预测，MICN 在所有基准和所有预测长度设置中都实现了最先进的性能（表 1）。与之前的最佳模型 FEDformer 相比，MICN 的平均 MSE 降低了 17.2%。特别是，在设置下，MICN 使 ETTm2 相对 MSE 减少 12%，电力相对 MSE 减少 14%，交易所相对 MSE 减少 31%，流量相对 MSE 减少 12%，相对 MSE 减少 26% 天气中的 MSE 降低，ILI 中的 MSE 相对降低 17%，在此设置中平均 MSE 降低 18.6%。我们还可以发现，随着预测的增加，MICN 不断改进，显示出其在长期时间序列预测方面的竞争力。请注意，MICN 仍然提供了显着的改进，在没有明显周期性的 Exchange 数据集中平均 MSE 降低了 51%。综上所述，MICN能够很好地应对现实应用中的各种时间序列预测任务。附录 A.3 中提供了有关其他 ETT 基准的更多结果。

我们还在表 2 中显示了单变量时间序列预测结果。值得注意的是，与 FEDformer 相比，MICN 的平均 MSE 降低了 21.6%。特别是对于天气数据集，MICN 在预测 96 设置下给出了 53% 的相对 MSE 降低，在预测 192 设置下相对 MSE 降低了 75%，在预测 336 设置下相对 MSE 降低了 44%，在预测 336 设置下相对 MSE 降低了 56% 在预测 720 设置下。再次验证了更强的时间序列预测能力。

5 总结

本文提出了一种基于卷积的MICN框架，分别对趋势循环部分和季节性部分进行预测。它实现了复杂性，并在广泛的现实数据集中产生一致的最先进性能。在季节预测块中，我们使用不同的尺度来挖掘序列中潜在的不同模式，每个模式都是从局部和全局角度建模的，这是通过不同的卷积运算实现的。所提出的等距卷积在捕获短序列的全局相关性方面优于自注意力。大量的实验进一步证明了我们的建模方法对于长期预测任务的有效性。

http://mp.weixin.qq.com/s?__biz=MzkxODQ0MTQzMg==&mid=2247489585&idx=1&sn=5ef279e92c33cd12e84b5984a690b532

EvoIGroup

Evolutionary Intelligence (EvoI) Group。主要介绍进化智能在网络科学，机器学习，优化和实际（工业）应用上的研究进展。欢迎投稿推文等。联系方式：evoIgroup@163.com。

最新文章

ICLR2025与演化计算

[论文分享]NeurIPS 2024 用于时间序列预测的检索增强扩散模型

本周进化领域文章更新

[论文分享] ICML 2024 一种解决无监督组合优化中普遍条件：基数约束、最小值、覆盖等的方法

[论文分享]NIPS 2024 CycleNet：通过对周期性模式建模增强时间序列预测

[论文分享]NeurIPS 2024 TIME-FFM：面向基于语言模型的联邦基础模型的时间序列预测

本周进化领域文章更新

[论文分享]IEEE TEVC 2023 穷尽式符号回归

[论文分享]NeurIPS 2023 ICPI：语言模型可以实现强化学习领域内的策略迭代

本周进化领域文章更新

[论文分享]IEEE TEVC 2024 基于自回归学习的自动化元启发式算法设计

[论文分享]NIPS 2024 Oral ChaosBench：多通道、基于物理的次季节-季节气候预测benchmark

[论文分享]ICCAD 2024 基于边的可微分OPC

本周进化领域文章更新

[论文分享]ICML 2024 Leddam: 具有序列间依赖性和序列内变化建模的可学习时间序列分解

[论文分享]Arxiv速递 TSI-Bench: 时间序列填补基准测试

[项目成果]PySDKit：信号分解算法的Python库

[论文分享]Arxiv 2024 Quiet-STaR: 语言模型可以学会先思考后回答

遗传算法的应用（来自2024诺贝尔化学奖得主David Baker）

本周进化领域文章更新

[成果分享]刘静教授团队研究成果入选机器学习顶级会议NeurIPS 2024

[论文分享]ICLR 2024 SNIP:桥接数学符号和数字领域与统一的预训练

[论文分享]TEVC 2024 一种多样性增强的三阶段框架用于约束多目标优化

本周进化领域文章更新

[论文分享]Arxiv 2024 PhaseEvo: 迈向统一的大型语言模型上下文提示优化

本周进化领域文章更新

[论文分享]ICLR 2024 ModernTCN：用于通用时间序列分析的现代纯卷积结构

[论文分享] ICML 2024 MVMoE: 基于混合专家模型的多任务车辆路径规划求解器

本周进化领域文章更新

[论文分享]ICML 2024 Timer：生成式预训练Transformer是大型时间序列模型

[论文分享]NeurIPS 2022 STaR：语言模型使用推理引导推理

[论文分享]ICLR 2024 DYVAL：大语言模型在推理任务中的动态评估

本周进化领域文章更新

[论文分享]Arxiv速递用于高效探索性景观分析的希尔伯特曲线邻域采样

[论文分享]ICLR 2023 MICN：用于长时间序列预测的多尺度局部和全局上下文建模

Nature正刊（演化深度持续学习）Loss of plasticity in deep continual learning

本周进化领域文章更新

[论文分享]AAAI 2024 高维偏微分方程解的可解释方法

[论文分享]ICML 2024 长期时间序列预测的损失整形约束

[论文分享]GECCO 2024 深度神经交叉：一种利用基因相关性的多亲本算子

本周进化领域文章更新

[论文分享] NeurIPS 2020 POMO：用于强化学习的多优化策略优化

[论文分享]Arxiv 2023 使用AlphaZero式的树形搜索指导LLM推理

本周进化领域文章更新

[论文分享]ESWA 2023 SAITS：基于自注意力的时间序列插补

WCCI2024最佳论文！

GECCO2024最佳论文出炉！

[论文分享]Arxiv2024 针对图神经网络后门攻击的鲁棒性启发防御

[论文分享] ICLR 2022 用于分布漂移时间序列准确预测的可逆实例标准化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉