【论文荐读】Informer:超越Transformer的长序列时间序列预测方法

文摘   科技   2023-04-13 10:51   江苏  


标题:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

来源:35th AAAI Conference on Artificial Intelligence, AAAI 2021
作者:Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai Zhang, Jianxin Li, Hui Xiong, Wancai Zhang
单位: Beihang University; UC Berkeley; Rutgers University; SEDD Company
1、主要解决问题:
许多现实世界的应用需要长序列时间序列的预测,例如电力消耗规划预测。长序列时间序列预测(LSTF)要求模型具有较高的预测能力,即能够准确地捕捉输出与输入之间的长期依赖关系。近年来的研究表明,Transformer具有提高预测能力的潜力。然而,Transformer存在几个严重的问题,使其不能直接适用于LSTF,包括二次时间复杂度、高内存使用量和编码器-解码器体系结构固有的局限性。为了解决这些问题,论文为LSTF设计了一种高效的基于Transformer的模型,名为Informer,该模型具有三个显著特征:

(1)基于概率稀疏的自注意机制,在时间复杂度和内存使用方面实现了O(L log L),在序列依赖对齐方面具有相当的性能。

(2)自我注意提取通过将级联层输入减半来突出主导注意,并有效地处理极长的输入序列。

(3)生成式解码器虽然概念简单,但对长时间序列序列进行一次正向操作而不是一步一步地进行预测,大大提高了长序列预测的推理速度。

在4个大规模数据集上的大量实验表明,Informer方法显著优于现有方法,为LSTF问题提供了一种新的解决方案。

2、研究方法:

现有的时间序列预测方法大致可以分为两类。经典时间序列模型是时间序列预测的可靠工具、深度学习技术主要通过使用RNN及其变体来开发编码器-解码器预测范式。我们提出的Informer主要针对LSTF问题。Informer架构如图1所示:

图1 Informer模型架构

Informer模型在传统Transformer基础上做了以下改进:

1、用ProbSparse Self-attention(稀疏性自注意机制) 代替了Self-attention;

2、Self-attention Distilling(自我注意提取),减少维度和网络参数量;

3、Generative style(生成式解码器)预测目标部分,一步生成预测,而不是Step-by-step动态解码。

稀疏性自注意机制:

在传统的Transformer注意力机制,引入了注意力概率矩阵,稀疏性注意力机制。传统Self-attention平方级的计算复杂度是其预测能力的主要缺点。通过研究发现,Self-attention得分其实是长尾分布的。经过研究发现,只有少数点积对对主要注意力有贡献,其他点积对可以忽略。作者将其可视化图2所示:

图2 点积矩阵热力图

作者认为Lazy Query 接近于均匀分布,因此提出计算所有的Query向量分布与均匀分布之间的K-L散度。距离均匀分布越远的Query被认为是Active Query。

自我注意提取:

由于Encoder采用多层网络堆叠的形式,故对计算机内存要求较高。因此作者在层和层之间加入了Distilling操作,如图1蓝色梯形所示。对输入序列进行降维处理,降维过程如图3所示。进一步减少维度和网络参数量。

图3 Informer编码器中的单个堆栈

生成式解码器:

传统的Transformer采用的是Step-by-step动态解码,这种比较适合短时预测,如果预测较长时间段的开销是非常大。而Informer 提出了一种一步到位的预测。如图1 Decoder所示,Informer不同于Transformer的是Decoder的输入序列不仅仅是预测值,而是在预测值的基础上加入了已知数据,来协助预测值进行预测。Decoder的最后一个部分是过一个linear layer将decoder的输出扩展到与vocabulary size一样的维度上。经过softmax后,选择概率最高的一个作为预测结果。

在此理论基础上,作者分别用四个不同的数据集分别对单一变量、多变量、不同的时间粒度下的时间序列进行预测。单一变量实验结果见表1所示。数据集分别是ETT(Electricity Transformer Temperature)北航自己收集的电力变压器运行数据,根据1h粒度和15min的粒度构建了两个数据集、ECL(Electricity Consuming Load)我国两年的用电负荷数据、Weather天气数据,包括美国1600个点数据,每隔1h采样一个点,共计四年。Baselines分别是ARIMA、DeepAR、Prophet、LSTM、Reformer、vanilla Transformer等。模型评价性能指标采用MAE、MSE两种评价指标。经过实验发现Informer方法均取得了比较好的效果。

表1:四个数据集(五个案例)上的单变量长序列预测结果

4、结论:

本文研究了长序列时间序列预测问题,并提出Informer来预测长序列。设计了ProbeSparse自注意机制和提取操作,以应对Transformer中二次时间复杂性和二次内存使用的挑战。此外,设计的生成解码器缓解了传统编码器-解码器架构的限制。在真实世界数据上的实验证明了Informer在提高长序列时间序列问题的预测能力方面的有效性。



智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章