【论文荐读】时间序列预测:一种具有概率分解表示的分层Transformer

文摘   科技   2024-05-09 10:00   江苏  


标题: Enhancing time series forecasting: A hierarchical transformer with probabilistic decomposition representation

期刊: Information Science, 647:119410, 2024.

作者: Junlong Tong, Liping Xie, Wankou Yang, Kanjian Zhang, Junsheng Zhao

单位: School of Automation, Southeast University; Key Laboratory of Measurement and Control of Complex Systems of Engineering, Ministry of Education; School of Mathematical Sciences, Liaocheng University; Zhengzhou Xinda Institute of Advanced Technology.

1、研究背景:

时间序列预测对于灾害预警、天气预报、能源消费等领域至关重要。基于Transformer模型算法的出现极大地提高了时间序列预测的准确性和效率,尤其是在处理长期依赖关系和大规模数据方面表现出色。然而,Transformer的自回归形式会在推断阶段产生累积误差,并且数据随时间推移所表现出来的多样化和复杂的行为特征会导致模型在挖掘可靠时间依赖性方面的难度增加。

近年来,关于时间序列分析和预测方法的研究有很多,大致可以分为经典统计学方法和机器学习预测方法。基于统计的方法很容易处理平稳的时间序列。然而,这些方法无法捕捉协变量与目标序列之间的关系,限制了预测复杂时间序列的有效性

2、论文创新点:

为了解决上述问题,本文提出了一个框架来结合Transformer架构和条件生成模型的优势,用于分层和可分解的概率预测,即Probabilistic Decomposition Transformer(PDTrans)

(1)提出了具有概率分解表示的分层Transformer,该模型结合了Transformer和条件生成模型,用于时间序列的分层和可分解概率预测。

(2)分层机制通过条件生成模型添加序列约束,可以有效降低自回归概率预测过程的累积误差。

(3)提出的概率分解机制目的是为季节性趋势表示而设计,通过结合历史数据和预测数据在潜在空间中实现复杂时间模式的分离,并提供可解释的预测结果

3、研究方法:

在本文中,作者提出的PDTrans模型,该网络结构图如下。该模型是一个典型的分层架构,基于两个重要的模块:Transformer和条件生成模型。
A. Transformer模型

本文利用Transformer处理自回归概率预测问题,相较于RNN,其自注意力机制能够同时计算任意两个时间点之间的注意力分数,显著提升了模型对长期依赖关系的捕捉能力,并优化了并行处理性能。为防止信息泄露,本模型在解码器中加入了掩盖机制以屏蔽未来信息。整体上,该模型采用以自注意力为核心的编码器-解码器结构,有效捕捉长期依赖关系并关注关键模式,进而提升了模型的拟合性能。

在结构设计上,编码器接收历史序列及协变量的线性投影作为输入,其中线性投影用于生成可学习的嵌入,而位置信息则通过在嵌入层输出中添加位置编码(PE)来引入。在本文中,作者借助多层感知器(MLP),用于对解码器输出进行仿射变换。

解码器采用自回归方式输出每个时间点的似然函数参数,等价于对条件概率分布的近似。

在训练阶段,历史序列和预测序列被同时送入模型中,并通过掩码机制实现并行预测。在推理阶段,由于缺少真实值,需要将预测结果反馈给Transformer,以便连续进行序列预测。

B. 条件生成模型

为了减轻累积误差的影响并提供复杂时间模式的分离,本文引入了条件生成模型来处理Transformer的初级预测结果,该模型提供了分层预测和可解释预测。并通过引入概率编码和解码过程提供更深层次的模式分解和更精确的概率预测,该模型公式如下:

其中,是未来时间序列的值,是历史时间序列的值,z 是潜在变量。

这部分的核心是利用变分自编码器(VAE)的框架来建模时间序列数据的复杂分布,其主要结构如下:

• 概率编码器:该模块作用是找到给定历史数据和未来数据的情况下潜在状态z的最佳表示。这一步骤包括使用重参数化,使得模型可以通过反向传播算法进行训练。

• 概率解码器:使用从编码器得到的潜在状态z来生成预测的时间序列数据。这一步是非自回归的,即所有时间点的预测是同时生成的,这有助于解决传统自回归模型中的误差累积问题。

VAE中的推理模型的作用是如何基于给定的历史和未来数据来估计潜在变量的分布。推理模型实际上是一个条件贝叶斯网络用来逼近难解的后验分布。这个过程用于将高维数据简化为更可管理的形式,使得可以通过这些潜在变量更高效地生成或预测数据。

VAE中的生成模型是指根据观测变量和潜在变量生成预测值,生成器被用于重建似然参数,并且希望重建的似然函数足够接近真实的条件分布。与原始VAE的重构输入不同,本文的模型旨在逼近真实值。因此,本文选择负对数似然函数作为生成模型中的重建损失。生成模型的另一个任务是模式分离,用于可解释的预测。在预测的背景下,概率编码器将初级预测结果映射到潜在空间,用来弥补未来信息的不足,提高模型分解目标序列的性能。概率解码器从潜在空间的高斯分布中重构序列的典型特征,如季节性项和趋势项,以实现模式分离并提供可解释的预测,其中历史序列作为条件信息输入到解码器中。

C. 损失函数的设定

本文定义了多个损失项来联合训练所提出的模型,其中Transformer包含负对数似然(NLL)损失,条件生成模型包含KL散度和重建损失。PDTrans的总损耗定义为两个网络模块的加权求和:

Transformer通过极大似然估计(MLE)对条件分布进行预测。选择负对数似然作为损失函数,作用是通过最小化该损失函数来最大似然估计。

在VAE中,KL散度的作用是用来评估推理模型与真实后验之间的相似性。生成模型的目标之一是最大化证据下界中的期望项,最大化问题等价于最小化重构损失。

D. 实验验证

本文作者采用了五种不同类别的数据集,包括Electricity,Traffic,Solar,Exchange和M4-Hourly时间序列,具体信息如下表:

     在实验验证中使用ρ-分位数损失来评估模型,其中ρ的范围在0-1之间。

其作用是通过量化不同分位数的损失,模型可以被评估其预测的不确定性是否准确。与均方误差或平均绝对误差不同,ρ-分位数损失允许评估不同分位数的预测性能,可以发现模型在不同预测区间的准确性。并且利用不同的量化点,模型可以针对不同的需求进行优化。

为了分析模型的预测性能,作者首先使用概率分解Transformer模型评估Electricity和Traffic数据集的长期和短期预测性能。Electricity和Traffic数据集都分为7天的数据进行测试。对于短期预测,通过滚动预测7天来评估性能,每次预测持续24小时。对于长期预测,预测范围的长度直接指定为7天,调节范围为14天(即每个时间序列336个观测值)。比较方法是自回归概率模型,包括DeepAR、DeepSSM、ConvTrans和SSDNet。结果如下表:

本文提出的模型在Electricity数据集上实现了长期和短期预测的最佳性能。此外,在Traffic数据集上,PDTrans在ρ0.5和ρ0.9的长期预测中都获得了更好的结果。在Traffic数据集上的短期预测中,本文提出的模型取得了最好的ρ0.5和具有竞争力的ρ0.9。结果表明,分层预测机制能够有效地保持模型的长期相依性,预测性能有所提高。

为了更全面地评估所提出的PDTrans模型的有效性,将该模型与主流方法在五个真实数据集上进行了比较,其结果如下表:

对于Electricity、Solar和Exchange数据集,所提出的PDTrans在参与比较的模型中具有最佳的ρ0.5和ρ0.9。此外,在Traffic数据集上的ρ0.5指标上取得了最好的性能,在ρ0.9指标上取得了非常有竞争力的性能。PDTrans的表现优于自回归概率预测模型,如DeepAR和ConvTrans,这表明分层概率预测可以提高自回归概率预测的性能。此外,PDTrans在具有显著周期性的数据集上表现良好,如Electricity和Solar数据集,表明该模型具有出色的周期性特征挖掘能力。

E.模型可解释性验证

本文对所提出的PDTrans模型在预测的可解释方面进行验证。下图展示了在Electricity、Solar和Solar数据集上的7天预测结果,其中黑线代表实际情况,红线代表预测结果,绿线是预测结果的趋势项,蓝线是预测结果的季节性项。图中紫色阴影部分表示95%的置信区间。对于M4-Hourly数据集,图中只给出了48小时的提前预测结果。此外,由于缺乏规律性的波动,Exchange数据集的分解结果没有显示出来。

图中的结果是可解释的,因为趋势曲线是移动的,反映了变化趋势,季节性项呈现规律性的波动。在图(b)中,从第5天到第7天,绿线不仅呈现每天的趋势,而且反映了峰值的下降趋势。

F.消融实验

在消融实验中,作者将PDTrans与去除了概率分解模块的模型进行了比较。两种模型在5个数据集上的短期预测性能下表所示。对于ρ0.5指标,在Electricity、Traffic、Solar、Exchange、M4-Hourly的PDTrans分别下降了9%、15%、4%、38%、28%。对于ρ0.9指标,也可以观察到类似的现象。结果表明,配备了概率分解模块的模型取得了更好的性能。

此外,为了分析不同折扣系数对模型的影响,作者在Electricity数据集上设计了相关实验,结果见下表。实验结果表明,当系数在一定范围内波动时,模型性能略有波动。例如,当系数β和γ均从1变化到5时,ρ0.5评价指标从0.058增加到0.059,仅增加了1.69%,ρ0.9从0.030增加到0.031,增加了3.23%。结果表明,PDTrans模型在一定范围内对权衡系数不敏感,表现出令人满意的鲁棒性。

4、结论:

自回归模型相关的累积误差现象阻碍了可靠的长期预测,时间序列复杂时间模式增加了模型挖掘可靠的时间依赖关系的难度。在本文中,作者提出了具有概率分解表示的分层Transformer,其中模型由Transformer和基于变分推理的条件生成模型组成。分层机制通过条件生成模型施加序列级约束,可以有效降低自回归Transformer预测过程的累积误差。

概率分解为时间模式分离提供了一个灵活的框架,有效地突出了时间序列的本质属性,并实现了预测结果的可解释性。本文在5个时间序列数据集上对所提方法的性能进行了评估,结果表明,该方法在准确性方面与最先进的方法相比具有良好的性能。并设计了一组消融实验来证明概率分解块的有效性和鲁棒性,并表明所提出的方法适用于其他自回归预测模型



智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章