微软亚研院&港科技最新时序预测Transformer优化工作，灵活支持可变长预测窗口

科技 2024-11-15 00:11 北京

点关注，不迷路，用心整理每一篇算法干货~

后台留言”交流“，加入圆圆算法交流群~

公众号后台可领取星球优惠券~

（已有930+同学加入学习，700+干货笔记）

今天给大家介绍一篇香港科技大学、微软亚研院联合发布的时间序列预测Transformer模型工作。这篇文章的核心点是打造一个适用于可变预测窗口长度的Transformer时序预测基础模型，提升时序预测模型的灵活性。

论文标题：ElasTST: Towards Robust Varied-Horizon Forecasting with Elastic Time-Series Transformer

下载地址：https://arxiv.org/pdf/2411.01842v1

研究背景

现有的基于Transformer的时间序列预测模型，基本只能支持固定窗口的预测。这种建模方式，在训练阶段就固定了历史窗口长度和未来窗口长度，导致模型的灵活性较差。当需要扩长预测窗口时，只能重新训练，或者在原来模型基础上做一些预测长度的延展，但并不是最优解。

为了解决上述问题，这篇文章提出了一种鲁棒性较强的，适用于可变预测窗口场景的Transformer时序预测模型。通过基于Placeholder的非自回归预测机制，配合RoPE位置编码，实现了灵活的变长窗口预测。

建模方法

本文提出的ElasTST整体基于Transformer结构，针对位置编码、多尺度建模、训练方式等都做了一定的优化。下面将从基础模型结构、位置编码、样本加权等3个部分介绍本文提出模型的核心模块。

模型结构：ElasTST模型和其他Transformer的核心区别在于建模方式。相比于之前Transformer的自回归建模方法，ElasTST采用了基于Placeholder的非自回归方式。在历史序列后面，拼接上最大预测长度个Placeholder，Placeholder一般是0填充，类似Informer的结构。将历史序列和Placeholder拼接后，使用patch方法处理成不重叠的片段，输入到后续Transformer中。

为了让attention只关注历史序列而不要关注Placeholder部分，文中采用structured attention mask，在attention计算中对Placeholder部分使用mask为0进行处理。此外，为了让模型能够提取不同粒度的信息，文中也使用了多粒度的建模思路，将时间序列按照不同patch大小进行处理后，分别输入对应的Encoder和Decoder，再将各个粒度的预测结果进行融合。

位置编码：ElasTST的位置编码采用NLP中大模型常用的RoPE实现，并结合时间序列数据特点做了一些升级。文中重点是对RoPE中的旋转系数结合数据集中的周期性结构进行了个性化的设置，或者根据数据集将其当成超参数进行个性化调整，适配不同的数据集。结合RoPE，使ElasTST不仅从形式上可以支持可变长度预测，从位置编码的角度也支持了不同长度的外推。文中的RoPE公式如下，其中P是可调整的旋转参数。

训练方式：为了让模型支持不同长度的预测，一种基础的训练方式是每次随机采样预测长度的数据进行训练。文中将其转换成了一个样本加权问题，让模型可以每个样本都正常的在全序列上训练，通过不同时间步预测损失函数的权重，近似模拟这种随采样预测长度的过程，权重函数如下，其中r是时间步，Tmax是最大的预测窗口长度：

实验效果

文中验证了训练好的模型在不同时间步长度的预测效果，可以看到ElasTST相比其他模型，能够在不同时间步取得一致性的最优效果，ElasTST在可变预测窗口长度上预测的有效性。

END

后台留言”交流“，加入圆圆算法交流群~

后台留言”星球“，加入圆圆算法知识请星球~【时序预测专题课程持续更新中】

知识星球提供一文贯通笔记、经典代码解析、问答服务、新人入门，已有930+小伙伴加入，价格随人数增加和内容丰富上涨，感兴趣的同学尽早加入~

投稿&加交流群请加微信，备注机构+方向拉群~

【历史干货算法笔记】

生成式模型入门：一文讲懂3大类生成式模型

Sptial-Temporal时空预测总结：建模思路、优化方法梳理

时序预测顶会论文数据集、数据处理方法、训练方法汇总

时间序列预测实战方法概述：从数据到模型