微软亚研院&港科技最新时序预测Transformer优化工作,灵活支持可变长预测窗口

科技   2024-11-15 00:11   北京  

点关注,不迷路,用心整理每一篇算法干货~

后台留言”交流“,加入圆圆算法交流群~
公众号后台可领取星球优惠券~
已有930+同学加入学习,700+干货笔记)

今天给大家介绍一篇香港科技大学、微软亚研院联合发布的时间序列预测Transformer模型工作。这篇文章的核心点是打造一个适用于可变预测窗口长度的Transformer时序预测基础模型,提升时序预测模型的灵活性。

论文标题:ElasTST: Towards Robust Varied-Horizon Forecasting with Elastic Time-Series Transformer

下载地址https://arxiv.org/pdf/2411.01842v1

1

研究背景

现有的基于Transformer的时间序列预测模型,基本只能支持固定窗口的预测。这种建模方式,在训练阶段就固定了历史窗口长度和未来窗口长度,导致模型的灵活性较差。当需要扩长预测窗口时,只能重新训练,或者在原来模型基础上做一些预测长度的延展,但并不是最优解。

为了解决上述问题,这篇文章提出了一种鲁棒性较强的,适用于可变预测窗口场景的Transformer时序预测模型。通过基于Placeholder的非自回归预测机制,配合RoPE位置编码,实现了灵活的变长窗口预测。

2

建模方法

本文提出的ElasTST整体基于Transformer结构,针对位置编码、多尺度建模、训练方式等都做了一定的优化。下面将从基础模型结构、位置编码、样本加权等3个部分介绍本文提出模型的核心模块。

模型结构:ElasTST模型和其他Transformer的核心区别在于建模方式。相比于之前Transformer的自回归建模方法,ElasTST采用了基于Placeholder的非自回归方式。在历史序列后面,拼接上最大预测长度个Placeholder,Placeholder一般是0填充,类似Informer的结构。将历史序列和Placeholder拼接后,使用patch方法处理成不重叠的片段,输入到后续Transformer中。

为了让attention只关注历史序列而不要关注Placeholder部分,文中采用structured attention mask,在attention计算中对Placeholder部分使用mask为0进行处理。此外,为了让模型能够提取不同粒度的信息,文中也使用了多粒度的建模思路,将时间序列按照不同patch大小进行处理后,分别输入对应的Encoder和Decoder,再将各个粒度的预测结果进行融合。

位置编码:ElasTST的位置编码采用NLP中大模型常用的RoPE实现,并结合时间序列数据特点做了一些升级。文中重点是对RoPE中的旋转系数结合数据集中的周期性结构进行了个性化的设置,或者根据数据集将其当成超参数进行个性化调整,适配不同的数据集。结合RoPE,使ElasTST不仅从形式上可以支持可变长度预测,从位置编码的角度也支持了不同长度的外推。文中的RoPE公式如下,其中P是可调整的旋转参数。

训练方式:为了让模型支持不同长度的预测,一种基础的训练方式是每次随机采样预测长度的数据进行训练。文中将其转换成了一个样本加权问题,让模型可以每个样本都正常的在全序列上训练,通过不同时间步预测损失函数的权重,近似模拟这种随采样预测长度的过程,权重函数如下,其中r是时间步,Tmax是最大的预测窗口长度:

3

实验效果

文中验证了训练好的模型在不同时间步长度的预测效果,可以看到ElasTST相比其他模型,能够在不同时间步取得一致性的最优效果,ElasTST在可变预测窗口长度上预测的有效性。

END




后台留言”交流“,加入圆圆算法交流群~
后台留言”星球“,加入圆圆算法知识请星球~【时序预测专题课程持续更新中
知识星球提供一文贯通笔记、经典代码解析、问答服务、新人入门,已有930+小伙伴加入价格随人数增加和内容丰富上涨,感兴趣的同学尽早加入~


投稿&加交流群请加微信,备注机构+方向拉群~

【历史干货算法笔记】
生成式模型入门:一文讲懂3大类生成式模型
Sptial-Temporal时空预测总结:建模思路、优化方法梳理
时序预测顶会论文数据集、数据处理方法、训练方法汇总
时间序列预测实战方法概述:从数据到模型
Informer模型结构和代码解析
基于Transformer的时序预测模型TFT代码详解
时空预测经典模型STGCN原理和代码解读
一网打尽:14种预训练语言模型大汇总
Vision-Language多模态建模方法脉络梳理
花式Finetune方法大汇总
从ViT到Swin,10篇顶会论文看Transformer在CV领域的发展历程

如果觉得有帮助麻烦分享在看点赞~  

圆圆的算法笔记
定期更新深度学习/算法干货笔记和世间万物学习记录~
 最新文章