作者:吴海旭
链接:https://www.zhihu.com/question/1302007972/answer/12135031763
来源:知乎
本文转载自吴海旭(清华大学博士生)在知乎分享的有关时间序列预测的观点。点击阅读原文,跳转知乎原文链接。
知乎原问题:在实现了市面上几个主要的模型例如 PatchTST,FITS,TimesNet,iTransformer之后,感觉23,24年的时间序列模型进步都不大。我个人看法是,模型的输入并不能完全代表所有影响结果的因素,因此一分不差地预测未来发生的值是不可能的。会不会已经到极限了?
我从2021年开始做一些深度时序模型的研究,仅根据我的个人感受,我觉得时序模型的研究主要经历了下面三个阶段,每个阶段都有大家重点关注的,想要解决的“热点问题”。
(1)如何将序列模型应用到时序数据中
在这个初期阶段,大家都在试图解决如何将经典的序列模型结构(比如Transformer、RNN)结合进时序建模这一特定任务中。这一阶段的代表性工作有:Informer(22AAAI)[1]、Autoformer(21NeurIPS)[2]、FEDformer(22ICML)[3]、Non-stationary Transformer(22NeurIPS)[4]等。
经过这一阶段之后,大家总结到的实用技巧有:分解建模(Autoformer),窗口归一化(Revin(22 ICLR)[5],Non-stationary Transformer)。
(2)如何完成时序的令牌化(Tokenization)
在第一阶段的时候,大家输入时序模型的还是离散的点,但是其实从深度学习Token构建角度来说,单个时刻的信息量还是太少了,所以需要将表征增强到成Patch(一段序列),这样后续的建模会更加可靠,这一阶段的代表性工作有:PatchTST(23ICLR)[6]、Crossformer(23ICLR)[7]、iTransformer(24ICLR)[8]等。
经过这一阶段之后,大家总结到的实用技巧有:PatchEmbedding(PatchTST、Crossformer),VariateEmbedding(iTransformer)。
(3)多任务、多模态建模
当第一第二阶段积累的训练技巧逐步完备之后(注意,并不是说大家贡献仅仅是一个训练技巧,如何让一个深度模型在时序数据上训练得很好是非常重要的进展),大家开始想做一些更加多样的任务,这一阶段的代表性工作有TimesNet(23ICLR)[9]、OFA(23NeurIPS)[10]、Time-LLM(24ICLR)[11]、Timer(24ICML)[12]等。
【重制版】AI论文速读 | 计时器(Timer):用于大规模时间序列分析的Transformer
在这一阶段,大家讨论的热点问题有“大语言模型与时序模型的关系”,“是否存在时序基础模型”。从纯技术角度来看,具体问题还有“建模的大模型应该是单变量的,还是多变量的?”,“是不是应该将大语言模型作为时序模型的主干?”。
综上,我觉得题主提出的这个问题主要是针对第1、2两个发展阶段。从这个角度讲,如果问“是否有新的技巧出现”的话,确实这两年很少有了,很多在标准benchmark上的效果提升可能来自于调参或者实验方差。但是如果从第3阶段角度来看,我觉得时序领域还处于百家争鸣阶段,很难明确哪个技术路线是对的。
这里也宣传两篇,我们最近对于第3阶段的思考
(1)TimeXer[13]:协变量预测模型。我觉得这个“协变量预测”设置非常完美地回避了单变量预测(Channel Independent)缺少充足信息,多变量预测需要在不同变量间协调的问题。同时也解决混合大数据集内部,不同数据源变量数不一致的问题。
2024[NeurIPS]Timexer: Empowering transformers for time series forecasting with exogenous variables
(2)MetaTST[14]:使用大语言模型编码时序数据文本形态的“元信息”,从而为大规模混合数据训练模型做准备。我觉得直接使用大语言模型处理文本是非常正确的思路,因为现在还没有迹象表明大语言模型对时序非常有效,让LLM干它自己擅长的事情就好了。
参考文献
第一阶段
[1] Zhou H, Zhang S, Peng J, et al. Informer: Beyond efficient transformer for long sequence time-series forecasting[C]//Proceedings of the AAAI conference on artificial intelligence. 2021, 35(12): 11106-11115. https://ojs.aaai.org/index.php/AAAI/article/view/17325
[2] Wu H, Xu J, Wang J, et al. Autoformer: Decomposition transformers with auto-correlation for long-term series forecasting[J]. Advances in neural information processing systems, 2021, 34: 22419-22430. https://proceedings.neurips.cc/paper/2021/hash/bcc0d400288793e8bdcd7c19a8ac0c2b-Abstract.html
[3] Zhou T, Ma Z, Wen Q, et al. Fedformer: Frequency enhanced decomposed transformer for long-term series forecasting[C]//International conference on machine learning. PMLR, 2022: 27268-27286. https://proceedings.mlr.press/v162/zhou22g.html
[4] Liu Y, Wu H, Wang J, et al. Non-stationary transformers: Exploring the stationarity in time series forecasting[J]. Advances in Neural Information Processing Systems, 2022, 35: 9881-9893. https://proceedings.neurips.cc/paper_files/paper/2022/hash/4054556fcaa934b0bf76da52cf4f92cb-Abstract-Conference.html
[5] Kim T, Kim J, Tae Y, et al. Reversible instance normalization for accurate time-series forecasting against distribution shift[C]//International Conference on Learning Representations. 2021. https://openreview.net/forum?id=cGDAkQo1C0p
第二阶段
[6] Nie Y, Nguyen N H, Sinthong P, et al. A Time Series is Worth 64 Words: Long-term Forecasting with Transformers[C]//The Eleventh International Conference on Learning Representations. 2023. https://openreview.net/forum?id=Jbdc0vTOcol
[7] Zhang Y, Yan J. Crossformer: Transformer utilizing cross-dimension dependency for multivariate time series forecasting[C]//The eleventh international conference on learning representations. 2023. https://openreview.net/forum?id=vSVLM2j9eie
[8] Liu Y, Hu T, Zhang H, et al. iTransformer: Inverted Transformers Are Effective for Time Series Forecasting[C]//The Twelfth International Conference on Learning Representations. 2024. https://openreview.net/forum?id=JePfAI8fah
第三阶段
[9] Wu H, Hu T, Liu Y, et al. TimesNet: Temporal 2D-Variation Modeling for General Time Series Analysis[C]//The Eleventh International Conference on Learning Representations. 2023. https://openreview.net/forum?id=ju_Uqw384Oq
[10] Zhou T, Niu P, Sun L, et al. One fits all: Power general time series analysis by pretrained lm[J]. Advances in neural information processing systems, 2023, 36: 43322-43355. https://proceedings.neurips.cc/paper_files/paper/2023/hash/86c17de05579cde52025f9984e6e2ebb-Abstract-Conference.html
[11] Jin M, Wang S, Ma L, et al. Time-LLM: Time Series Forecasting by Reprogramming Large Language Models[C]//The Twelfth International Conference on Learning Representations. 2024. https://openreview.net/forum?id=Unb5CVPtae
[12] Liu Y, Zhang H, Li C, et al. Timer: Generative Pre-trained Transformers Are Large Time Series Models[C]//Forty-first International Conference on Machine Learning. 2024. https://openreview.net/forum?id=bYRYb7DMNo
[13] Wang Y, Wu H, Dong J, et al. Timexer: Empowering transformers for time series forecasting with exogenous variables[J]. arXiv preprint arXiv:2402.19072, 2024. https://arxiv.org/abs/2402.19072
[14] Dong J, Wu H, Wang Y, et al.