论文标题:In-Context Fine-Tuning for Time-Series Foundation Models
作者:Md Atik Ahamed, Qiang Cheng
机构:德州大学奥斯汀分校(UT-Austin),谷歌研究院(Google)
论文链接:https://arxiv.org/abs/2410.24087
Cool Paper:https://papers.cool/arxiv/2410.24087
TL;DR:本文提出了一种针对时间序列基础模型的上下文微调方法,通过在推理时提供多个相关时间序列示例来预测目标时间序列,相较于传统监督学习方法和其他时间序列模型,展现出更好的性能。
关键词:基础模型、零样本预测、上下文微调
点击文末阅读原文跳转本文arXiv链接
这篇论文来自于Google的时间序列基础模型TimesFM的原班人马,并做了进一步增量。
TimesFM被ICML2024接收
A decoder-only foundation model for time-series forecasting
链接:https://arxiv.org/abs/2310.10688
摘要
受时间序列基础模型在零样本预测方面取得的最新成功的启发,本文提出了一种在上下文中微调时间序列基础模型的方法。具体来说,设计了一个预训练基础模型,该模型可以在推理时使用多个时间序列示例进行提示,以便预测未来的目标时间序列。基础模型经过专门训练,可以利用其上下文窗口中的多个相关时间序列的示例(除了目标时间序列的历史记录)来帮助它在推理时适应目标域的特定分布。本文表明与监督式深度学习方法、统计模型以及其他时间序列基础模型相比,这种在推理时使用上下文示例的基础模型可以在流行的预测基准上获得更好的性能。有趣的是,上下文微调方法甚至可以与在目标域上明确微调的基础模型的性能相媲美。
Q: 这篇论文试图解决什么问题?
A: 这篇论文提出了一种时间序列基础模型的上下文微调方法(in-context fine-tuning),旨在解决以下问题:
零样本预测(Zero-shot Forecasting)的挑战:传统的深度学习方法在时间序列预测任务中需要针对特定任务的训练数据进行训练。然而,最近在自然语言处理(NLP)领域,大型语言模型(LLMs)展示了作为基础模型(foundation models)的潜力,它们可以在零样本或少样本的情况下很好地适应不同的任务。这篇论文受到这一成功的启发,旨在为时间序列预测任务开发类似的方法。 上下文学习(In-context Learning)的缺乏:尽管一些时间序列基础模型已经展现出强大的零样本准确性,但它们在上下文学习方面的能力还有待提高。特别是,这些模型在推理时无法有效地利用来自目标领域相关时间序列的示例来提高预测性能。 保持零样本范式的同时提高性能:对预训练模型进行微调可以提高特定任务的准确性,但这需要额外的训练步骤,从而破坏了零样本学习的吸引力。论文提出了一种在不进行显式微调的情况下,通过在推理时提供目标数据集中的示例来恢复微调好处的方法。
综上所述,这篇论文旨在通过在上下文中提供相关的时间序列示例来增强时间序列基础模型的预测能力,并在保持零样本学习范式的同时提高模型在时间序列预测任务上的性能。
Q: 有哪些相关研究?
A: 论文中提到了多个与时间序列基础模型和时间序列预测相关的研究工作,具体如下:
深度学习方法在时间序列预测中的应用:
[SFGJ20] David Salinas, Valentin Flunkert, Jan Gasthaus, 和 Tim Januschowski. "DeepAR: Probabilistic forecasting with autoregressive recurrent networks". [OCCB19] Boris N Oreshkin, Dmitri Carpov, Nicolas Chapados, 和 Yoshua Bengio. "NBEATS: Neural basis expansion analysis for interpretable time series forecasting". [SYD19] Rajat Sen, Hsiang-Fu Yu, 和 Inderjit S Dhillon. "Think globally, act locally: A deep neural network approach to high-dimensional time series forecasting".
[RWCLAS+19] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, 等. "Language models are unsupervised multitask learners". [Bro+20] Tom B Brown 等. "Language models are few-shot learners".
[GFQW23] Nate Gruver, Marc Finzi, Shikai Qiu, 和 Andrew Gordon Wilson. "Large language models are zero-shot time series forecasters". [ZNWSJ23] Tian Zhou, Peisong Niu, Xue Wang, Liang Sun, 和 Rong Jin. "One Fits All: Power General Time Series Analysis by Pretrained LM". [CPC23] Ching Chang, Wen-Chih Peng, 和 Tien-Fu Chen. "LLM4TS: Two-Stage Fine-Tuning for Time-Series Forecasting with Pre-Trained LLMs". [DKSZ24] Abhimanyu Das, Weihao Kong, Rajat Sen, 和 Yichen Zhou. "A decoder-only foundation model for time-series forecasting". [GM23] Azul Garza 和 Max Mergenthaler-Canseco. "TimeGPT-1". [WLKXSS24] Gerald Woo, Chenghao Liu, Akshat Kumar, Caiming Xiong, Silvio Savarese, 和 Doyen Sahoo. "Unified training of universal time series forecasting transformers". [Ans+24] Abdul Fatir Ansari, Lorenzo Stella, Caner Turkmen, 等. "Chronos: Learning the language of time series". [GSCCLD24] Mononito Goswami, Konrad Szafer, Arjun Choudhry, 等. "Moment: A family of open time-series foundation models".
[MLZH22] Sewon Min, Mike Lewis, Luke Zettlemoyer, 和 Hannaneh Hajishirzi. "Metaicl: Learning to learn in context". [CZZKH22] Yanda Chen, Ruiqi Zhong, Sheng Zha, George Karypis, 和 He He. "Meta-learning via language model in-context tuning". [Wei+22a] Jason Wei, Maarten Bosma, Vincent Y Zhao, 等. "Finetuned language models are zero-shot learners". [Wei+22b] Jason Wei, Xuezhi Wang, Dale Schuurmans, 等. "Chain-of-thought prompting elicits reasoning in large language models".
这些研究涵盖了深度学习、大型语言模型、时间序列预测以及上下文学习等领域,为本文提出的上下文微调方法提供了理论和实证基础。
Q: 论文如何解决这个问题?
A: 论文通过以下步骤解决提出的问题:
设计预训练基础模型:作者设计了一个预训练的基础模型,该模型能够在推理时被提示(prompted)与多个时间序列示例,以预测目标时间序列的未来值。这个基础模型特别训练为利用其上下文窗口中的多个相关时间序列的示例(除了目标时间序列的历史)来帮助它在推理时适应目标领域的特定分布。 上下文微调(In-context Fine-tuning):提出了一种上下文微调方法,该方法允许在推理时通过提供来自目标数据集的示例来恢复特定领域微调的好处,而不需要对目标数据集进行显式的梯度更新。 改进模型架构:为了使模型能够有效利用上下文示例,作者改进了基础模型的架构,包括处理上下文示例分隔符、跨示例注意力和位置编码的调整。 预训练和继续预训练:模型首先在大量时间序列数据上进行预训练,然后使用包含上下文示例的训练数据继续预训练,以获得能够有效利用这些示例的新预训练基础模型。 实验验证:通过在流行的预测基准测试中进行实验评估,展示了上下文微调可以带来更好的零样本性能,与监督深度学习方法、统计模型以及其他时间序列基础模型相比有显著的性能提升。
具体来说,论文中提出的解决方案包括以下几个关键点:
引入上下文示例:在模型的上下文窗口中不仅包括目标时间序列的历史值,还包括其他相关时间序列的示例,以帮助模型适应目标时间序列的分布。 改进模型架构:通过添加可学习的分隔符、调整跨示例的注意力机制和修改位置编码来适应上下文示例。 无需显式微调:上下文微调方法不需要对目标数据集进行额外的训练或微调,而是通过在推理时提供上下文示例来实现性能的提升。 实验结果:实验结果表明,该方法不仅优于多种现有的预测方法,甚至在某些情况下超过了显式微调模型的性能,同时保持了零样本学习的便利性。
Q: 论文做了哪些实验?
A: 论文中进行了以下实验来评估所提出方法的有效性:
在Monash数据集上的跨领域预测:
使用Monash数据集,这是一个包含30个不同训练和预测长度的数据集集合,覆盖了从分钟到年不同粒度的领域,如金融、需求预测、天气和交通。 报告了包括统计基线(如ETS和ARIMA)和监督机器学习基线(如CatBoost、DeepAR和WaveNet)在内的官方指标。 计算所有方法的MAE,并将它们归一化,通过与简单基线(重复最后一个时间点的值)的MAE进行比较,然后报告归一化MAE的几何平均值。
使用4个电力变压器温度(ETT)数据集,具体为ETTh1、ETTh2(小时级)和ETTm1、ETTm2(15分钟级)。 与多个基于Transformer的深度学习方法进行比较,如Informer、Pyraformer、FEDFormer、PatchTST和N-HiTS。 报告了在96和192预测范围上的MAE,并对测试集进行了滚动验证。
与每个数据集上的微调比较:
将上下文微调方法与在每个数据集上微调TimesFM(base)模型的性能进行比较,包括全微调(FT-TimesFM (Full))和仅微调输入和输出残差块(FT-TimesFM (LP))。
消融研究:
上下文示例数量的影响:在ETT数据集上,通过改变上下文示例的数量(从1到50),评估模型性能的变化。 更长历史的影响:将TimesFM-ICF与训练有更长历史(L = 2048)的TimesFM(LH)模型进行比较,以评估上下文微调与训练更长历史模型的有效性。
详细的性能和时间比较:
提供了TimesFM-ICF与FT-TimesFM在Monash数据集上的详细准确性和时间度量比较,以展示TimesFM-ICF在准确性和效率方面的优势。
这些实验旨在全面评估所提出方法在不同场景和不同数据集上的性能,并与现有技术进行比较。通过这些实验,论文展示了其方法在零样本学习设置中的有效性和优越性。更多实验结果,可参考原论文及其附录。
Q: 总结一下论文的主要内容
A: 这篇论文主要介绍了一种针对时间序列基础模型的上下文微调方法,旨在提高模型在时间序列预测任务中的零样本性能。以下是论文的主要内容总结:
问题背景:
时间序列预测在多个领域中非常重要。 传统深度学习方法需要特定任务的训练数据。 大型语言模型(LLMs)在NLP中的成功启发了时间序列基础模型的研究。
提出一种不需要额外训练步骤的上下文微调方法,以提高时间序列基础模型的预测性能。
设计了一个预训练的基础模型,能够在推理时利用多个时间序列示例进行预测。 通过在上下文窗口中加入目标时间序列的历史以及其他相关时间序列的示例,帮助模型适应目标领域的分布。
引入分隔符以区分不同的上下文示例。 允许模型跨示例进行注意力机制的计算。 使用无位置编码(NoPE)以提高长度泛化能力。
在Monash和ETT数据集上评估模型性能。 与监督学习方法、统计模型以及其他时间序列基础模型比较。 进行消融研究,分析上下文示例数量和更长历史的影响。
上下文微调方法在多个基准测试中取得了优于现有技术的预测性能。 该方法甚至在某些情况下超过了显式微调模型的性能。
探索适配其他基础模型的可能性。 研究更好的相对位置编码方法。 分析上下文微调的理论基础和跨领域适应性。
综上所述,这篇论文提出了一种创新的时间序列基础模型上下文微调方法,通过在推理时提供相关的时间序列示例来提高模型的预测性能,并在多个数据集上验证了其有效性。
推荐阅读
论文精读 | 2024 [ICLR] TimeMixer: 可分解多尺度融合的时间序列预测
AI论文速读 |(图腾) TOTEM:通用时间序列分析的token化时序嵌入表示
点击文末阅读原文跳转本文arXiv链接。
如果觉得有帮助还请分享,在看,点赞