点击名片
关注并星标
#TSer#
【论文标题】
FOUNDTS: COMPREHENSIVE AND UNIFIED BENCHMARKING OF FOUNDATION MODELS FOR TIME SERIES FORECASTING
【论文地址】
http://arxiv.org/abs/2410.11802
背景
近年来,专门针对特定领域数据集进行训练的特定模型(Specific models)在预测精度和推理速度上取得了显著提升。然而,当这些模型遇到新的领域或数据时,其泛化能力往往受到限制,表现并不理想。与此相比,在多领域时间序列数据或大规模语言数据集上进行预训练的基础模型(Foundation models)为提高时间序列预测模型的泛化能力提供了新的研究路径,但对这类模型的理解和研究目前仍显不足,主要原因有以下三点:
现有时间序列预测基础模型的实验设置缺乏一致性,如表1所示,这导致基于当前结果很难对不同基础模型的性能进行公正且一致的比较;
当前主流的时间序列预测的测评基准主要集中在特定模型上,很少关注基础模型;
现有的涉及基础模型的测评基准多停留在定性分析或单一场景的评估上,缺乏对模型在不同场景下性能的综合定量分析。
表 1:不同时间序列预测基础模型实验设置比较
FoundTS测评框架
FoundTS 提供了一个标准化的评估流程,包括数据(data)、模型(models)和评估(evaluation)三个核心模块,如图1所示。
01
Data
数据模块涵盖了来自10个不同领域的时间序列数据集(Stock,Health,Energy, Electricity,Environment,Traffic,Nature,Banking,Web,Economics)。这些数据具有多种特征(Seasonality,Trend,Stationarity,Transition,Shifting,Correlation,Non-Gaussianity),为时间序列预测提供了全面的数据支持。
02
Models
模型模块将多个具有不同架构类型的时间序列预测模型分为三类:
基于多领域时间序列数据的预训练模型(Pre-trained Models),论文从重建、自回归、直接预测和混合预测四个角度介绍了这些模型;
基于大规模语言数据的预训练模型(LLM-based Models),通过参数高效的微调策略或精心设计的 prompt,充分利用 LLMs 强大的表征能力和序列建模能力,捕捉时间序列数据中的复杂模式。
特定模型,这些模型在特定数据集上进行训练和推理,包括基于 CNN 的模型 、基于 Transformer 的模型、基于 MLP 的模型等。
03
Evaluation
评估模块提供了一个全面的测评场景、可扩展的流程和统一的评估环境:
包含 zero-shot、few-shot 和 full-shot 的测评场景,全面探索了时间序列预测基础模型在不同测试场景下的性能。
支持灵活的选择回看窗口、预测窗口、数据划分与加载、采样策略,一致的实验设置更能确保测试结果的公平性和可靠性。
提供多种评估指标,如平均绝对误差(MAE)和均方误差(MSE)等,可以从不同角度对时间序列预测基础模型进行详尽剖析。
实验
01
实验结果
论文在多个不同领域的数据集上对比了不同的时间序列预测基础模型以及端到端的特定模型在 zero-shot、few-shot 和 full-shot 场景下的性能表现。
表 5:full-shot 设置下的实验结果
02
模型分析
图 2:按数据集多通道依赖性强弱排序的模型在 5% 数据的 few-shot 场景下的性能比较
表 6:加载预训练参数(“p”)和随机初始化(“w/o p”)的时间序列预测基础模型在 5% 数据的 few-shot 场景下性能比较
论文通过衡量时间序列预测基础模型在 5% 数据的 few-shot 场景下的微调时间与特定模型在 full-shot 场景下从头训练的时间,探讨了时间序列预测基础模型在效率和预测准确性方面的表现。
发现与观点
基础模型是否优于特定模型?
哪些基础模型表现更亮眼?
从哪些方面提升基础模型?
扫下方二维码,加入时序人学术星球
星球专注于时间序列领域的知识整理,前沿追踪
提供论文合集、视频课程、问答服务等资源
280+篇专栏笔记,已有260+小伙伴加入
价格随着内容丰富而上涨,早入早享优惠哦~
时间序列学术前沿系列持续更新中 ⛳️
后台回复"讨论",加入讨论组一起交流学习 🏃
往期推荐阅读
觉得不错,那就点个在看和赞吧