FoundTS:首个覆盖多场景的时序预测基础模型评测基准

科技   2024-10-30 08:31   中国  

点击名片

关注并星标

#TSer#

扫下方二维码,加入时序人学术星球
参与算法讨论,获取前沿资料
280+篇专栏笔记,已有260+同学加入学习)

本文旨在介绍一项关于时间序列预测基础模型的 benchmark 研究。为了在多领域、多特征数据集上对多种时间序列预测基础模型进行全面统一的测评,华东师范大学联合丹麦奥尔堡大学和松鼠 AI 开发了 FoundTS。论文基于统一的评测结果,分析了现有时间序列预测基础模型的优势与不足,并提出了切实可行的改进方向,以推动基础模型性能的进一步提升。



【论文标题】

FOUNDTS: COMPREHENSIVE AND UNIFIED BENCHMARKING OF FOUNDATION MODELS FOR TIME SERIES FORECASTING

【论文地址】

http://arxiv.org/abs/2410.11802


背景


近年来,专门针对特定领域数据集进行训练的特定模型(Specific models)在预测精度和推理速度上取得了显著提升。然而,当这些模型遇到新的领域或数据时,其泛化能力往往受到限制,表现并不理想。与此相比,在多领域时间序列数据或大规模语言数据集上进行预训练的基础模型(Foundation models)为提高时间序列预测模型的泛化能力提供了新的研究路径,但对这类模型的理解和研究目前仍显不足,主要原因有以下三点:


  1. 现有时间序列预测基础模型的实验设置缺乏一致性,如表1所示,这导致基于当前结果很难对不同基础模型的性能进行公正且一致的比较;


  2. 当前主流的时间序列预测的测评基准主要集中在特定模型上,很少关注基础模型;


  3. 现有的涉及基础模型的测评基准多停留在定性分析或单一场景的评估上,缺乏对模型在不同场景下性能的综合定量分析。


表 1:不同时间序列预测基础模型实验设置比较


为了应对上述挑战,这篇论文提出了一个新的测评基准——FoundTS,旨在为时间序列预测基础模型提供一个全面统一的测评平台。通过 FoundTS,能够对不同模型在多领域、多特征数据集上的性能进行系统性的分析,从而为时间序列预测领域的研究和实践提供更加可靠的参考。

表 2:FoundTS 与其他时间序列预测基准的比较


FoundTS测评框架


FoundTS 提供了一个标准化的评估流程,包括数据(data)、模型(models)和评估(evaluation)三个核心模块,如图1所示。

图 1:FoundTS 架构

01

Data 


数据模块涵盖了来自10个不同领域的时间序列数据集(Stock,Health,Energy, Electricity,Environment,Traffic,Nature,Banking,Web,Economics)。这些数据具有多种特征(Seasonality,Trend,Stationarity,Transition,Shifting,Correlation,Non-Gaussianity),为时间序列预测提供了全面的数据支持。

02

Models 


模型模块将多个具有不同架构类型的时间序列预测模型分为三类:


  • 基于多领域时间序列数据的预训练模型(Pre-trained Models),论文从重建、自回归、直接预测和混合预测四个角度介绍了这些模型;


  • 基于大规模语言数据的预训练模型(LLM-based Models),通过参数高效的微调策略或精心设计的 prompt,充分利用 LLMs 强大的表征能力和序列建模能力,捕捉时间序列数据中的复杂模式。


  • 特定模型这些模型在特定数据集上进行训练和推理,包括基于 CNN 的模型 、基于 Transformer 的模型、基于 MLP 的模型等。


03

Evaluation 


评估模块提供了一个全面的测评场景可扩展的流程统一的评估环境


  • 包含 zero-shot、few-shot 和 full-shot 的测评场景,全面探索了时间序列预测基础模型在不同测试场景下的性能。


  • 支持灵活的选择回看窗口、预测窗口、数据划分与加载、采样策略,一致的实验设置更能确保测试结果的公平性和可靠性。

  • 提供多种评估指标,如平均绝对误差(MAE)和均方误差(MSE)等,可以从不同角度对时间序列预测基础模型进行详尽剖析。



实验


01

实验结果 




论文在多个不同领域的数据集上对比了不同的时间序列预测基础模型以及端到端的特定模型在 zero-shot、few-shot 和 full-shot 场景下的性能表现。


表 3:zero-shot 设置下的实验结果

表 4:采用 5% 数据对基础模型进行微调的 few-shot 设置下的实验结果

表 5:full-shot  设置下的实验结果

02

模型分析 




论文对不同数据采样策略在时间序列预测基础模型中的效果进行了比较分析。结果表明,在 few-shot 场景中,数据采样策略的选择对模型性能有着显著影响。因此,只有在统一的实验设置下,才能对不同模型的性能进行公平和准确的评估。
表 6:不同采样策略


论文探讨了多变量时序数据的通道依赖性对时间序列预测基础模型性能的影响,并建议未来在开发和构建时间序列预测基础模型时,应充分考虑并利用多变量数据之间的通道依赖关系。


图 2:按数据集多通道依赖性强弱排序的模型在 5% 数据的 few-shot 场景下的性能比较


论文分析了不同框架下的时间序列预测基础模型之间的性能差异,指出未来研究需要进一步探索模型架构设计,以寻求在模型性能和参数规模之间达到最佳平衡点。
图 3:不同时间序列预测基础模型的参数量和预训练数据集大小下的模型 zero-shot 性能比较

论文在一系列具有不同显著特征的数据集上,对时间序列预测基础模型处理多样化特征数据的能力进行了比较分析。
图 4:七个具有不同数据特征数据集上时间序列预测基础模型在 5% 数据的 few-shot 场景下性能比较

论文对来自多领域时间序列数据或大规模语言数据的预训练知识对下游时间序列预测任务的实际效益进行了评估。

表 6:加载预训练参数(“p”)和随机初始化(“w/o p”)的时间序列预测基础模型在 5% 数据的 few-shot 场景下性能比较


论文通过衡量时间序列预测基础模型在 5% 数据的 few-shot 场景下的微调时间与特定模型在 full-shot 场景下从头训练的时间,探讨了时间序列预测基础模型在效率和预测准确性方面的表现。

图5:模型效率。圆圈的大小代表模型参数的大小


发现与观点


该论文从多个维度对时间序列预测基础模型进行了深入分析,并提出了关键发现和对未来研究方向的建议:
  • 基础模型是否优于特定模型? 
时间序列预测基础模型在 zero-shot 和 full-shot 场景下展现出了较强的学习能力,但在拥有充足训练数据的情况下,基础模型并不总是优于特定模型。
  • 哪些基础模型表现更亮眼?
在评估基础模型的优越性时,需要考虑多个不同的维度。目前,没有任何一个单一的基础模型能够在所有方面都占据绝对优势。
  • 从哪些方面提升基础模型? 
(1)增强模型的通用性,使其能够适应多种不同的预测场景;
(2)从训练数据、模型架构、预训练策略等多个角度进行优化,以更有效地利用大规模预训练数据;
(3)在下游任务甚至预训练阶段,充分建模不同通道之间的依赖性,这对于处理多变量时间序列数据至关重要;
(4)在实际应用中,需要合理平衡预测精度与训练、微调、推理的成本,这是将时间序列预测基础模型投入实际应用时不可忽视的问题。

扫下方二维码,加入时序人学术星球

星球专注于时间序列领域的知识整理,前沿追踪

提供论文合集、视频课程、问答服务等资源

280+篇专栏笔记,已有260+小伙伴加入

价格随着内容丰富而上涨,早入早享优惠哦~

时间序列学术前沿系列持续更新中 ⛳️

后台回复"讨论",加入讨论组一起交流学习 🏃

往期推荐阅读


正常时序转化为图像,进行高效且可解释的多元时序异常检测
Time-MMD:首个涵盖9大主要数据领域的多域多模态时间序列数据集
华东师大团队首创!时间序列异常预测开启全新时序任务
时序异常检测新进展!华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型
如何处理多频段时序特征?这个Transformer变体显著提升预测效果
PeFAD:边缘设备中高效的联邦异常检测框架
KDD 2024 | 数据驱动的分布偏移检测与自适应
NeurIPS 2024 | 分段时序多分类任务下的一致性学习框架
KDD 2024 | 首个基于 Diffusion 的自监督时序表示方法
港大智慧城市大模型 OpenCity 来袭! 时空预测是否将在 GPT 时代重塑?
KDD 2024 | RHiOTS:评估层级化时序预测算法的可靠性
时间序列预测中如何构建层级化的 Transformer 架构?
KDD 2024 | FNSPID:整合新闻与股价的大规模金融数据集
KDD 2024 | 检测并优化时序预测中的分布偏移问题

觉得不错,那就点个在看和赞吧

时序人
专注于时间序列领域下的科研、工业干货分享,紧跟AI+等领域的科技前沿
 最新文章