FoundTS：首个覆盖多场景的时序预测基础模型评测基准

学术 2024-11-13 16:21 北京

来源：时序人
本文约2500字，建议阅读8分钟
本文旨在介绍一项关于时间序列预测基础模型的 benchmark 研究。

为了在多领域、多特征数据集上对多种时间序列预测基础模型进行全面统一的测评，华东师范大学联合丹麦奥尔堡大学和松鼠 AI 开发了 FoundTS。论文基于统一的评测结果，分析了现有时间序列预测基础模型的优势与不足，并提出了切实可行的改进方向，以推动基础模型性能的进一步提升。

【论文标题】

FOUNDTS: COMPREHENSIVE AND UNIFIED BENCHMARKING OF FOUNDATION MODELS FOR TIME SERIES FORECASTING

【论文地址】

http://arxiv.org/abs/2410.11802

背景

近年来，专门针对特定领域数据集进行训练的特定模型（Specific models）在预测精度和推理速度上取得了显著提升。然而，当这些模型遇到新的领域或数据时，其泛化能力往往受到限制，表现并不理想。与此相比，在多领域时间序列数据或大规模语言数据集上进行预训练的基础模型（Foundation models）为提高时间序列预测模型的泛化能力提供了新的研究路径，但对这类模型的理解和研究目前仍显不足，主要原因有以下三点：

现有时间序列预测基础模型的实验设置缺乏一致性，如表1所示，这导致基于当前结果很难对不同基础模型的性能进行公正且一致的比较；
当前主流的时间序列预测的测评基准主要集中在特定模型上，很少关注基础模型；
现有的涉及基础模型的测评基准多停留在定性分析或单一场景的评估上，缺乏对模型在不同场景下性能的综合定量分析。

表 1：不同时间序列预测基础模型实验设置比较

为了应对上述挑战，这篇论文提出了一个新的测评基准——FoundTS，旨在为时间序列预测基础模型提供一个全面统一的测评平台。通过 FoundTS，能够对不同模型在多领域、多特征数据集上的性能进行系统性的分析，从而为时间序列预测领域的研究和实践提供更加可靠的参考。

表 2：FoundTS 与其他时间序列预测基准的比较

FoundTS测评框架

FoundTS 提供了一个标准化的评估流程，包括数据（data）、模型（models）和评估（evaluation）三个核心模块，如图1所示。

图 1：FoundTS 架构

01 Data

数据模块涵盖了来自10个不同领域的时间序列数据集（Stock，Health，Energy, Electricity，Environment，Traffic，Nature，Banking，Web，Economics）。这些数据具有多种特征（Seasonality，Trend，Stationarity，Transition，Shifting，Correlation，Non-Gaussianity），为时间序列预测提供了全面的数据支持。

02 Models

模型模块将多个具有不同架构类型的时间序列预测模型分为三类：

基于多领域时间序列数据的预训练模型（Pre-trained Models），论文从重建、自回归、直接预测和混合预测四个角度介绍了这些模型；
基于大规模语言数据的预训练模型（LLM-based Models），通过参数高效的微调策略或精心设计的 prompt，充分利用 LLMs 强大的表征能力和序列建模能力，捕捉时间序列数据中的复杂模式。
特定模型，这些模型在特定数据集上进行训练和推理，包括基于 CNN 的模型、基于 Transformer 的模型、基于 MLP 的模型等。

03 Evaluation

评估模块提供了一个全面的测评场景、可扩展的流程和统一的评估环境：

包含 zero-shot、few-shot 和 full-shot 的测评场景，全面探索了时间序列预测基础模型在不同测试场景下的性能。

支持灵活的选择回看窗口、预测窗口、数据划分与加载、采样策略，一致的实验设置更能确保测试结果的公平性和可靠性。

提供多种评估指标，如平均绝对误差（MAE）和均方误差（MSE）等，可以从不同角度对时间序列预测基础模型进行详尽剖析。、

‍实验

01 实验结果

论文在多个不同领域的数据集上对比了不同的时间序列预测基础模型以及端到端的特定模型在 zero-shot、few-shot 和 full-shot 场景下的性能表现。‍

表 3：zero-shot 设置下的实验结果

表 4：采用 5% 数据对基础模型进行微调的 few-shot 设置下的实验结果

表 5：full-shot 设置下的实验结果

02 模型分析

论文对不同数据采样策略在时间序列预测基础模型中的效果进行了比较分析。结果表明，在 few-shot 场景中，数据采样策略的选择对模型性能有着显著影响。因此，只有在统一的实验设置下，才能对不同模型的性能进行公平和准确的评估。

表 6：不同采样策略

论文探讨了多变量时序数据的通道依赖性对时间序列预测基础模型性能的影响，并建议未来在开发和构建时间序列预测基础模型时，应充分考虑并利用多变量数据之间的通道依赖关系。

图 2：按数据集多通道依赖性强弱排序的模型在 5% 数据的 few-shot 场景下的性能比较

论文分析了不同框架下的时间序列预测基础模型之间的性能差异，指出未来研究需要进一步探索模型架构设计，以寻求在模型性能和参数规模之间达到最佳平衡点。

图 3：不同时间序列预测基础模型的参数量和预训练数据集大小下的模型 zero-shot 性能比较

论文在一系列具有不同显著特征的数据集上，对时间序列预测基础模型处理多样化特征数据的能力进行了比较分析。

图 4：七个具有不同数据特征数据集上时间序列预测基础模型在 5% 数据的 few-shot 场景下性能比较

论文对来自多领域时间序列数据或大规模语言数据的预训练知识对下游时间序列预测任务的实际效益进行了评估。

表 6：加载预训练参数（“p”）和随机初始化（“w/o p”）的时间序列预测基础模型在 5% 数据的 few-shot 场景下性能比较

论文通过衡量时间序列预测基础模型在 5% 数据的 few-shot 场景下的微调时间与特定模型在 full-shot 场景下从头训练的时间，探讨了时间序列预测基础模型在效率和预测准确性方面的表现。

图5：模型效率。圆圈的大小代表模型参数的大小

发现与观点

该论文从多个维度对时间序列预测基础模型进行了深入分析，并提出了关键发现和对未来研究方向的建议：

基础模型是否优于特定模型？

时间序列预测基础模型在 zero-shot 和 full-shot 场景下展现出了较强的学习能力，但在拥有充足训练数据的情况下，基础模型并不总是优于特定模型。

哪些基础模型表现更亮眼？

在评估基础模型的优越性时，需要考虑多个不同的维度。目前，没有任何一个单一的基础模型能够在所有方面都占据绝对优势。

从哪些方面提升基础模型?

（1）增强模型的通用性，使其能够适应多种不同的预测场景；

（2）从训练数据、模型架构、预训练策略等多个角度进行优化，以更有效地利用大规模预训练数据；

（3）在下游任务甚至预训练阶段，充分建模不同通道之间的依赖性，这对于处理多变量时间序列数据至关重要；

（4）在实际应用中，需要合理平衡预测精度与训练、微调、推理的成本，这是将时间序列预测基础模型投入实际应用时不可忽视的问题。

编辑：黄继彦

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247648228&idx=1&sn=b808d31171294ecc48fc3f2b639340a7

数据派THU

清华大数据研究中心官方平台，发布团队科研、教学等最新动态及大数据领域的相关信息~

最新文章

RAPTOR：多模型融合+层次结构 = 检索性能提升20%，结果还更稳健

活动预告 | 首届北京数字人才发展大会

【伯克利博士论文】从自然场景视频中解耦人体运动和相机运动

LLM4Rec最新重磅工作：字节跳动序列推荐分层大模型HLLM

Salesforce 推出 Moirai-MoE，新视角设计下一代时序基础模型

【NUS博士论文】视频语义理解中的因果模型

清华软件论坛|C. Mohan:Data Management Implications of Intelligent Comp

征文延期至11月22日通知 | 首届开源技术学术大会征稿启事

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

随机性、熵与随机数生成器:解析伪随机数生成器（PRNG）和真随机数生成器（TRNG）

【CIKM2024教程】高效的时间图学习：算法、框架与工具

报名 | 大数据产业论坛第1期——汽车行业专场

通知 | 首届开源技术学术大会征稿启事

NeurIPS 2024｜解锁大模型知识记忆编辑的新路径，浙大用「WISE」对抗幻觉

深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究

【CIKM2024教程】大语言模型在表格任务中的应用

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

丹麦首台AI超级计算机，NVIDIA技术加持，服务于量子计算、清洁能源、生物技术等领域

【ETHZ博士论文】用于视觉场景理解的领域鲁棒网络架构与训练策略

成都八零大赛圆满收官，清华大学参赛团队获“领先者”奖

原创｜制造新篇：重塑大语言模型在制造领域的力量

基于图论的时间序列数据平稳性与连通性分析：利用图形、数学和 Python 揭示时间序列数据中的隐藏模式

【NeurIPS2024】轨迹流匹配及其在临床时间序列建模中的应用

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

PeFAD：边缘设备中高效的联邦异常检测框架

【NeurIPS2024】Frozen-DETR：利用冻结基础模型的图像理解能力提升DETR

数据派志愿者招募 | 寻找最志同道合的你！

链接数据：如何使用知识图谱改进RAG

过采样与欠采样技术原理图解：基于二维数据的常见方法效果对比

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

NeurIPS 2024 | 如何防御对抗性提示攻击？AdvUnlearn让图片生成风险骤降

TimeDART：基于扩散自回归Transformer 的自监督时间序列预测方法

【NeurIPS2024】从因果角度重新思考视觉-语言模型适应中的失配问题

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

图结构赋能语言模型：华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

【NeurIPS 2024】用于变分似然估计和图像去噪的扩散先验

AGENTiGraph：一个交互式知识图谱平台驱动的基于私有数据多智能体系统 - 东京&耶鲁大学等最新研究

干货 | 清华Python编程入门分享会第三期

【牛津大学博士论文】使用图神经网络进行知识图谱的深度学习

直播预告 | Al+研发数字峰会(AiDD) 2024深圳站开幕式

11种经典时间序列预测方法：理论、Python实现与应用

干货 | 清华Python编程入门分享会第二期

【NeurIPS2024】用于时间序列预测的检索增强扩散模型

斯坦福&哈佛医学院 - MMedAgent，一个用于医疗领域的多模态医疗AI智能体

入选ECCV 2024！浙江大学联合微软亚洲研究院提出统一医学图像预训练框架UniMedI，打破医学数据异构化藩篱

【ETHZ博士论文】机器学习代码: 安全性与可靠性

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

梯度累积的隐藏陷阱：Transformer库中梯度累积机制的缺陷与修正

【牛津大学博士论文】用于本体工程的语言模型

KDD 2024 | 数据驱动的分布偏移检测与自适应

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

来源：时序人本文约2500字，建议阅读8分钟本文旨在介绍一项关于时间序列预测基础模型的 benchmark 研究。

来源：时序人
本文约2500字，建议阅读8分钟
本文旨在介绍一项关于时间序列预测基础模型的 benchmark 研究。