FoundTS：首个覆盖多场景的时序预测基础模型评测基准

科技 2024-10-30 08:31 中国

点击名片

关注并星标

#TSer#

扫下方二维码，加入时序人学术星球

参与算法讨论，获取前沿资料

（280+篇专栏笔记，已有260+同学加入学习）

本文旨在介绍一项关于时间序列预测基础模型的 benchmark 研究。为了在多领域、多特征数据集上对多种时间序列预测基础模型进行全面统一的测评，华东师范大学联合丹麦奥尔堡大学和松鼠 AI 开发了 FoundTS。论文基于统一的评测结果，分析了现有时间序列预测基础模型的优势与不足，并提出了切实可行的改进方向，以推动基础模型性能的进一步提升。

【论文标题】

FOUNDTS: COMPREHENSIVE AND UNIFIED BENCHMARKING OF FOUNDATION MODELS FOR TIME SERIES FORECASTING

【论文地址】

http://arxiv.org/abs/2410.11802

背景

近年来，专门针对特定领域数据集进行训练的特定模型（Specific models）在预测精度和推理速度上取得了显著提升。然而，当这些模型遇到新的领域或数据时，其泛化能力往往受到限制，表现并不理想。与此相比，在多领域时间序列数据或大规模语言数据集上进行预训练的基础模型（Foundation models）为提高时间序列预测模型的泛化能力提供了新的研究路径，但对这类模型的理解和研究目前仍显不足，主要原因有以下三点：

现有时间序列预测基础模型的实验设置缺乏一致性，如表1所示，这导致基于当前结果很难对不同基础模型的性能进行公正且一致的比较；
当前主流的时间序列预测的测评基准主要集中在特定模型上，很少关注基础模型；
现有的涉及基础模型的测评基准多停留在定性分析或单一场景的评估上，缺乏对模型在不同场景下性能的综合定量分析。

表 1：不同时间序列预测基础模型实验设置比较

为了应对上述挑战，这篇论文提出了一个新的测评基准——FoundTS，旨在为时间序列预测基础模型提供一个全面统一的测评平台。通过 FoundTS，能够对不同模型在多领域、多特征数据集上的性能进行系统性的分析，从而为时间序列预测领域的研究和实践提供更加可靠的参考。

表 2：FoundTS 与其他时间序列预测基准的比较

FoundTS测评框架

FoundTS 提供了一个标准化的评估流程，包括数据（data）、模型（models）和评估（evaluation）三个核心模块，如图1所示。

图 1：FoundTS 架构

Data

数据模块涵盖了来自10个不同领域的时间序列数据集（Stock，Health，Energy, Electricity，Environment，Traffic，Nature，Banking，Web，Economics）。这些数据具有多种特征（Seasonality，Trend，Stationarity，Transition，Shifting，Correlation，Non-Gaussianity），为时间序列预测提供了全面的数据支持。

Models

模型模块将多个具有不同架构类型的时间序列预测模型分为三类：

基于多领域时间序列数据的预训练模型（Pre-trained Models），论文从重建、自回归、直接预测和混合预测四个角度介绍了这些模型；

基于大规模语言数据的预训练模型（LLM-based Models），通过参数高效的微调策略或精心设计的 prompt，充分利用 LLMs 强大的表征能力和序列建模能力，捕捉时间序列数据中的复杂模式。

特定模型，这些模型在特定数据集上进行训练和推理，包括基于 CNN 的模型、基于 Transformer 的模型、基于 MLP 的模型等。

Evaluation

评估模块提供了一个全面的测评场景、可扩展的流程和统一的评估环境：

包含 zero-shot、few-shot 和 full-shot 的测评场景，全面探索了时间序列预测基础模型在不同测试场景下的性能。

支持灵活的选择回看窗口、预测窗口、数据划分与加载、采样策略，一致的实验设置更能确保测试结果的公平性和可靠性。

提供多种评估指标，如平均绝对误差（MAE）和均方误差（MSE）等，可以从不同角度对时间序列预测基础模型进行详尽剖析。

实验

实验结果

论文在多个不同领域的数据集上对比了不同的时间序列预测基础模型以及端到端的特定模型在 zero-shot、few-shot 和 full-shot 场景下的性能表现。

表 3：zero-shot 设置下的实验结果

表 4：采用 5% 数据对基础模型进行微调的 few-shot 设置下的实验结果

表 5：full-shot 设置下的实验结果

模型分析

论文对不同数据采样策略在时间序列预测基础模型中的效果进行了比较分析。结果表明，在 few-shot 场景中，数据采样策略的选择对模型性能有着显著影响。因此，只有在统一的实验设置下，才能对不同模型的性能进行公平和准确的评估。

表 6：不同采样策略

论文探讨了多变量时序数据的通道依赖性对时间序列预测基础模型性能的影响，并建议未来在开发和构建时间序列预测基础模型时，应充分考虑并利用多变量数据之间的通道依赖关系。

图 2：按数据集多通道依赖性强弱排序的模型在 5% 数据的 few-shot 场景下的性能比较

论文分析了不同框架下的时间序列预测基础模型之间的性能差异，指出未来研究需要进一步探索模型架构设计，以寻求在模型性能和参数规模之间达到最佳平衡点。

图 3：不同时间序列预测基础模型的参数量和预训练数据集大小下的模型 zero-shot 性能比较

论文在一系列具有不同显著特征的数据集上，对时间序列预测基础模型处理多样化特征数据的能力进行了比较分析。

图 4：七个具有不同数据特征数据集上时间序列预测基础模型在 5% 数据的 few-shot 场景下性能比较

论文对来自多领域时间序列数据或大规模语言数据的预训练知识对下游时间序列预测任务的实际效益进行了评估。

表 6：加载预训练参数（“p”）和随机初始化（“w/o p”）的时间序列预测基础模型在 5% 数据的 few-shot 场景下性能比较

论文通过衡量时间序列预测基础模型在 5% 数据的 few-shot 场景下的微调时间与特定模型在 full-shot 场景下从头训练的时间，探讨了时间序列预测基础模型在效率和预测准确性方面的表现。

图5：模型效率。圆圈的大小代表模型参数的大小

发现与观点

该论文从多个维度对时间序列预测基础模型进行了深入分析，并提出了关键发现和对未来研究方向的建议：

基础模型是否优于特定模型？

时间序列预测基础模型在 zero-shot 和 full-shot 场景下展现出了较强的学习能力，但在拥有充足训练数据的情况下，基础模型并不总是优于特定模型。

哪些基础模型表现更亮眼？

在评估基础模型的优越性时，需要考虑多个不同的维度。目前，没有任何一个单一的基础模型能够在所有方面都占据绝对优势。

从哪些方面提升基础模型?

（1）增强模型的通用性，使其能够适应多种不同的预测场景；

（2）从训练数据、模型架构、预训练策略等多个角度进行优化，以更有效地利用大规模预训练数据；

（3）在下游任务甚至预训练阶段，充分建模不同通道之间的依赖性，这对于处理多变量时间序列数据至关重要；

（4）在实际应用中，需要合理平衡预测精度与训练、微调、推理的成本，这是将时间序列预测基础模型投入实际应用时不可忽视的问题。

扫下方二维码，加入时序人学术星球

星球专注于时间序列领域的知识整理，前沿追踪

提供论文合集、视频课程、问答服务等资源

280+篇专栏笔记，已有260+小伙伴加入

价格随着内容丰富而上涨，早入早享优惠哦~

时间序列学术前沿系列持续更新中 ⛳️

后台回复"讨论"，加入讨论组一起交流学习 🏃

往期推荐阅读

正常时序转化为图像，进行高效且可解释的多元时序异常检测

Time-MMD：首个涵盖9大主要数据领域的多域多模态时间序列数据集

华东师大团队首创！时间序列异常预测开启全新时序任务

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

如何处理多频段时序特征？这个Transformer变体显著提升预测效果

PeFAD：边缘设备中高效的联邦异常检测框架

KDD 2024 | 数据驱动的分布偏移检测与自适应

NeurIPS 2024 | 分段时序多分类任务下的一致性学习框架

KDD 2024 | 首个基于 Diffusion 的自监督时序表示方法

港大智慧城市大模型 OpenCity 来袭! 时空预测是否将在 GPT 时代重塑？

KDD 2024 | RHiOTS：评估层级化时序预测算法的可靠性

时间序列预测中如何构建层级化的 Transformer 架构？

KDD 2024 | FNSPID：整合新闻与股价的大规模金融数据集

KDD 2024 | 检测并优化时序预测中的分布偏移问题

觉得不错，那就点个在看和赞吧

http://mp.weixin.qq.com/s?__biz=Mzg3NDUwNTM3MA==&mid=2247502567&idx=1&sn=e04da5a43c9efad2b697aef28c9eef97

时序人

专注于时间序列领域下的科研、工业干货分享，紧跟AI+等领域的科技前沿

最新文章

无惧漂移！D3R方法可用于不稳定多元时间序列异常检测，SOTA提升11%

无需安装，一个文件本地运行大模型！

EffiCANet：基于卷积注意力的高效时间序列预测，显著降低计算成本

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

快速学会登上nature的热门算法，LSTM！

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

填补空白！Salesforce 提出首个通用时序预测模型评测基准 GIFT-Eval

LSTM依然能打！原作者带队最新开源成果吊打Transformer和Mamba

涨点神器！100个即插即用缝合模块【合集下载】

清华与深大提出TimeBridge，有效处理长期时间序列预测中的非平稳性问题

Salesforce 推出 Moirai-MoE，新视角设计下一代时序基础模型

一文解读：时序基础模型的缩放定律

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

最强总结，99个时间序列+时空数据的顶会创新！

正常时序转化为图像，进行高效且可解释的多元时序异常检测

NeurIPS 2024 | 时间序列相关论文盘点（附原文源码）

Time-MMD：首个涵盖9大主要数据领域的多域多模态时间序列数据集

华东师大团队首创！时间序列异常预测开启全新时序任务

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

快速学会登上nature的热门算法，LSTM！

如何处理多频段时序特征？这个Transformer变体显著提升预测效果

20场Kaggle机器学习比赛Top方案GrandMaster整理

PeFAD：边缘设备中高效的联邦异常检测框架

KDD 2024 | 数据驱动的分布偏移检测与自适应

NeurIPS 2024 | 分段时序多分类任务下的一致性学习框架

KDD 2024 | 首个基于 Diffusion 的自监督时序表示方法

必看的11种主流注意力机制创新研究！(附代码）

港大智慧城市大模型 OpenCity 来袭! 时空预测是否将在 GPT 时代重塑？

KDD 2024 | RHiOTS：评估层级化时序预测算法的可靠性

博后招募 | 清华大学裴丹老师课题组招收时间序列博士后

这届审稿人是不是有毛病！？？？

时间序列预测中如何构建层级化的 Transformer 架构？

文末送书 | 豆瓣9.6，多语言版本全球发行，这本书为何这么受欢迎？

KDD 2024 | FNSPID：整合新闻与股价的大规模金融数据集

KDD 2024 | 检测并优化时序预测中的分布偏移问题

多模态融合，顶会超神了！

KDD 2024 | 时间序列相关论文盘点（附原文源码）

LSTM+Transformer=金融时序预测超高精准度！

LSTM又火了！最新52个创新思路+全部开源代码！

LSTM再升级！原作者携xLSTM回归，扩展LSTM到数十亿参数

发paper必备82个即插即用缝合模块！附下载

KDD 2024 | ShapeFormer：多维时序分类中基于形状的Transformer

综述 | 可解释性人工智能（XAI）在金融时间序列预测中的应用

文末送书 | AI for Science：一本书，洞察未来的科技生态！

AI顶会今年这情况，很严重，大家做好准备吧！

ICML 2024 | CaRiNG：在非可逆生成过程中学习时间因果表示

WWW 2024 | FCVAE：从频率角度重新审视 VAE 在无监督异常检测中的效果

清华第二届城市科学大会报名启动！文末赠送2个免费与会名额！

各位，请入局AI大模型，现在！立刻！马上！！

ICML 2024 | FlashST：一个简洁有效新范式，助力智慧城市时空预测

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉