一文解读：时序基础模型的缩放定律

文摘 2024-11-21 07:31 北京


来源：时序人
全文约 3000 个字，建议阅读 6 分钟
本研究从参数规模、计算资源和训练数据规模三方面探讨了时间序列基础模型在分布内和分布外场景下的扩展特性，并研究了不同架构的扩展行为。

随着时间序列基础模型 (Time series foundation models, TSFMs) 的快速发展，时序预测的研究正在从专门的任务模型转向通用模型的开发范式。模型如 Timer、Moirai 及最近提出的10B规模的 Time-MoE 表现出数据量与模型规模的扩展趋势。社区期望通过更多资源的投入，进一步提升时序预测的性能。

模型缩放定律 (Scaling laws) 提供了一种定量框架，描述模型性能如何随模型参数、计算资源和训练数据规模等核心要素的变化而增长。建立时间序列基础模型的 scaling laws 对其开发至关重要，因为它提供了预测性能收益的参考依据，使研究者可以更加高效地配置资源。

近日，由来自澳大利亚格里菲斯大学、香港科技大学 (广州)、NVIDIA、东京大学等机构的研究团队对时序基础模型的缩放定律进行了深入探索。目前关于时间序列基础模型的 scaling laws 的探索仍然处于早期阶段。已有的研究主要关注时间序列基础模型在分布内（In-distribution, ID）数据上的scaling laws，缺乏对分布外（Out-of-distribution, OOD）的扩展行为，以及模型架构对扩展行为影响的研究。

【论文标题】

TOWARDS NEURAL SCALING LAWS FOR TIME SERIES FOUNDATION MODELS

【论文地址】https://arxiv.org/abs/2410.12360

研究动机

在实际应用中，时间序列基础模型主要面临来自未知场景的挑战，因此分布外的预测能力尤为关键。这引出一个新的问题：scaling laws 能否用于预测时间序列模型在分布外数据中的性能表现？

尽管各种时间序列模型架构不断涌现，但大多专注于特定规模的性能改进。不同架构间的扩展特性尚未得到充分研究，进而引发了另一个关键问题：模型架构对其可扩展性有何影响？

此外，虽然投入的训练资源在增加，但构建更大模型的瓶颈和推动力尚不明晰。这提出了一个实际问题：如何从可扩展性视角设计时间序列基础模型？

技术贡献

本文旨在为上述研究问题提供实验支持。我们训练了一系列基于 encoder-only Transformer 的时间序列基础模型，探讨了模型参数、计算预算和训练集大小这三个训练因素对模型 ID 和 OOD 预测性能的影响，从而建立了跨分布的 scaling laws。

为进一步研究模型架构对缩放行为的影响，我们还训练了基于 encoder-only Transformer 的时间序列基础模型，并与基于 decoder-only Transformer 的模型进行了对比。此外，我们引入了两个 SOTA 时间序列基础模型——Moirai 和 Chronos，作为具体的案例进行深入研究。基于实验结果和对比分析，我们最终从扩展性角度提出了时间序列基础模型的设计指导。

我们的贡献总结如下：

跨数据分布的 scaling laws：将时间序列基础模型的 scaling laws 从分布内场景推广到分布外场景，涵盖模型规模、计算资源和数据集规模三个要素，为分布外数据的性能预测提供了基础。
跨模型架构的 scaling laws：研究 encoder-only 和 decoder-only Transformer 架构在扩展性上的差异，为可扩展的时间序列模型设计提供参考。
scaling laws 引导的设计原则：通过分析模型在跨分布和跨架构场景下的扩展行为，为时间序列基础模型的设计提供从数据、模型和计算角度的实际指导。

关键结论

01、跨分步的scaling laws

在分布内与分布外数据上，时间序列基础模型性能的扩展表现均符合 power laws。如图1，图2，图3所示，对数似然（log-likelihood）损失和 Mean Absolute Percentage Error（MAPE）分别随着模型的参数量（N），计算量（C），以及训练数据量（D）在对数尺度上线性下降。power law 表达式如下：

其中，表示模型性能（对数似然损失或 MAPE），是训练中的扩展要素（模型参数量，计算量或训练数据量），是待求的归一化系数，则为指数，用以表征模型性能随扩展要素提升的程度。

图1：参数量的扩展

参数量的扩展。图1展示了对数似然和 MAPE 随模型参数量增加在 ID 和 OOD 场景下的变化。当使用对数似然进行评估时，模型在不同数据分布中的缩放行为均符合 power law，且表现出一致的趋势。

图2：计算量的扩展

计算量的扩展。图2显示了对数似然和 MAPE 随计算量增加在 ID 和 OOD 场景下的变化。无论分布内或分布外，计算量的提升均带来预测性能的显著改善。同时，在给定计算量时，模型的预测性能在 ID 和 OOD 数据上都存在一个下边界。

图3：训练数据量的扩展

数据量的扩展。图3展示了数据量对模型在 ID 和 OOD 数据上预测性能的影响。随着训练数据增加，模型的对数似然损失和 MAPE 皆遵循 power law 下降。

此外，通过比较三项扩展要素的的指数 \alpha，我们发现参数量的扩展对提升 OOD 性能最为关键，这与 LLM 的 scaling laws 观察一致。

02、跨架构的scaling laws

时间序列的基础模型主要基于 Transformer 的架构。在此，我们对比了 encoder-only 和 decoder-only Transformer 架构的扩展行为，进一步探索模型架构对扩展性的影响。我们也研究了 Moirai 和 Chronos 模型的设计对扩展性的具体影响。

图4：encoder-only 和 decoder-only Transformer 在各项训练要素上的扩展行为

Encoder-only vs. Decoder-only Transformer。图4展示了 ID 和 OOD 场景下 encoder-only 和 decoder-only Transformer 的对数似然损失随三种训练要素的扩展情况。总体来看，encoder-only 架构在 ID 和 OOD 预测上均表现出优于 decoder-only 架构的扩展性。

图5：Encoder-only Transformer vs. Moirai

Encoder-only Transformer vs. Moirai。图5展示了在 ID 和 OOD 场景下 encoder-only Transformer 和 Moirai 的对数似然损失随模型参数量增加的扩展表现。在ID数据上，与本文提出的 encoder-only Transformer baseline 相比，Moirai 的设计显著提升了模型的性能。然而，在OOD数据上，Moirai 参数增大的性能提升幅度却小于 baseline，这表明 Moirai 的设计限制了模型的可扩展性。

图6：Decoder-only Transformer vs. Chronos

Decoder-only Transformer vs. Chronos。图6展示了 decoder-only Transformer 与 Chronos-T5 随模型参数量变化的对数似然损失扩展行为。在对数似然损失评估中，我们发现 Chronos-T5 的 power-law 曲线的斜率很小，可能因为 Chronos 采用了离散概率预测头。由于离散分布下的对数似然损失对距离不敏感，除非预测值完全匹配标签，否则损失值会很大。使用 Symmetric Mean Absolute Percentage Erro (SMAPE) 进行评估时，我们观察到 Chronos-T5 在 ID 预测中的性能略优于 decoder-only Transformer baseline，但其设计并未提升 OOD 预测能力。

02、“涌现”行为

图7：时间序列模型“涌现能力”的案例研究

涌现行为。图 7 展示了三个零样本分布外时间序列预测的例子。我们观察到模型行为偏离了预期的 power-law 的模式，而是表现出更类似于涌现现象的特征：在模型大小达到临界阈值之前，模型的性能保持较低水平，之后模型的性能显著提升。这表明某些时序预测任务可能需要参数足够大的模型以捕获内在的动力模式。

时间序列基础模型的设计原则

基于我们对时间序列基础模型缩放定律的研究结果，我们阐述了以下设计原则，以指导有效且可扩展模型的开发。这些原则围绕训练数据、模型参数和架构，以及计算预算三个维度展开。

训练数据

实验表明，相较于 ID 数据，在 OOD 数据上增加训练数据集的规模可以带来更多预测性能的提升，说明扩大预训练数据集对泛化能力至关重要。然而，在增加数据量的同时，保持数据集中的多样性也同样必要。此外，我们观察到，虽然仅编码器和仅解码器 Transformer 之间存在性能差异，但其缩放模式几乎一致。这意味着数据扩展的增益对模型架构的依赖性较小，可以与模型改进并行进行。

模型参数和架构

研究显示模型大小对提升 OOD 性能的作用最为显著。在三个扩展因素中，增加模型大小对 ID 数据的预测带来的增益最大。在架构方面，encoder-only Transformer 通常比 decoder-only Transformer 预测表现更好，并且更具可扩展性。而对于 Chronos 和 Moirai，尽管在 ID 预测上有所提升，但其OOD的可扩展性相对较低，表明过强的归纳偏差可能限制了扩展性。好的架构设计应综合考虑性能、泛化能力和可扩展性。

计算预算

实验表明在给定的计算预算下，对数似然损失和 MAPE 存在一个的下限。这意味着，随着模型大小的增加，必须投入更多的计算资源才能获得更好的性能。然而，不同的训练目标或模型架构可能会显着影响这个界限。与模型大小和数据集大小的缩放行为类似，计算规模的增加对提高 OOD 性能的影响比对 ID 性能的影响更大，说明实现跨分布的鲁棒的泛化需要更大的模型、更多的数据和计算资源。

总结与展望

本研究从参数规模、计算资源和训练数据规模三方面探讨了时间序列基础模型在分布内和分布外场景下的扩展特性，并研究了不同架构的扩展行为。未来工作将探讨这些因素间的制约关系，以更好地优化资源配置。此外，不同上下文窗口和预测范围对模型性能的影响也需进一步探索。

编辑：于腾凯校对：林亦霖

相关文章：

时序数据怎么治？从预处理开始！

预测分析：时序预测的20个概念总结

<END>

据统计，99%的数据大咖都关注了这个公众号

👇

http://mp.weixin.qq.com/s?__biz=MzI1NzYwNTMzNw==&mid=2247527592&idx=1&sn=4ac7c863078747586fde8ca792bb146a

谈数据

聚焦数据治理，数字化转型，数据中台等领域专业知识总结和实战分享，做你身边最有价值的数据号！

最新文章

新央企成立，总部缘何落地天津？速览98家央企分布地图

一文解读：时序基础模型的缩放定律

一文读懂时序数据治理

一文看懂国家数据局挂牌一年的工作成果

为什么大数据和数据中台“落寞”了？

架构圣经：Architecture Thinking !

信创觉醒！央国企信创数字化转型是国家信息安全与自主创新的战略要求！（附70页PPT）

业财一体，用数据重构业财协同新模式！

数据质量提升“五步曲”

央国企成立数科公司底层逻辑！

尤瓦尔·赫拉利：永不休眠的AI，正在制造慢不下来的人类

裁员了，很严重，大家做好准备吧...

麦肯锡：数据治理与架构优化蓝图设计咨询方案

51张架构图，彻底讲透如何做数字化转型IT建设！

数智驱动、敏捷经营！《2024企业敏捷经营实践合集》附下载

黄仁勋2万字专访：揭秘马斯克19天不睡觉建成10万GPU超算中心！

非结构化数据治理解决方案！

政策扶持！全体数据人恭喜了！这才是未来5年最好的就业方向！

2025年人工智能十大趋势！

国家数据标准体系建设指南！（附下载）

只需一年三万，打造自己的报表工具，强到离谱！

数据指标体系搭建与行业实践

Gartner：2025年十大战略技术趋势！

Gartner：2024年十大战略技术趋势

Gartner：2023年十大战略技术趋势

重塑数据价值：从数据中台到数据飞轮

别说你懂湖仓一体！

原生鸿蒙纯血鸿蒙高燃炸场！一年走完国外十几年的路！现场观众连呼：遥遥领先！

数据治理：详解数据安全分类分级

真正的大佬，根本不会选“先搞起来再说”

数据中台即将消亡了，还是有人不清楚这个概念？

数据资产目录构建方法与应用

中央任命，97家央企掌舵人！

非结构化数据治理与数据中台

央企成立大量数科公司，传统IT公司如何应对？

黄奇帆最新万字演讲，读懂它就读懂了中国经济！

数据治理“三字经”，伴君摘得“满天星”

数据分类分级方法、标准及应用实践！

数字化转型中的项目思维变革

国家数据局发布《关于促进企业数据资源开发利用的意见（征求意见稿）》

震惊！近500家央国企成立数科公司，将对传统IT企业形成降维打击？！

国家“十五五”规划（2026-2030）

让你顿悟的思维模型大全（图解）

上6休3上3休2……这烧脑的调休安排，国内外AI都算不明白，集体大“翻车”！

从云栖大会，透视中国AI水面下的暗涌！

数据管理下半场：数据资产运营如何结合业务和管理，最大化发挥经营价值？

关于征集《公共数据授权运营合规要求》参编单位的通知！

终于有人把数据指标体系设计方法讲明白了

OpenAI发布史上最强模型-o1，推理能力超人类博士！

如何搭建适合自己的数据中台？六步法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉