一文解读：时序基础模型的缩放定律

文摘 2024-11-19 17:50 山西

随着时间序列基础模型 (Time series foundation models, TSFMs) 的快速发展，时序预测的研究正在从专门的任务模型转向通用模型的开发范式。模型如 Timer、Moirai 及最近提出的10B规模的 Time-MoE 表现出数据量与模型规模的扩展趋势。社区期望通过更多资源的投入，进一步提升时序预测的性能。

模型缩放定律 (Scaling laws) 提供了一种定量框架，描述模型性能如何随模型参数、计算资源和训练数据规模等核心要素的变化而增长。建立时间序列基础模型的 scaling laws 对其开发至关重要，因为它提供了预测性能收益的参考依据，使研究者可以更加高效地配置资源。

近日，由来自澳大利亚格里菲斯大学、香港科技大学 (广州)、NVIDIA、东京大学等机构的研究团队对时序基础模型的缩放定律进行了深入探索。目前关于时间序列基础模型的 scaling laws 的探索仍然处于早期阶段。已有的研究主要关注时间序列基础模型在分布内（In-distribution, ID）数据上的scaling laws，缺乏对分布外（Out-of-distribution, OOD）的扩展行为，以及模型架构对扩展行为影响的研究。

【论文标题】

TOWARDS NEURAL SCALING LAWS FOR TIME SERIES FOUNDATION MODELS

【论文地址】

https://arxiv.org/abs/2410.12360

研究动机

在实际应用中，时间序列基础模型主要面临来自未知场景的挑战，因此分布外的预测能力尤为关键。这引出一个新的问题：scaling laws 能否用于预测时间序列模型在分布外数据中的性能表现？

尽管各种时间序列模型架构不断涌现，但大多专注于特定规模的性能改进。不同架构间的扩展特性尚未得到充分研究，进而引发了另一个关键问题：模型架构对其可扩展性有何影响？

此外，虽然投入的训练资源在增加，但构建更大模型的瓶颈和推动力尚不明晰。这提出了一个实际问题：如何从可扩展性视角设计时间序列基础模型？

技术贡献

本文旨在为上述研究问题提供实验支持。我们训练了一系列基于 encoder-only Transformer 的时间序列基础模型，探讨了模型参数、计算预算和训练集大小这三个训练因素对模型 ID 和 OOD 预测性能的影响，从而建立了跨分布的 scaling laws。

为进一步研究模型架构对缩放行为的影响，我们还训练了基于 encoder-only Transformer 的时间序列基础模型，并与基于 decoder-only Transformer 的模型进行了对比。此外，我们引入了两个 SOTA 时间序列基础模型——Moirai 和 Chronos，作为具体的案例进行深入研究。基于实验结果和对比分析，我们最终从扩展性角度提出了时间序列基础模型的设计指导。

我们的贡献总结如下：

跨数据分布的 scaling laws：将时间序列基础模型的 scaling laws 从分布内场景推广到分布外场景，涵盖模型规模、计算资源和数据集规模三个要素，为分布外数据的性能预测提供了基础。
跨模型架构的 scaling laws：研究 encoder-only 和 decoder-only Transformer 架构在扩展性上的差异，为可扩展的时间序列模型设计提供参考。
scaling laws 引导的设计原则：通过分析模型在跨分布和跨架构场景下的扩展行为，为时间序列基础模型的设计提供从数据、模型和计算角度的实际指导。

关键结论

01、跨分步的scaling laws

在分布内与分布外数据上，时间序列基础模型性能的扩展表现均符合 power laws。如图1，图2，图3所示，对数似然（log-likelihood）损失和 Mean Absolute Percentage Error（MAPE）分别随着模型的参数量（N），计算量（C），以及训练数据量（D）在对数尺度上线性下降。power law 表达式如下：

其中，表示模型性能（对数似然损失或 MAPE），是训练中的扩展要素（模型参数量，计算量或训练数据量），是待求的归一化系数，则为指数，用以表征模型性能随扩展要素提升的程度。

图1：参数量的扩展

参数量的扩展。图1展示了对数似然和 MAPE 随模型参数量增加在 ID 和 OOD 场景下的变化。当使用对数似然进行评估时，模型在不同数据分布中的缩放行为均符合 power law，且表现出一致的趋势。

图2：计算量的扩展

计算量的扩展。图2显示了对数似然和 MAPE 随计算量增加在 ID 和 OOD 场景下的变化。无论分布内或分布外，计算量的提升均带来预测性能的显著改善。同时，在给定计算量时，模型的预测性能在 ID 和 OOD 数据上都存在一个下边界。

图3：训练数据量的扩展

数据量的扩展。图3展示了数据量对模型在 ID 和 OOD 数据上预测性能的影响。随着训练数据增加，模型的对数似然损失和 MAPE 皆遵循 power law 下降。

此外，通过比较三项扩展要素的的指数 \alpha，我们发现参数量的扩展对提升 OOD 性能最为关键，这与 LLM 的 scaling laws 观察一致。

02、跨架构的scaling laws

时间序列的基础模型主要基于 Transformer 的架构。在此，我们对比了 encoder-only 和 decoder-only Transformer 架构的扩展行为，进一步探索模型架构对扩展性的影响。我们也研究了 Moirai 和 Chronos 模型的设计对扩展性的具体影响。

图4：encoder-only 和 decoder-only Transformer 在各项训练要素上的扩展行为

Encoder-only vs. Decoder-only Transformer。图4展示了 ID 和 OOD 场景下 encoder-only 和 decoder-only Transformer 的对数似然损失随三种训练要素的扩展情况。总体来看，encoder-only 架构在 ID 和 OOD 预测上均表现出优于 decoder-only 架构的扩展性。

图5：Encoder-only Transformer vs. Moirai

Encoder-only Transformer vs. Moirai。图5展示了在 ID 和 OOD 场景下 encoder-only Transformer 和 Moirai 的对数似然损失随模型参数量增加的扩展表现。在ID数据上，与本文提出的 encoder-only Transformer baseline 相比，Moirai 的设计显著提升了模型的性能。然而，在OOD数据上，Moirai 参数增大的性能提升幅度却小于 baseline，这表明 Moirai 的设计限制了模型的可扩展性。

图6：Decoder-only Transformer vs. Chronos

Decoder-only Transformer vs. Chronos。图6展示了 decoder-only Transformer 与 Chronos-T5 随模型参数量变化的对数似然损失扩展行为。在对数似然损失评估中，我们发现 Chronos-T5 的 power-law 曲线的斜率很小，可能因为 Chronos 采用了离散概率预测头。由于离散分布下的对数似然损失对距离不敏感，除非预测值完全匹配标签，否则损失值会很大。使用 Symmetric Mean Absolute Percentage Erro (SMAPE) 进行评估时，我们观察到 Chronos-T5 在 ID 预测中的性能略优于 decoder-only Transformer baseline，但其设计并未提升 OOD 预测能力。

02、“涌现”行为

图7：时间序列模型“涌现能力”的案例研究

涌现行为。图 7 展示了三个零样本分布外时间序列预测的例子。我们观察到模型行为偏离了预期的 power-law 的模式，而是表现出更类似于涌现现象的特征：在模型大小达到临界阈值之前，模型的性能保持较低水平，之后模型的性能显著提升。这表明某些时序预测任务可能需要参数足够大的模型以捕获内在的动力模式。

时间序列基础模型的设计原则

基于我们对时间序列基础模型缩放定律的研究结果，我们阐述了以下设计原则，以指导有效且可扩展模型的开发。这些原则围绕训练数据、模型参数和架构，以及计算预算三个维度展开。

训练数据

实验表明，相较于 ID 数据，在 OOD 数据上增加训练数据集的规模可以带来更多预测性能的提升，说明扩大预训练数据集对泛化能力至关重要。然而，在增加数据量的同时，保持数据集中的多样性也同样必要。此外，我们观察到，虽然仅编码器和仅解码器 Transformer 之间存在性能差异，但其缩放模式几乎一致。这意味着数据扩展的增益对模型架构的依赖性较小，可以与模型改进并行进行。

模型参数和架构

研究显示模型大小对提升 OOD 性能的作用最为显著。在三个扩展因素中，增加模型大小对 ID 数据的预测带来的增益最大。在架构方面，encoder-only Transformer 通常比 decoder-only Transformer 预测表现更好，并且更具可扩展性。而对于 Chronos 和 Moirai，尽管在 ID 预测上有所提升，但其OOD的可扩展性相对较低，表明过强的归纳偏差可能限制了扩展性。好的架构设计应综合考虑性能、泛化能力和可扩展性。

计算预算

实验表明在给定的计算预算下，对数似然损失和 MAPE 存在一个的下限。这意味着，随着模型大小的增加，必须投入更多的计算资源才能获得更好的性能。然而，不同的训练目标或模型架构可能会显着影响这个界限。与模型大小和数据集大小的缩放行为类似，计算规模的增加对提高 OOD 性能的影响比对 ID 性能的影响更大，说明实现跨分布的鲁棒的泛化需要更大的模型、更多的数据和计算资源。

总结与展望

本研究从参数规模、计算资源和训练数据规模三方面探讨了时间序列基础模型在分布内和分布外场景下的扩展特性，并研究了不同架构的扩展行为。未来工作将探讨这些因素间的制约关系，以更好地优化资源配置。此外，不同上下文窗口和预测范围对模型性能的影响也需进一步探索。

想要了解更多资讯，请扫描下方二维码，关注机器学习研究会

转自：数据派THU

http://mp.weixin.qq.com/s?__biz=MzU1NTUxNTM0Mg==&mid=2247576470&idx=3&sn=d55ce18c10a32f871e7d1bda34a88bf5

机器学习研究组订阅

机器学习研究会由百度七剑客雷鸣先生创办，旨在推动AI的技术发展和产业落地。参与组织北大、清华”AI前沿与产业趋势“公开课，广泛的和高校、企业、创业、VC开展合作，自身也参与优秀AI项目的投资和孵化。

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

基于MCMC的贝叶斯营销组合模型评估方法论：系统化诊断、校准及选择的理论框架

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

逼真到离谱！1000个人类「克隆」进西部世界，AI相似度85%细节太炸裂

Mistral放大招！124B多模态巨无霸登场，免费版ChatGPT震撼突袭

一文解读：时序基础模型的缩放定律

OpenAI「23个黑手党」出走创业，融资近百亿！华人科学家约占1/3

10种数据预处理中的数据泄露模式解析:识别与避免策略

「谍战」开启！基建狂魔马斯克122天交付10万卡超算，对手大恐慌派间谍飞机侦查

14天速成LLM高手！大佬开源学习笔记，GitHub狂揽700星

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%

Github上的十大RAG(信息检索增强生成)框架

斯坦福伯克利重磅发现DNA Scaling Law，Evo荣登Science封面！AI设计DNA/RNA/蛋白质再突破

ChatGPT深夜两弹更新！macOS版联动三款IDE无缝编程，Windows版全量上线

RAPTOR：多模型融合+层次结构 = 检索性能提升20%，结果还更稳健

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

LLM4Rec最新重磅工作：字节跳动序列推荐分层大模型HLLM

OpenAI总裁出走3月终于归来！Greg结束「最长假期」专注重大技术挑战，每周狂肝100小时代码

Transformer打破三十年数学猜想！Meta研究者用AI给出反例，算法杀手攻克数学难题

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

扩散模型失宠？端侧非自回归图像生成基础模型Meissonic登场，超越SDXL！

Scaling Law撞墙，AI圈炸锅了！OpenAI旗舰Orion被曝遭遇瓶颈，大改技术路线

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

奥特曼专访自曝OpenAI掌握AGI密钥，2025年降临！1人1万块GPU缔造十亿独角兽

哈佛推出全新类ChatGPT癌症诊断AI，登上Nature！准确率高达96%

基于图论的时间序列数据平稳性与连通性分析：利用图形、数学和 Python 揭示时间序列数据中的隐藏模式

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

川普赢了，AI圈炸了！英伟达市值突破3.6万亿， OpenAI研究员：他或将见证AGI诞生

失业小哥在父母卧室做AI应用，日入2万刀！晒账单爆火全网，AI初创价值3500万

特朗普回归，美国AI解禁！马斯克变身全球首富，硅谷科技圈颠覆在即

软体机器人领域顶尖学者齐聚清华！第九届软体机器人大会将于11月15—17日在清华举行

从今天起，ChatGPT入口就是chat.com！

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer，火爆国外

英伟达3.4万亿市值稳坐全球第一！苹果12年霸主地位终结

图结构赋能语言模型：华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

AI圈卷疯了！xAI、Anthropic同日上线API：Grok免费公测，Claude 3.5 Haiku价格暴涨

AGENTiGraph：一个交互式知识图谱平台驱动的基于私有数据多智能体系统 - 东京&耶鲁大学等最新研究

UCLA、MIT数学家推翻39年经典数学猜想！AI证明卡在99.99%，人类最终证伪

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉