业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

创业 2024-10-21 08:22 北京

在当今以数据为驱动的时代，时序预测已成为众多领域不可或缺的核心组成。然而，构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外，高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。
近日，由来自普林斯顿大学, 松鼠AI, 格里菲斯大学等全球多地的华人国际科研团队携手通力合作，创新性地提出了一种基于混合专家架构（Mixture of Experts, MoE）的时间序列基础模型——Time-MoE。该模型首次将时间序列预训练大模型的参数规模推向十亿级别，在时序预测领域实现了里程碑式的突破。Time-MoE模型通过MoE架构的独特优势，将模型参数成功扩展至24亿，不仅显著提升了预测精度，还在降低计算成本的同时超越了众多现有模型，全面达到了SOTA（State of the Art）水平。
与此同时，团队精心整理了预训练数据集Time-300B，这是目前时序领域最大的公开数据集，为各类时序任务提供了前所未有的通用解决方案。这是首次在时序领域中采用如此大规模的预训练模型，标志着时序预测技术迈入了一个全新的时代。

论文题目：
Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts
论文链接：
https://arxiv.org/pdf/2409.16040
代码链接：
https://github.com/Time-MoE/Time-MoE

一、关键技术突破

强大的混合专家架构：Time-MoE采用稀疏激活机制，在预测任务中仅激活部分网络节点，这不仅确保了高预测精度，还显著降低了计算负担，完美解决了时序大模型在推理阶段的计算瓶颈。
灵活的预测范围：Time-MoE支持任意长度的输入和输出范围，能够处理从短期到长期的各种时序预测任务，实现了真正的全域时序预测。
全球最大规模的开源时序数据集：团队开发了Time-300B数据集，涵盖9个领域的超过3000亿个时间点，为模型提供了丰富的多领域训练数据，确保其在多种任务中的卓越泛化能力。

在相同激活参数条件下，Time-MoE显著超越了现有的时序基础模型。在相同的FLOPs下，其稀疏架构展现出相较于密集模型的卓越精度优势。

二、模型框架

输入Token Embedding

Time-MoE使用逐点分词方法以确保时间序列信息的完整性，提高了模型处理不同长度序列的灵活性与适用性，如模型框架图中①所示。在②中，SwiGLU激活函数对每个时间序列点进行嵌入，其中包括一个Feed-forward network (FFN) 和一个Swish FFN，从而增强模型对多维输入的处理能力：

MoE Transformer模块

Time-MoE基于decoder-only Transformer，并结合了大规模语言模型中的最新技术。Transformer模块里， RMSNorm对每个子层输入进行了归一化处理，从而提升了训练的稳定性。同时，采用旋转位置编码代替绝对位置编码，使得模型在处理可变序列长度时具备更好的外推能力。此外，模型引入了稀疏激活的混合专家层来取代标准Transformer模块里的FFN。公式化概括如下：

其中Mixture代表混合专家层。如模型框架图中③所示，单个时间序列数据点可以被分配给一个或多个专家。通过选择部分专家网络来处理特定时间点的输入，模型的计算效率得到了提高：

多分辨率预测

如模型框架图中④和⑤所示，Time-MoE设计了一种多分辨率预测头，可以同时进行不同尺度的预测，突破了单一尺度预测的局限。在训练时，不同分辨率头会被联合优化。在与推理时，模型采用贪心算法，利用不同尺度的输出组合成任意的预测长度。这种设计允许模型根据不同的预测范围进行灵活预测，并在训练过程中综合多个预测尺度的误差来优化模型的泛化能力，从而显著提升预测的准确性和鲁棒性。

三、实验效果

零样本 zero-shot预测

零样本预测能有效检验时序基础模型的泛化能力和通用性。实验表明，与现有的时序基础模型相比，Time-MoE达到了最好的预测效果，均方误差（MSE）降低了约20%。

全样本 full-shot预测

在全样本预测中，预训练的Time-MoE会使用相应数据的训练集进行微调。实验表明，与专门为全样本预测设计的时序模型相比，Time-MoE依然能达到最优的效果， MSE降低了约24%。这体现了模型对于不同领域数据的适用性，以及预训练基础模型对于下游任务帮助的有效性。

消融实验

文中进一步提供了一系列消融实验来验证模型框架设计的合理性。实验表明，Time-MoE的设计在提升模型精度上是有效的。特别地，在不使用混合专家的情况下，模型的MSE会有明显的退化。

Scalability 分析

作者对于模型的规模化效果进行了详细分析，如下图所示。左图的实验表明，与稠密模型相比，稀疏模型减少了平均78%的训练成本和39%的推理成本。右图的结果表明，随着数据量和模型参数的增大，Time-MoE持续表现出稳定的性能提升，并且与同规模的稠密模型相比，总能达到更小的MSE和更好的预测性能。

此外，作者还分析了训练精度的影响。如下表所示，与使用float32精度进行训练相比，使用bfloat16精度能得到相似的预测性能，但是bfloat16模型能在训练速度上获得12%的提升，内存占用上有 20%的减少。此外，bfloat16还可以与flash-attention（表中简称为FA）无缝结合，从而进一步在训练和推理速度上带来23%和19%的提升。

四、总结

Time-MoE的成功标志着时序预测领域迈入了一个全新时代。它不仅在性能上全面超越了现有模型，更为构建大规模、高效、通用的时序预测基础模型奠定了一个可行的范式。Time-MoE的发布不仅为学术界开辟了全新的研究方向，也为工业界的多种时序应用场景注入了巨大的潜力。在能源管理、金融预测、电商销量、气象预报等众多关键领域，Time-MoE将成为企业和研究机构的强大工具。

llustration From IconScout By Kawalan Studio

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650514582&idx=1&sn=69d1d998d8dacc32278770deaa940e82

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

ICLR 2024 | BioBridge：通过知识图谱桥接生物医学基础模型

将门月报 | 格灵深瞳携手北京铁路局、文远知行与Uber达成战略合作、帷幄与华为云建立战略合作伙伴关系......

清华、北大等发布Self-Play强化学习最新综述

ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

Talk预告｜慕尼黑工业大学翟光耀：SG-Bot - 基于场景图生成式模型的机械臂操作和物体重排

300篇文献！大模型走向物理世界：TeleAI发布大模型驱动的具身智能综述

Talk预告｜北京航空航天大学阮受炜：探索视觉感知的3D视角鲁棒性

ECCV 2024 | EchoScene：通过场景图扩散生成3D室内场景

一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉