清华大学NeurIPS'24:时序大模型AutoTimes,结合In-context Learning提升预测效果

科技   2024-10-30 23:14   北京  

点关注,不迷路,用心整理每一篇算法干货~

后台留言”交流“,加入圆圆算法交流群~
👇🏻扫码👇🏻加入圆圆算法知识星球~
(原价最后2天)
已有900+同学加入学习,700+干货笔记)

今天给大家介绍一篇清华大学发表于NIPS2024中的大模型时间序列预测工作AutoTimes,使用大模型进行自回归形式的时间序列预测,并结合In-Context Learning提升预测效果。

论文标题:AutoTimes: Autoregressive Time Series Forecasters via Large Language Models

下载地址https://arxiv.org/pdf/2402.02370

1

背景

大模型在时间序列预测中的应用已经有了一些研究工作。之前的大模型时序预测,主要讲大模型当成一个表征抽取器,将时间序列对齐大模型表征空间后输入LLM,生成的编码经过映射得到预测结果。

然而,本文认为这种建模方法没有充分利用大模型自回归的能力。因此,本文提出采用自回归的方式将大模型应用到时间序列预测中。并结合NLP中的prompt、in-context learning等技术,提升大模型时序预测的效果。

2

实现方法

本文的建模方法主要可以分为时序信息处理、大模型预测、时序in-context learning三个部分。整体的建模流程图图所示。

时序信息处理:LLM输入时间序列编码和位置编码两种类型的信息。对于时间序列,将其分解成多个不重叠的segment,每个segment通过一个Embedding层映射成一个token embedding。对于每个时间步的具体信息,取每个片段最后一个时间戳的文本信息,直接用其对应的LLM文本编码作为position embedding。每个片段的序列编码和位置编码拼接到一起,作为LLM的输入。

大模型预测:AutoTime整体建模采用自回归的方式。时间序列信息输入到LLM后,LLM参数固定不变,生成segment对应的编码。然后使用一层网络,将每个segment的编码映射成时间序列值,使用MSE计算loss进行模型优化。训练任务采用next item prediction的形式,循环的根据前面的时序token预测下一个时序token,和LLM的优化方式对齐。

时序In-context Learning:借鉴NLP中的In-context Learning思路,文中在进行目标数据集的预测时,利用源数据集中的时间序列构建prompt,拼接到当前待预测的数据中。通过在源数据集中,抽取几对历史序列+未来序列数据,转换成token embedding后,拼接到当前样本前面,作为context信息,帮助大模型对当前样本的预测。

3

实验效果

文中在短周期时序预测、长周期时序预测等任务上都进行了实验,取得了大模型时序预测方法中的最优效果,相比传统的PatchTST等建模方法也有优势。

文中也进一步验证了In-context Learning的效果。相比Zero-shot Learning,In-context Learning在引入例子作为prompt信息后,使得模型的预测效果取得了进一步提升。

通过case分析也可以看出,In-context Learning的预测结果更加准确。

END




后台留言”交流“,加入圆圆算法交流群~
后台留言”星球“,加入圆圆算法知识请星球~【时序预测专题课程持续更新中
知识星球提供一文贯通笔记、经典代码解析、问答服务、新人入门,已有900+小伙伴加入价格随人数增加和内容丰富上涨,感兴趣的同学尽早加入~


投稿&加交流群请加微信,备注机构+方向拉群~

【历史干货算法笔记】
生成式模型入门:一文讲懂3大类生成式模型
Sptial-Temporal时空预测总结:建模思路、优化方法梳理
时序预测顶会论文数据集、数据处理方法、训练方法汇总
时间序列预测实战方法概述:从数据到模型
Informer模型结构和代码解析
基于Transformer的时序预测模型TFT代码详解
时空预测经典模型STGCN原理和代码解读
一网打尽:14种预训练语言模型大汇总
Vision-Language多模态建模方法脉络梳理
花式Finetune方法大汇总
从ViT到Swin,10篇顶会论文看Transformer在CV领域的发展历程

如果觉得有帮助麻烦分享在看点赞~  

圆圆的算法笔记
定期更新深度学习/算法干货笔记和世间万物学习记录~
 最新文章