AAAI 2025 | CALF:用于长期时间序列预测的高效跨模态LLM微调框架

科技   2024-12-14 23:59   上海  

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

深度学习在多变量时间序列预测(MTSF)领域取得了显著进展。尽管现有的方法大多依赖于单一模态的时间序列输入进行训练,但近期基于大语言模型(LLMs)的跨模态时间序列预测方法在数据有限的情况下展示了卓越的性能。然而,现有的 LLM-based MTSF 方法通常忽略了文本和时间序列输入之间的分布差异,导致性能次优。


本文介绍一篇来自清华大学和深圳大学开展的时间序列预测研究工作。研究者提出了一种新的跨模态大语言模型微调框架(CALF),旨在减少文本与时间序列数据之间的分布差异。CALF 主要包括时间序列目标分支和文本源分支,通过跨模态匹配模块、特征正则化损失和输出一致性损失,实现了两种模态之间的高效对齐。实验结果表明,CALF 在长短期预测任务中均取得了最新的性能,并展示了与大语言模型类似的优越少样本和零样本能力。


这种方法通过对时间序列数据和文本数据进行跨模态对齐,显著提升了预测性能,并为时间序列预测提供了新的思路和方法。CALF 框架的提出,不仅扩展了大语言模型在时间序列预测中的应用,还展示了在低计算复杂度下实现高效预测的潜力。这一研究工作为未来在多领域数据中动态建模现实世界时间现象提供了重要的参考。



【论文标题】CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning
【论文地址】https://arxiv.org/pdf/2403.07300
【论文源码】https://github.com/Hank0626/CALF


论文概述

现有的时间序列预测方法在处理多变量时间序列预测(MTSF)方面取得了显著的进展。传统的单模态时间序列预测方法通常仅依赖时间序列输入进行训练,这些方法虽然取得了一定的成功,但也面临着由于训练数据有限导致的过拟合问题,从而限制了其在实际应用中的效果。

近年来,大型语言模型(LLMs)由于其强大的上下文建模能力,被引入到时间序列预测领域,以缓解上述问题。尽管现有的基于 LLMs 的方法在时间序列预测中展示了优越性,但它们通常忽略了文本和时间序列输入之间的分布差异(如下图),从而导致次优的性能。


为了应对这一问题,本文提出了一种新颖的跨模态 LLM 微调框架(CALF),通过减少文本和时间序列数据之间的分布差异来提升时间序列预测的性能。

具体而言,CALF 框架包括两个主要部分:处理时间序列输入的时间目标分支和处理文本输入的文本源分支。为了减少这两个分支之间的分布差异,研究者设计了跨模态匹配模块(Cross-modal Match Module)、特征正则化损失(Feature Regulariztion Loss)和输出一致性(Output Consistency Loss)损失。

  • 跨模态匹配模块通过主要词嵌入提取和跨注意力机制,确保时间序列和文本输入的分布一致。

  • 特征正则化损失通过对齐中间层特征,优化模型权重更新。

  • 输出一致性损失则确保文本和时间序列输出表示的一致性,从而实现更有效的预测。

跨模态微调技术的概念性图解

本文的主要贡献点包括:


  1. 提出了一个新的跨模态 LLM 微调框架(CALF),通过跨模态匹配模块、特征正则化损失和输出一致性损失,减少文本和时间序列数据之间的分布差异,提升时间序列预测性能。


  2. 提出了多种跨模态微调技术,包括跨模态匹配模块、特征正则化损失和输出一致性损失,从输入、特征和输出层面全方位对齐文本和时间序列数据。

  3. 通过大量实验验证了 CALF 在多个长期和短期时间序列数据集上的有效性,展示了其在预测性能和计算效率方面的显著提升,特别是在少样本和零样本学习能力方面表现优异。


模型介绍


本文提出的跨模态微调框架图

本文旨在使用跨模态微调的技术来解决将 LLM 应用到时序预测任务中的域适应问题,使得语言和时序更好地对齐,从而提升时序预测模型的准确性和泛化能力。

模型的整体框架如上图所示,所提出的 CALF 由两个分支组成:文本源域分支和时序目标域分支。两个分支均由预训练的 GPT2 模型的若干层组成。不同的是,文本源域分支的输入是文本模态数据,而时序目标域的输入则是时间序列数据,为了使得两个分支的输入是对齐的,本文提出了三个对应的模块来促进文本和时序的不同角度对齐。下面将分别介绍这三个模块。

01

跨模态匹配模块 


研究者受之前 LLM 相关工作的启发,注意到 LLM 的文本嵌入层实际上包含了丰富的 token 之间的相关性知识,例如向量之间的夹角可以表示对应语义的相似度。为此,本文首次提出使用包含在 LLM 的嵌入层的知识来帮助时序预测模型学习和更好的上下文依赖。具体来说,给定多元时间序列作为输入,本文首先将其经过嵌入层以及多头自注意力机制来得到映射后的输出:


之后,考虑来自时序模态的  与本文模态的嵌入层字典进行对齐匹配。考虑到字典大小  通常是很大的,例如 GPT2 中为 50257 。因此直接使用交叉注意力来对齐文本和时序模态将会带来不可忽略的计算代价。为了实现高效的对齐,研究者提出首先使用主成分分析来将原始的语言字典的条目个数进行降维来得到更加紧凑的字典表示,即:
其中是人为定义好的超参数,满足在得到降维后的字典,本文使用交叉注意力来对齐文本和时序模态的输入数据:

02

特征正则化损失 


LLM 中的预训练权重基于其原始文本模态数据。为了更有效地将这些预先训练好的权重适应时间序列数据,本文将时序目标域分支中每个中间层的输出与文本源域分支的输出进行了对齐。在特征正则化损失的帮助下,这种对齐过程可以匹配两个分支之间的中间特征,从而更有效地引导每个中间层的梯度,实现更好的权重更新。

形式上来说,给定文本源域分支和时序目标域分支中第个 Tranformer 模块输出的  和 ,本文的特征正则化损失定义为:



其中是控制每一层重要性的超参数,sim表示特征相似度度量,例如相似度。此外,参考对比学习中的相关工作,本文在计算损失时引入了额外的映射层来将两个模态的中间特征映射到公共的表示空间。

03

输出一致性损失 


在特征正则化损失的基础上,本文进一步确保文本模态和时序模态之间语义上下文的一致性。为此,本文进一步提出了输出一致性损失,通过确保输出分布有效对齐,从而解决了不同模态表征空间的差异。

具体来说,给定分别来自文本源分支和时间目标分支的输出,输出一致性损失定义为:

其中,sim 为给定的特征相似性度量。

04

参数高效训练 


为了避免在微调下游任务时出现灾难性遗忘,同时提高训练效率,本文采用了参数高效训练技术来微调预训练 LLM。

具体来说,对于时序目标域分支,本文引入了LoRA,并对位置编码权重进行了微调。总的来说,训练期间的总损失是监督损失、特征正则化损失  和输出一致性损失  的加权总和:

在推理阶段,本文使用时序目标域分支的输出作为最终结果。

实验结果


长时预测:对比了基于 LLM 的时序预测模型,Transformer 模型,CNN 模型和  MLP 模型。输入长度均固定在 96,结果为 {96, 192, 336, 720} 的平均。从下表中可以看出,本文提出的模型在MSE和MAE指标上都取得了比较显著的提升。

短时预测:相较于之前的 SOTA 方法 TimesNet 有着明显提升。

少样本/零样本预测:CALF 优于其他基线方法,凸显了其在少量学习设置下的鲁棒性。与 GPT4TS 和 PatchTST 相比,本文方法分别实现了平均 8% 和 9% 的减少,比 GPT4TS 和 PatchTST 高出 4% 和 9% 。这表明 CALF 显著增强了模型在不同领域之间进行有效学习迁移的能力。

微调 loss 和 PCA 降维维度的 ablation 分析:

研究者还从概率论的角度对框架进行了解释,具体内容可查阅论文原文附录B。

总结


本文介绍了一种用于长期时间序列预测的高效跨模态 LLM 微调框架(CALF)。CALF 通过跨模态匹配模块、特征正则化损失和输出一致性损失,减少文本和时间序列数据之间的分布差异,显著提升了时间序列预测的性能。与之前单模态时间序列预测的方法相比,CALF 框架通过全方位对齐和利用文本与时间序列数据,在多个时间序列数据集上的预测性能和计算效率方面均表现出色,尤其在少样本和零样本学习能力方面展示了显著的提升。CALF 的提出为时间序列预测领域提供了一种新的高效工具,有望在实际应用中得到广泛推广。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!


扫码加入星球学习

▲点击上方卡片,关注CVer公众号

整理不易,请赞和在看

CVer
一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。
 最新文章