NeurIPS24 | Time-FFM: 联邦学习赋能的时间序列基座模型

文摘   2024-10-14 07:43   北京  

论文标题:Time-FFM: Towards LM-Empowered Federated Foundation Model for Time Series Forecasting

作者:Qingxiang Liu(刘庆祥), Xu Liu(刘旭), Chenghao Liu(刘成昊), Qingsong Wen(文青松), Yuxuan Liang(梁宇轩)

机构:中科院计算所,香港科技大学(广州),新加坡国立大学(NUS),Salesforce,松鼠AI

论文链接https://arxiv.org/abs/2405.14252

TL; DR:本文介绍了Time-FFM,一种基于联邦学习范式的时序预测基座模型。

关键词:时间序列预测,基座模型,联邦学习,少样本,零样本

点击文末阅读原文跳转本文arXiv链接。

论文概述

近期,构造时序预测基座模型这一方向迸发出了许多相关进展。其核心思想在于联合跨域(cross-domain)时序数据训练同一预测模型[1]。然而不同领域的数据通常源于不同的机构或组织。出于隐私保护的目的,这些数据难以共享并直接用于训练基座模型。本研究旨在构造一种基于联邦学习范式的时序预测基座模型,在保证各domain时序数据不出本地、避免潜在的数据隐私泄露的条件下,增强预测模型对通用时序表征的学习能力,从而提高对未知下游预测任务的泛化性能。

图1 不同预测范式

构造这一联邦基座模型主要存在三个挑战:

  • 异构输入:不同领域的时序数据的维度、历史观测步长不一致
  • 提示词错位:基于领域知识设计的提示词(prompt)导致预训练语言模型(LM)可能对时序输入token的理解能力差、对下游未知领域的鲁棒性差
  • 泛化性和个性化冲突:理想的基座模型应该可以既能够学习到跨领域数据的通用时序表征,又能够针对特定领域生成个性化的预测结果。

这项工作的主要贡献可以总结如下:

  • 首次尝试通过利用LMs的序列推理潜力来构建用于时间序列预测的联邦FM,避免了私有数据的泄露。
  • 提出了Time-FFM基座模型,首先将时间序列数据与自然语言的模态对齐,并自适应地确定prompt来指导LM进行时间序列推理;设计了个性化联邦学习的策略,以在共享通用时间知识和保证定制化预测结果之间取得平衡。
  • TIME-FFM在主流预测任务中取得了SOTA的预测性能,尤其是在少样本或零样本场景中。

图2 Time-FFM

模型架构

Time-FFM的架构如图2所示,其主要包括四个模块:模态对齐、prompt自适应、LM主干以及个性化预测模块。

模态对齐:通过channel-independent技术,将多元时序拆分成单元时序分别进行处理。然后将每个输入序列划分成若干个步长相等、互不重叠的子序列(称为patch)。每个patch可以类比为NLP任务中的一个单词。最后通过全连接层将patch映射到预训练LM的输入维度。

prompt自适应:为了提高LM对patch token的理解和推理能力,需要针对不同领域的数据设计合理的prompt。目前的相关工作均需要根据领域知识人为构造一些指令作为prompt增强LM对patch token的理解[2][3]。本研究考虑这些指令是对原始时序数据统计属性的描述,而LM仅能获取到经过处理后的patch token。因此更合理的方式应该是站在LM对patch token理解的角度去构造prompt。LM对输入token理解的媒介主要是预训练的词库,因此本研究通过cross-attention去评估词向量和patch token之间的相关性,并选出最相关的k个词向量作为prompt。另一方面,这种方式能够更好地适应到未知领域的时序预测。

LM 主干:在整个训练过程中,该模块处于冻结状态。在本研究的实验中,使用预训练的GPT2的前6层transformer作为主干。

个性化预测模块:为了保证模型能够学习到跨领域数据的通用时序表征并生成领域特定的预测结果,在训练过程中,各领域仅交互模态对齐与prompt自适应这两个模块的模型参数。每个领域保留自己的预测head。

实验效果

本研究在8个经典的时序预测数据集上进行了全面的评估。如下表所示,Time-FFM在所有联邦微调方法中(TY1)能达到最佳的预测效果。和中心化的预测方法(TY2和TY3)相比,Time-FFM也能够取得一定程度的性能提升,表明了Time-FFM这一联邦基座模型的有效性。

图3 预测性能比较

此外,本研究评估了在零样本训练场景下的预测性能。首先使用ETTh1、ETTm1以及ETTm2三个数据集训练Time-FFM,然后在下表三个数据集上评估ETTh1的模型性能。如下表所示,Time-FFM在zero-shot场景中展示了非凡的预测性能。

图4 零样本

参考文献

[1] Liu, X., Hu, J., Li, Y., Diao, S., Liang, Y., Hooi, B., and Zimmermann, R. Unitime: A language-empowered unified model for cross-domain time series forecasting. In Proceedings of the ACM Web Conference 2024, 2024.
[2] Jin, M., Wang, S., Ma, L., Chu, Z., Zhang, J. Y., Shi, X., Chen, P.-Y., Liang, Y., Li, Y.-F., Pan, S., and Wen, Q. Time-LLM: Time series forecasting by reprogramming large language models. In The Twelfth International Conference on Learning Representations, 2024.
[3] Zhou, T., Niu, P., Sun, L., Jin, R., et al. One fits all: Power general time series analysis by pretrained lm. Advances in neural information processing systems, 36, 2024.

推荐阅读

VLDB2024 |TFB:  全面且公平的时间序列预测方法评测基准

论文精读 |2024[ICLR]Time-LLM:通过重编程大语言模型进行时间序列预测

论文精读 |2024[ICLR]Time-LLM:通过重编程大语言模型进行时间序列预测

NeurIPS 2024 | 时间序列(Time Series)论文总结

NeurIPS 2024 | 时空数据(Spatial-Temporal)论文总结

ICML 2024 时间序列(Time Series)和时空数据(Spatial-Temporal)论文总结【抢先版】

ICLR 2024 | 时空数据(Spatial-Temporal)论文汇总|

ICLR 2024 | 时间序列(Time Series)论文




欢迎各位作者投稿近期有关时空数据时间序列录用的顶级会议期刊的优秀文章解读,我们将竭诚为您宣传,共同学习进步。如有意愿,请通过后台私信与我们联系。


点击文末阅读原文跳转本文arXiv链接。

如果觉得有帮助还请分享,在看,点赞

时空探索之旅
分享时空数据和时间序列前沿文献。偶尔聊聊影视剧。
 最新文章