标题 | TIME-FFM: Towards LM-Empowered Federated Foundation Model for Time Series Forecasting |
---|---|
作者 | Qingxiang Liu, Xu Liu, Chenghao Liu, Qingsong Wen, Yuxuan Liang |
论文 | https://arxiv.org/html/2405.14252v2 |
邮箱 | yuxliang@outlook.com |
摘要
与自然语言处理和计算机视觉不同,由于数据稀缺,时间序列预测的基础模型(FMs)的发展受到了阻碍。虽然最近的努力集中在通过挖掘语言模型(LMs)在时间序列分析中的潜力来构建这样的FMs,但各种下游预测任务所需的专用参数需要训练,这阻碍了跨领域的共同知识共享。此外,由于隐私问题和版权保护,数据所有者可能会犹豫是否共享对本地数据的访问,这使得在跨领域训练实例上简单构建FM变得不可能。为了解决这些问题,我们提出了TIME-FFM,这是一个利用预训练LMs的联合基础模型,用于时间序列预测。具体来说,我们首先将时间序列转换为文本标记的模态。为了引导LMs进行时间序列推理,我们提出了一个提示适配模块,以动态而非人工方式确定领域定制的提示。鉴于跨领域的数据异质性,我们设计了一种个性化的联合训练策略,通过学习全局编码器和本地预测头。我们全面的实验表明,TIME-FFM超越了最先进的技术,并承诺有效的少量样本和零样本预测器。
1.引言
在引言部分,本文首先说明了在跨领域时间序列预测中使用基础模型的意义:
基础模型在NLP和CV的成功激发了其在时间序列预测中的应用兴趣,旨在通过预训练增强模型的通用性以支持多任务。然而,时间序列数据稀缺,限制了这些模型在微调和zero-shot任务中的表现。
接着,作者总结了目前的三种在跨领域时间序列预测中使用基础模型的思路及其片面之处,首先借下图展示目前的三种在跨领域时间序列预测中使用基础模型的思路和本文的思路:
(a) 为特定领域训练独立模型,但无法有效挖掘跨领域的时序共性,如图1(a)所示,不同领域的数据难以泛化;
(b) 训练统一模型,尽管集中训练有效,但隐私和版权问题,数据所有者可能会犹豫不决,限制了数据共享;
(c) 联邦学习环境目前仅用于微调语言模型以完成NLP任务,未适用于时间序列预测;
(d) 我们提出利用联邦学习范式,挖掘语言模型在时间序列跨领域预测中的潜力。
但是实现这一联邦基础模型在技术上并非易事,因为跨领域时间序列数据中普遍存在异质性:
异构输入:跨领域时间序列数据在维度和历史读数上异构,增加了模态对齐的难度。 刚性指令作为提示:依赖领域特定的刚性指令启动LM进行时间序列推理,降低了在未见领域的鲁棒性。 泛化与个性化的冲突:理想模型需学习跨领域的共通表示,同时提供个性化预测。
我们的主要贡献总结如下:
我们首次尝试通过利用语言模型的序列推理潜力来构建用于时间序列预测的联邦基础模型,避免了本地数据的泄露。 我们提出了TIME-FFM,该模型首先将时间序列数据的模态对齐为自然语言,并自适应地确定提示,以指导语言模型进行时间序列推理。此外,我们引入了一种个性化的联邦学习策略,以在共享共通时序知识和确保定制预测结果之间取得平衡。 大量评估结果表明,TIME-FFM在主流预测任务中实现了最先进的性能,特别是在少样本或零样本预测设置下表现突出。
2.相关工作
时间序列预测的基础模型(FMs)
最近的研究表明,微调预训练的基础模型在多种下游任务中具有良好的效果,例如NLP中的BERT、GPT、GPT2和LLaMa,以及CV中的DEiT和BEiT。
受到这些成功的启发衍生出两类研究者:
一些研究开始专注于为时间序列领域开发基础模型。
然而,由于数据不足,这些预训练模型无法保证学习到用于时间序列分析的通用表示,因此无法应用于多种下游任务。
另一类研究则尝试通过跨模态适应策略(如微调和模型重编程)来利用NLP或CV中的预训练基础模型进行时间序列分析。
这些方法为多样的下游任务提供了统一的模型结构,而不是统一的参数,从而使得所提出的基础模型学习到的时序共性受到限制。
Liu et al.(2024)提出训练一个用于跨领域时间序列预测的统一预测模型,使其能够学习内在的时间模式。然而,集中训练模式带来了跨领域数据所有者的隐私担忧,而联邦学习(FL)范式可能提供了一个有前景的解决方案。
语言模型的联邦微调
结合语言模型和联邦学习正逐渐成为研究趋势,已有框架支持在联邦环境中微调语言模型。
为降低通信成本,研究者提出了高效联邦微调方法,并探讨了数据异质性对微调性能的影响,提出个性化的联邦指令微调策略。然而,这些方法主要聚焦于NLP任务,尚未涵盖语言模型在时间序列预测中的跨模态适应。
3.方法论
3.1 问题定义
给定 个领域,令 表示第 个领域在时间步 的观测值,其中 表示维度(通道)数。在时间序列预测的背景下,我们定义 作为预测模型 的输入,其中 表示领域相关的回顾窗口。
真实值可以表示为 ,其中 表示未来预测窗口。
令 表示第 个领域的本地数据集,且 为数据大小。鉴于个性化模型参数集合 {},跨领域时间序列预测的联邦基础模型的目标可以表述为:
3.2 模型结构
模型结构如上图所示。我们的模型包含三个组件:
(1) 模态对齐与提示适应模块:用于跨模态对齐和自适应提示生成; (2) 语言模型(LM)主干:这里的语言模型冻结所有参数; (3) 预测头:用于生成特定领域的预测结果。
模态对齐—将时间序列转换为文本标记模态
为适应不同域的通道 ,基于PatchTST的独立通道策略,将多变量时间序列 拆分为 个单变量序列 ,并对其标准化以减少分布差异。
由于 的数据点缺乏明确语义,采用PatchTST的分块技术,将 分割为子序列块以汇集局部信息。
设 为块长度, 为步长,块数为 ,得到块矩阵 。使用线性层投射为标记 ,并与提示标记一起输入语言模型主干。这里之所以将时间序列分割为子序列(称为块),是因为每个块能够汇集局部信息,更好地保留时间知识。
提示适应
首先点出手动设计的提示在基于语言模型的时间序列预测基础模型中存在以下缺陷:
依赖专家知识:提示的设计依赖专家知识,不同专家之间理解差异可能导致提示质量不一致。 计算负担增加:更长的提示虽然可能带来更好的效果,但会显著增加计算开销。 难以准确描述时间序列特征:与图像或音频数据不同,手动生成的提示难以精确表达原始时间序列的特性。
由于手动设计的提示在基于语言模型的时间序列预测基础模型中存在诸多缺陷,我们提出根据预训练语言模型(LM)中的分块标记自适应确定提示,源语料库包含 个预训练词嵌入 。我们如TIME-LLM通过线性层将 投射到较小的文本原型集合 ,其中 ,以避免大的参数空间。
我们使用修改后的多头注意力层来获取 与 之间的关联,并选择与其关联性最强的 个文本原型作为提示,具体如下:
此处的多头注意力层省略值(V)矩阵,因为只需评估文本原型与分块标记的相关性,注意力得分矩阵 的计算公式为:
我们通过计算每行的总和来获得 。 中的每个值表示对应文本原型 与所有分块标记 之间的相关性程度。 我们从 中选择具有最高注意力得分的 个原型,以形成潜在提示 我们可以通过将所有 个头的 聚合来获得 。 最后,我们使用线性层将 投射为提示标记 。
预测头
我们将 和 的连接输入到语言模型主干中,获得表示 ,该表示将被展平并通过线性层投射为最终结果 。
个性化策略
不同领域的时间序列存在显著异质性,通用全局模型在联邦学习(FL)中可能无法捕捉不同时间模式,影响预测性能。我们提出学习一个全局编码器(模态对齐、提示适应和语言模型主干)及领域定制的预测头。
其基本动机是平衡泛化与个性化:
(1) 获取跨域时间模式以增强模态对齐和提示适应的泛化能力;
(2) 通过个性化预测头确保特定领域的预测结果。
我们保持语言模型主干不变,仅在每轮联邦学习中通信模态对齐和提示适应的参数,并通过平均策略聚合服务器。
3.3 训练过程
我们将 表示为第 轮联邦学习中模态对齐和提示适应的全局参数,将 表示为第 轮中第 个预测头的参数。
这里需要说明的是 被重新用于表示一个训练批次。、、 和 分别表示该批次的分块标记、提示标记、表示和预测结果。算法具体展示如下:
4.实验
我们比较了TIME-FFM与FL和集中设置下的最新模型,特别是微调语言模型的时间序列预测。结果显示TIME-FFM在预测中的有效性。采用GPT2前6层作为语言模型骨干并冻结参数,遵循Liu等(2024)的实验配置。
基线:
TY1(联邦微调):FedIT、FedAdapterH和FedAdapterP; TY2(跨数据集集中):UniTime、GPT4TS和PatchTST; TY3(数据集特定):TimesNet、DLinear、FEDformer、Autoformer和Informer。
设置:评估在8个数据集上进行,每个数据集对应一个联邦学习参与者,评估指标为MSE和MAE。
4.1 主要结果
主要预测结果见表1,该小节展示的所有结果是基于四个预测窗口的平均值,其中表格中的黄色表示TY1中的最佳结果,蓝色表示TY1中的第二佳结果。下划线表示所有类型中的最佳结果,粗体表示所有类型中的第二佳结果:
TIME-FFM在除ETTh2外的所有数据集上均优于其他联邦学习方法(TY1),在MSE方面比第二名FL方法提高了39.01%。
此外,TIME-FFM的平均预测结果超越集中模型。
与集中统一模型UniTime相比,TIME-FFM提供了更大的性能提升,突显了跨模态适应模块和个性化方法的有效性。
4.2 少样本预测
鉴于语言模型在少样本学习中的优异表现,我们评估TIME-FFM是否能在时间序列预测中保持这种能力。
本节比较了在少样本设置下采用10%和5%时间步作为训练样本的预测性能,符合Zhou等(2024)和Jin等(2024)的设置。5%少样本预测的主要结果见下表:
具体而言,在5%少样本学习中,TIME-FFM在均方误差(MSE)方面优于集中方法,相较于UniTime减少了20%的平均MSE。
10%少样本预测的主要结果见下表:
有趣的是,除了UniTime外,所有方法在10%少样本学习中的结果都低于5%少样本学习。
这表明,在UniTime中,预训练的语言模型经过全面调优,而较少的训练样本无法支持大量参数的优化。而在其他方法中,预训练的语言模型被冻结或微调,即使在较少的训练样本下,仍能保留语言模型的原始推理能力。
4.3 零样本预测
鉴于语言模型在零样本预测中的有效性,我们评估TIME-FFM的零样本学习能力,遵循Liu等(2024)的设置。首先在ETTh1、ETTm1和ETTm2上训练TIME-FFM,然后在ETTh2、电力和天气数据集上进行零样本测试。
由于ETTh2来自ETTh1领域,我们直接重用ETTh1的本地参数进行推断。对于不同领域的目标数据集,依次重用源数据集的本地参数。结果显示,ETTh1的本地参数在电力和天气数据集上表现优异,因此采用ETTh1的参数进行零样本测试。
其他TY1方法则训练全局模型并在ETTh2、电力和天气上进行测试。下表显示,TIME-FFM在所有三个数据集上有显著性能提升,均方误差(MSE)较第二佳方法减少13.9%。值得注意的是,UniTime的零样本测试性能低于TIME-FFM,提升归因于有效的跨领域知识迁移。
TIME-FFM-D去除了聚合过程,研究发现移除组件会降低预测性能。关键点:(1) 提示令牌对启动LM在目标领域很重要,缺少提示适配会降低性能。(2) 移除个性化头部影响最大,因为它无法为跨领域异构数据提供个性化预测。(3) 未共享时间知识导致跨模态适配模块泛化能力差,强调了统一模型的必要性。
4.4 模型分析
模型消融实验
我们对五种TIME-FFM变体进行了消融研究,其结果如下表所示:
TIME-FFM-D去除了聚合过程,研究发现移除组件会降低预测性能。关键点:(1) 提示令牌对启动LM在目标领域很重要,缺少提示适配会降低性能。(2) 移除个性化头部影响最大,因为它无法为跨领域异构数据提供个性化预测。(3) 未共享时间知识导致跨模态适配模块泛化能力差,强调了统一模型的必要性。
语言模型变体
我们研究了LM变体,包括优化模式和骨干层。B.3全参数调整表现最佳。即使冻结骨干参数,性能也相似,显示LM能有效处理时间序列。更多的骨干层带来更好的性能,表明LM扩展规律在TIME-FFM中适用。
模型效率
TIME-FFM减少了训练参数和通信开销,而不影响训练时间,这些参数数量与骨干层数量无关。图3案例研究显示,补丁令牌与少数预训练词嵌入相关,动态提示适配有潜力。不同数据集上的文本原型分布有共性,表明全局提示适配模块能泛化并确保个性化。
5.总结
本研究提出了TIME-FFM,这是一个利用预训练的语言模型(LMs)进行时间序列预测的联合因子分解机(FM)。模型通过将时间序列数据转换为文本来增强推理能力,并采用个性化联合学习策略以提供定制化预测。
尽管TIME-FFM在多场景下有效,但存在训练时间长和性能优化空间。未来将探索更高效的模态对齐和时间序列到自然语言的转换。