点关注,不迷路,用心整理每一篇算法干货~
今天给大家介绍一项由华为诺亚方舟实验室与华东师范大学联合提出的研究工作,该研究聚焦于时间序列预测的通用模型。该模型通过频率分解学习和时间序列寄存器的设计,相比于现有的时间序列大模型,在保持较小参数规模的同时,实现了更优的性能。
论文标题:ROSE: REGISTER-ASSISTED GENERAL TIME SERIES FORECASTING WITH DECOMPOSED FREQUENCY LEARNING
下载地址:https://arxiv.org/pdf/2405.17478
时间序列预测基础模型近年来备受关注。尽管当前提升模型泛化能力的常见方法之一是增加训练数据量和模型参数,但该文章提出,除了这种途径之外,探索模型设计的优化,特别是在预训练任务和下游任务适应性方面,同样能够在较小规模的模型中实现与大模型相当甚至更优的效果。
基于以上两点,作者提出了基于频率分解学习与时间序列寄存器的通用时间序列预测模型ROSE。ROSE通过多重频域掩码和重构,分解时间序列中耦合的语义信息,获得跨领域的统一表征。时间序列寄存器在预训练期间捕捉领域特定的信息,并在下游任务中自适应选择相关领域的信息,由此实现高效迁移。因此,相较于现有时序预测基础模型,ROSE在使用更少参数和更短推理时间的情况下,仍展现出了卓越的预测性能。
ROSE整体基于Encoder-Decoder架构。值得注意的是,重构解码器和预测解码器采用与 Transformer Encoder相同的结构,它们分别用于重构和预测任务。模型采用通道独立的方式,在多领域的大规模时序数据上进行预训练。
时间序列寄存器:作者将多领域数据集中的领域特异信息进行聚类,并在预训练时将这些领域特异信息存储在时间序列寄存器中。在下游,通过 Top-K选择策略,自适应地从寄存器中选择特定领域的信息,以提高在目标领域的预测性能。此外,作者还通过一种新颖的可学习低秩矩阵来在微调阶段补充下游数据集的特定信息。
频率分解学习:时间序列数据由多个叠加的频率分量组成,导致不同时间变化相互重叠。低频成分包含整体趋势和较长尺度变化的信息,而高频成分通常包含短期波动和较短尺度变化的信息。因此,分别从低频和高频理解时间序列有利于一般时间序列表示学习。基于上述观点,作者提出了多重频域掩码,根据多个采样阈值,对频域中的时间序列随机进行低频/高频掩码,然后将其转换回时域进行重构。
双任务预训练:ROSE在0.8B的时间序列样本点上进行预训练,文中作者将预测任务与重构任务联合对模型进行预训练,前者是为了提高模型在零样本和少样本环境下的预测能力,后者使用多重频域掩码来学习更适用于下游预测任务的统一特征。
文中在多个数据集上比较了ROSE与当前SOTA模型在full-shot设置下的表现,结果显示ROSE取得了显著的优势。值得一提的是,即使在10%的few-shot设置下,ROSE的表现仍优于SOTA模型在full-shot设置下的效果。
进一步观察ROSE在不同fine-tune比例下的表现,可以发现多领域数据的预训练赋予了ROSE出色的泛化能力,且仅需少量fine-tune样本即可达到SOTA性能。
与其他时序预测基础模型在zero-shot设置下的对比中,ROSE也展现出了极具竞争力的表现。
投稿&加交流群请加微信,备注机构+方向拉群~