点击名片
关注并星标
#TSer#
【论文标题】FlashST: A Simple and Universal Prompt-Tuning Framework for Traffic Prediction
【论文地址】https://arxiv.org/abs/2405.17898
【论文源码】 https://github.com/HKUDS/FlashST
【实验室链接】https://sites.google.com/view/chaoh
论文概述
01
挑战
尽管现有的时空预测技术已经证明了它们的有效性,但大多数模型在面对不同下游数据集和任务时,由于分布变化,往往难以实现有效的泛化。在现实城市环境中,训练数据和测试数据之间的分布不一致性,成为了实现精确预测的障碍。如图1所示,如果将直接从数据集A学习到的参数应用于数据集B的测试,由于两个数据集在时空特征上的显著差异,可能会导致性能下降。因此,为了提高时空预测模型的泛化能力,需要有效地适应这种分布变化。设计具有适应性的方法面临以下挑战:
图1:FlashST动机:左图展示了不同交通数据集中数据分布的多样性,而右图显示了端到端模型的参数对训练集A过度拟合,未能泛化到测试集B
(1)有效提取时空上下文信息:从下游任务中准确提取复杂的时空上下文信息是关键所在。然而,要使预训练模型能够迅速理解并融合那些仅在测试阶段才能访问的新领域数据的空间和时间属性,是一个极具挑战性的任务。
(2)缩小训练与测试数据的分布差异:训练数据集与测试数据集之间往往存在显著的分布差异,这种情况在它们源自不同的时空背景和领域时尤为突出。设计模型适应框架,使其能够高效地缩小这种分布差异,并捕捉到时空中的恒定特征,对于提升模型的适应性至关重要。
02
贡献
(1)为了应对挑战1,本文提出了一种时空上下文信息提取方法,该方法能够捕捉到未见数据中的上下文信号,从而使得模型能够适应多样的时空环境。
(2)本文还引入了一种统一的分布映射策略,以增强 FlashST 框架。这一策略通过正则化提示嵌入,有效地缩小了预训练数据与下游任务之间的分布差异,从而促进了从预训练阶段到下游时空预测任务的知识有效迁移。
论文方法
01
时空上下文学习
时空数据映射。本文利用Z-Score标准化和线性层初始化来构建时空表征,线性层负责对时间维度的特征进行调整。初始化后的时空表征用向量表示,其中r代表第r个区域,f代表该区域的第f个特征。
时间上下文整合。 为了在多样化的城市数据中捕捉动态和周期性的时空模式,我们在提示网络中集成了具有时间感知能力的上下文。这种上下文利用了多尺度时间特征,涵盖了一天中的特定时间点和一周中的特定日子。提取时间上下文信号的步骤如下:
空间上下文整合。为了丰富提示网络对区域属性的地理上下文理解,我们将城市道路网络结构编码为反映空间上下文的特征。这一过程首先涉及构建一个标准化的拉普拉斯矩阵:
时间依赖编码器。为了建模不同时间段之间的相互依赖性并维持时间序列数据的演变模式,我们引入了一个简化的门控机制,具体如下:
空间依赖编码器。我们使用基于图卷积网络的消息传递来编码区域间关联,形式化如下:
上式中 代表邻接矩阵,而 表示一组可训练的权重参数。为了缓解多层图神经网络(GNN)可能引发的过度平滑问题,我们采用了残差连接。通过累加多层时空编码器,提示网络能够生成富含时空语义信息的表征 。
02
统一分布映射机制
为弥合预训练阶段与多样化下游任务中未见数据的分布差异,我们在 FlashST 框架中集成了一种分布映射策略。该策略旨在将预训练数据和下游数据映射到一个共同的分布空间。通过实现数据分布的一致性,促进了知识的无缝迁移,确保了预训练阶段获得的知识能够高效地应用于下游时空场景。
为达成上述目标,FlashST 利用标准化的提示嵌入来确保在各种不同的下游数据集中维持一致的分布特性。我们借鉴了对比学习领域的多项研究成果,特别是引入了基于 infoNCE 损失函数的方法来规范提示网络生成的表示。该损失函数的作用是拉近正样本对之间的表示距离,同时增加负样本对之间的表示差异。通过采用无需额外标注数据的自监督学习方法,优化 infoNCE 损失有助于生成更均衡的嵌入分布。
03
预训练和下游任务提示范式
我们的目标是利用预训练数据集A中的时空历史数据来预测未来趋势,同时对提示网络和下游模型的参数进行更新,具体过程如下所述:
实验结果与分析
01
总体表现
(1)对比实验
对比实验的结果如下表,数据显示,与端到端的时空模型相比,我们提出的方法在多个城市数据预测场景中显示出了明显的优越性。这些结果强有力地证实了 FlashST 在精确捕捉城市数据中的复杂时空模式方面的有效性。我们提出的上下文学习框架在将这些知识迁移到新的下游任务上表现出了卓越的能力。通过有效管理分布差异,FlashST 成功地缩小了预训练模型与实际预测场景之间的语义差异。
表1:FlashST对比实验
(2)模型无关&模型微调
模型无关性优势。提出模型的一个关键优势在于其与模型无关的特性,这意味着它可以轻松地与多种现有的时空编码器结合,提供高度的灵活性,并避免了对特定模型选择的依赖。下表展示了 FlashST 方法与四种领先的时空模型(包括STGCN、GWN、MTGNN、PDFormer)的无缝集成能力。评估结果彰显了 FlashST 的多功能性,以及当与优秀的时空模型结合时,其性能的显著提升。成功地与先进模型集成,进一步增强了 FlashST 的适应性,以及其在多样化城市数据场景中提高预测准确性的潜力。
与全参数微调的对比。为了进一步证明框架的有效性,我们将FlashST的提示微调方法与全参数微调进行了对比。"w/o Finetune"指的是在预训练后直接对目标数据集进行预测,不进行任何形式的微调。而"w/ Finetune"则表示在预训练之后,采用全参数微调来适应目标数据。值得注意的是,与端到端的预测效果相比,全参数微调的结果可能未能充分利用预训练阶段的成果。在没有有效对齐预训练模型与下游任务的情况下,可能会引入噪声,导致错误的微调方向和次优的性能表现。
02
模型效率评估
快速收敛性。在本节中,我们探究了 FlashST 在不同数据集上实现收敛的速度。下图展示了在采用 PEMS07(M) 和 CA-D5 数据集,并将 MTGNN 作为下游模型时,验证误差的下降趋势。
观察结果表明,整合了 FlashST 方法后,下游模型能够在少数几个调整周期内迅速收敛。与此相比,端到端训练和微调方法则需要更多的训练周期来适应新的数据环境。这种快速收敛的特性得益于我们提出的时空提示网络和数据分布映射策略。这些策略使得模型能够结合已有的预训练知识,并利用新数据的时空特性,从而迅速适应各种不同的时空场景。
03
消融实验
我们进一步进行了去除时间编码器(-TE)和空间编码器(-SE)的实验。结果表明,时空依赖编码在上下文学习过程中,对于整合不同时间段和地点之间的复杂关系发挥了关键作用。包含时间与空间依赖编码器的模型能够更深刻地理解并利用时间与空间的复杂相互作用。这种能力显著提升了下游模型对新时空场景的快速适应性。
我们从两个维度评估了统一分布映射策略的有效性:
-Uni,不使用统一分布映射策略。性能的降低证实了该策略对模型性能的正面贡献。FlashST通过将不同的时空数据嵌入到统一的分布空间中,有效地缓解了预训练数据与新时空数据之间的分布差异。
r/BN,将统一分布映射策略替换为批归一化。批归一化通过根据小批量数据的局部统计特性来标准化数据,这有助于解决神经网络训练中的内部协变量偏移问题,并提升模型的收敛速度。然而,由于没有建立起预训练数据与下游任务数据之间的联系,下游模型难以有效地从预训练中迁移知识。我们提出的分布映射策略确保了模型能够充分利用在预训练阶段获得的知识。通过校准不同数据源的分布,模型能够更快地适应新的时空环境,并做出更准确的预测。
图4:FlashST消融实验
04
超参分析
在本节中,我们探讨了不同超参数设置对模型性能的影响,特别是温度系数和损失权重系数的设置。我们的研究结果揭示了当温度系数设置为,损失权重系数设置为时,模型能够实现最优的性能表现。值得注意的是,这些超参数的微调对最终性能的影响并不显著,这显示了模型对不同参数配置具有很好的鲁棒性。即便在特征尺度不一致的情况下,模型也能有效地学习到区分不同区域嵌入特征的表示。此外,模型的性能不会因为统一性损失的增加而出现大幅波动,这表明我们的分布映射策略并没有对预测损失造成干扰。这些发现进一步证实了我们策略的有效性,并有助于下游模型快速适应新的时空环境。
05
案例研究
为了验证我们提出的统一分布映射方法在将不同数据表示映射到统一分布上的有效性,我们对应用了分布映射和未应用分布映射的提示嵌入进行了可视化对比。我们首先使用 PCA 技术将每个嵌入样本的高维特征降至二维,然后通过 L2 范数将这些降维后的嵌入投影到单位圆上,具体效果见下图。
图6:提示嵌入的分布可视化
总结展望
本文介绍了 FlashST 框架,旨在使时空预测模型能够快速适应各种未见过数据的下游任务。该框架采用了一个包含时空上下文提炼和依赖性建模的时空提示网络。通过捕捉关键的上下文信号和模拟时间与空间的复杂相互作用,框架能够灵活地适应多样化的时空环境。为应对分布差异问题,我们引入了一个分布映射机制,它能够调整预训练数据与下游数据的分布,从而促进了在时空预测任务中的知识迁移。通过一系列广泛的实验,我们证明了 FlashST 在多个时空预测领域的有效性和其强大的泛化能力。在未来的研究中,我们将继续探索将大型语言模型整合到 FlashST 框架中,以作为知识引导,进一步提升模型的适应性和预测性能。
扫下方二维码,加入时序人学术星球
星球专注于时间序列领域的知识整理,前沿追踪
提供论文合集、视频课程、问答服务等资源
210+篇专栏笔记,已有200+小伙伴加入
价格随着内容丰富而上涨,早入早享优惠哦~
时间序列学术前沿系列持续更新中 ⛳️
后台回复"讨论",加入讨论组一起交流学习 🏃
往期推荐阅读
FreDF:基于频谱对准的时序模型训练方法,多项任务全面超越SOTA!
觉得不错,那就点个在看和赞吧