论文精读|2024[KDD]ImputeFormer: 用于广义时空补全的低秩诱导的Transformer

文摘   2024-08-03 21:28   北京  

题目:ImputeFormer: Low Rankness-Induced Transformers for Generalizable Spatiotemporal Imputation

作者:Tong Nie(聂通); Guoyang Qin(秦国阳); Wei Ma(马玮); Yuewen Mei(梅月雯); Jian Sun(孙剑)

机构:同济大学,香港理工大学

ArXiv: https://arxiv.org/abs/2312.01728

Code: https://github.com/tongnie/imputeformer

关键词:时空数据补全,低秩建模,傅里叶变换,低秩注意力模块,线性复杂度。

TL; DR: 本文提出了一种低秩性引导的Transformer模型,同时结合了低秩特性和深度模型的优势,用于解决各类稀疏时空数据的高效补全问题。

点击文末阅读原文跳转本文arXiv链接。

摘要

缺失数据是科学和工程任务中普遍存在的问题,尤其是在时空数据建模方面。现有的补全解决方案主要包括低秩模型和深度学习模型。前者假定了一般的结构先验,但模型容量有限。后者具有突出的表达能力,但缺乏对底层时空结构的先验知识。结合这两种范式的优势,我们展示了一种低秩诱导的Transformer,以实现强归纳偏差和高表达能力之间的平衡。对时空数据固有结构的利用使我们的模型能够学习平衡的信噪表征,从而使其适用于各种补全任务。我们在交通流量、太阳能、智能电表和空气质量等异构数据集中证明了该模型在准确性、效率和灵活性方面的优越性。经验结果表面,将低秩等时间序列基元纳入模型,能极大地促进可通用模型的开发,从而解决各种时空补全问题。

问题背景

这篇论文试图解决的问题是缺失数据问题,特别是在时空数据建模领域。缺失数据是科学和工程任务中普遍存在的问题,尤其是在高分辨率监测系统中。这些数据可能因为恶劣天气、能源供应和传感器服务时间等因素而受到影响,导致数据缺失率非常高。为了处理这个问题,研究人员需要开发能够利用有限观测数据来估计缺失值的先进模型。论文中提到的现有解决方案主要包括低秩模型和基于深度学习的模型,但它们都有各自的局限性。因此,论文提出了一种结合了低秩特性的Transformer模型,称为ImputeFormer,旨在实现强归纳偏差和高模型表达性之间的平衡,以提高时空数据补全的泛化能力。

相关研究

论文中提到了与时空数据补全相关的两个主要研究系列:

  1. 低维/低秩模型 (Low-Dimensional/Rank Imputation):

  • 一类方法使用统计插值工具,例如MICE。
  • 时空数据与时间序列通常表现为一种“低秩”分布,即其总体模式可以由几个显著成分主导。因此近年来,低秩矩阵分解和张量补全成为了时空插补的数值高效技术。例如TRMF在时间流形上施加了自回归正则化;TiDER在分解框架下将时间序列分解为趋势、季节性和偏差成分。
  • 深度学习补全模型 (Deep Learning Imputation):

    • 这类方法通过学习观测数据的分布或逐步聚合逐点信息来改善插补性能。代表性的方法包括GRU-D, GRUI, BRITS, GAIN, E2GAN, NAOMI和PriSTI等。
    • 为了利用时空数据的多变量特性,图神经网络(GNNs)被用来模拟更复杂的缺失模式下的传感器间相关性,例如GRIN和GACN。

    此外,论文还特别讨论了基于Transformer的时间序列补全解决方案,因为Transformer能够从任意上下文输入元素中聚合大量信息,成为序列数据补全的自然选择。一些代表性工作包括:

    • CSDI:开发了一种跨通道注意力机制,利用不同维度之间的相关性。
    • SAITS:结合了掩蔽插补任务和观测重构任务,并应用了对角掩码自注意力来分层重构稀疏数据。
    • SPIN:通过在所有观察到的时空点上进行稀疏交叉注意力和时间自注意力,实现了最先进的补全性能。

    这些相关工作为ImputeFormer模型的提出提供了理论和技术基础。

    核心挑战与动机

    图1

    图 1:(a) 时空数据中奇异值的分布呈长尾状。缺失数据的存在会增加数据的秩(或奇异值)。(b) 低秩模型过滤掉存在信息量的信号,生成平滑的重构,从而截断频谱左侧部分过多的能量。(c) 深度模型会保留高频噪声,并生成尖锐的重构,从而保持奇异频谱右侧部分过多的能量。凭借低秩模型的通用性和深度模型的表现力,ImputeFormer 实现了信噪平衡,从而实现了准确的补全。

    现有的解决时空数据补全问题的两类范式均存在一定的优势与不足:

    1. 低秩模型提供了有效的归纳偏置和对时空数据结构的理解,但受限于较低的模型表达性和简化的假设,可能会产生“过度平滑”的补全结果;

    2. 深度模型具有强大的学习表征能力,但缺乏数据规律的指导和约束,可能会产生对观测数据的过拟合,欠缺可通用性。同时,深度模型架构会保留部分高频噪声,使得重构结果与真实数据的“低秩分布”有偏差。

    因此,结合两类模型范式各自的优势,提出一种既能高效捕捉数据内在结构,又能学习复杂观测模式的新范式,实现“信号-噪声”的有效平衡,是一种提升现有时空补全模型通用性的可行解决方案。

    解决思路与方案

    图2:ImputeFormer总体架构与设计动机ImputeFormer

    论文提出了名为ImputeFormer的新型时空数据补全模型,该模型结合了低秩特性深度补全模型的优势,以解决缺失数据问题。具体来说,ImputeFormer通过以下几个关键技术来实现表达性和:

    1. 低秩性引入:利用时空数据的内在低秩结构,ImputeFormer在Transformer模型中引入了低秩性,以实现信号与噪声之间的平衡。

    2. 投影注意力机制 (Projected Attention Mechanism): 在时间维度上,ImputeFormer通过投影注意力机制实现注意力分解,实现了对序列长度的线性计算复杂度,并提高对时间序列数据的显式低秩性建模能力。

    3. 嵌入注意力 (Embedded Attention):在空间维度上,ImputeFormer采用了嵌入注意力机制,通过节点嵌入在特征空间之间的交互来捕捉空间关系,而不是直接在原始数据上计算全局注意力。

    4. 傅里叶稀疏性损失 (Fourier Sparsity Loss): 提出了一种新的基于傅里叶变换的稀疏性损失函数,用于估计结果频谱的正则化,进一步促进低秩结构的利用。

    5. 结构化输入嵌入:通过输入嵌入层将稀疏观测数据投影到隐藏状态,并引入固定的和可学习的嵌入,以增强模型对输入数据的处理能力。

    6. 时空层交互:模型采用时空层交互的方式,交替进行时间交互和空间交互,以全局地传递消息并捕获时空数据的相关性。

    7. 多层感知器读出 (MLP Readout): 最终,使用一个多层感知器(MLP)来输出插补结果。

    通过这些技术,ImputeFormer不仅在多个基准数据集上实现了领先的补全性能,而且在稳健性、效率和灵活性方面都表现出了优势。此外,ImputeFormer还具有很好的解释性,能够为深度补全范式提供新的理解角度。

    实验验证

    表1:实验数据集统计信息。

    表 2:整体性能比较:交通数据集。

    表 3:整体性能比较:能源与环境数据集。

    图 3:模型计算效率

    表4:消融实验

    图4:输入序列长度的影响分析

    表 5:不同观测率的影响:测试阶段

    表 6:不同观测率的影响:训练阶段

    图 6,7,10:ImputeFormer的时空低秩性解释

    图8:空间注意力可视化

    图11:时间注意力可视化

    图13:补全结果可视化

    论文中进行了一系列的实验来评估ImputeFormer模型的性能,并与现有的先进方法进行了比较。以下是实验的主要方面:

    1. 数据集:实验使用了多个知名的时空基准数据集,包括交通速度和流量数据(METR-LA, PEMS-BAY, PEMS03, PEMS04, PEMS07, PEMS08)、太阳能发电数据(SOLAR)、能源消耗数据(CER-EN)以及空气质量数据(AQI, AQI36)。

    2. 基线模型:与多种现有的先进基线模型进行比较,包括深度学习模型(如SPIN、GRIN、SAITS等)和低秩方法(如TRMF、LRTC-AR等)。

    3. 补全性能:在不同的缺失模式下评估模型性能,包括点缺失(Point missing)和块缺失(Block missing)情况,以及不同稀疏程度下的验证。主要使用平均绝对误差(MAE)作为评估指标来衡量不同模型的插补精度。

    4. 案例研究:通过可视化例子展示了ImputeFormer的插补效果,并分析了模型的解释性,如频谱分析、空间嵌入和时间投影器的直观解释,为深度补全模型的机制提供了新的理解角度。

    5. 效率评估:评估了不同架构的计算效率,特别是ImputeFormer与现有最先进的Transformer基线(SPIN)的比较。

    6. 稳健性和多样性分析:在不同的缺失率下评估模型的稳健性,以及在不同序列长度、不同输入观测条件,以及零样本等条件下的泛化能力。

    7. Fourier频域损失(FIL)的影响:研究了FIL超参数对性能的影响。

    8. 随机掩码策略:评估了不同随机掩蔽策略对模型训练的影响。

    这些实验全面地展示了ImputeFormer在不同方面的优势,包括补全精度、计算效率、泛化能力和解释性。通过这些实验,作者证明了ImputeFormer是一个强大且具有一定通用性的时空数据补全模型。

    内容总结

    这篇论文提出了一种名为ImputeFormer的新型时空数据补全模型,主要内容包括:

    1. 问题背景:时空数据在科学和工程任务中普遍存在缺失问题,特别是高分辨率监测系统。现有解决方案包括低秩模型和深度学习模型,但它们各自存在局限性。

    2. ImputeFormer模型:结合了低秩特性和Transformer模型的优势,通过引入低秩性约束到Transformer框架中,实现了信号与噪声之间的平衡。

    3. 关键技术

    • 投影注意力机制:在时间维度上实现注意力分解,降低计算复杂度,提高低秩性建模能力。
    • 嵌入注意力:在空间维度上利用节点嵌入捕捉空间关系。
    • 傅里叶稀疏性损失:基于傅里叶变换的稀疏性损失函数,正则化解决方案的频谱。
  • 模型结构:包括输入嵌入层、时空交互层、多层感知器读出等组件。

  • 实验评估:在多个时空基准数据集上评估ImputeFormer的性能,与现有先进方法进行比较,展示了其在准确性、效率和稳健性等方面的优势。

  • 案例研究:通过可视化例子和频谱分析,展示了ImputeFormer的真实插补效果和解释性。

  • 贡献总结

    • 首次将低秩性引入时空Transformer架构,实现信号与噪声的平衡。
    • 在多个数据集上展示了ImputeFormer的优势与模型的解释性分析。
    • 为时空数据补全问题提供了一种新的视角与范式。
  • 未来工作:提出了一些潜在的研究方向,如多任务学习、大规模预训练、表示学习等。

  • 总的来说,这篇论文提出了一种结合了低秩特性和深度学习优势的时空数据补全模型,通过一系列实验验证了其有效性,并探讨了模型的解释性和未来可能的研究方向。


    欢迎各位作者投稿近期有关时空数据时间序列录用的顶级会议期刊的优秀文章解读,我们将竭诚为您宣传,共同学习进步。如有意愿,请通过后台私信与我们联系。

    推荐阅读

    论文精读 |2024[KDD]UniST: One-for-all城市时空预测模型,预训练+提示统一多种时空场景

    AI论文速读 | 2024[KDD]UniST:提示赋能的通用模型用于城市时空预测

    AI论文速读 | 2024[KDD]GinAR—变量缺失的端到端多元时序预测

    AI论文速读 | 2024[IJCAI]时空解耦掩码预训练的时空预测

    KDD 2023 | 时空数据(Spatial-Temporal)Research论文总结


    点击文末阅读原文跳转本文arXiv链接。

    如果觉得有帮助还请分享,在看,点赞



    时空探索之旅
    分享时空数据和时间序列前沿文献。偶尔聊聊影视剧。
     最新文章