点击名片
关注并星标
#TSer#
论文背景
模型方法
TSDE 的核心是无监督的扩散过程,它模拟了通过逐步添加噪声将数据转换为接近标准高斯分布的过程。这个过程包括前向和反向两个部分:前向过程中,数据逐渐被噪声化;反向过程中,则尝试通过去噪来恢复原始数据。TSDE 的关键在于利用观测到的数据部分来预测和恢复被掩蔽或缺失的数据部分。
图1:TSDE架构包括一个嵌入函数(左)和一个条件反向扩散块(右)时间和空间编码器实现为一层Transformer
训练好的模型可以在两种场景中使用:
(1)嵌入函数作为一个独立的组件,可以用来生成全面的多变量时间序列表示,适用于各种下游应用,包括异常检测、聚类和分类。
(2)当与训练好条件反向扩散过程结合使用时,模型能够预测多变量时间序列数据中的缺失值(用于填充和插值)以及未来值(用于预测)。
在第二种场景中,与现有的基于扩散的方法相比,可以实现显著的加速。
实验效果
研究者在六个任务(填充、插值、预测、异常检测、分类和聚类)上的对 TSDE 框架进行全面实验评估,此外也对推理效率、消融研究和嵌入可视化进行了额外分析。
在数据填充、插值和预测任务中,TSDE 与现有的最先进方法相比,展现出了显著的性能提升。具体来说,在 PhysioNet 和 PM2.5 数据集上进行的填充任务中,TSDE 在 CRPS、MAE 和 RMSE 等指标上均取得了最佳性能,特别是在处理高比例的缺失数据时。插值任务的结果也表明,TSDE 能够有效处理时间序列中的不规则时间戳间隔。在预测任务中,TSDE 在诸如 Electricity、Solar、Taxi、Traffic 和 Wiki 等多个真实世界数据集上同样展现了优异的性能。
表1:概率性多任务学习(MTS)插补和插值基准测试结果
表2:在电力预测任务上的结果
在异常检测方面,TSDE 利用重建误差作为异常评判标准,其性能在多个基准数据集上超越了其他方法,接近于利用大型预训练语言模型的 GPT4TS。
图2:预测值与真实值的比较,包括(a)插补(缺失10%),(b)插值,和(c)预测
表3:异常检测:基线结果。分数越高表示性能越好;最佳和第二佳结果分别以粗体和下划线表示
分类任务的实验结果显示,TSDE 在 PhysioNet 数据集上进行的二元分类任务中达到了与最先进方法相媲美的 AUROC 分数,这说明 TSDE 学习到的嵌入能够有效地捕捉时间序列数据的动态变化,从而进行有效的分类。
表4:在PhysioNet上的分类性能
聚类任务的实验则证明了 TSDE 生成的嵌入可以直接用于聚类分析,而无需进行数据填充。通过 UMAP 降维和 DBSCAN 聚类,TSDE 能够揭示数据内在的结构,即使在数据存在大量缺失的情况下。
图3:聚类结果
此外,TSDE 还展现出了显著的推理速度优势。由于模型采用了高效的双正交变换器编码器和简化的反向扩散过程,TSDE 在执行填充、插值和预测任务时的速度比现有方法快了十倍。
扫下方二维码,加入时序人学术星球
星球专注于时间序列领域的知识整理,前沿追踪
提供论文合集、视频课程、问答服务等资源
250+篇专栏笔记,已有240+小伙伴加入
价格随着内容丰富而上涨,早入早享优惠哦~
时间序列学术前沿系列持续更新中 ⛳️
后台回复"讨论",加入讨论组一起交流学习 🏃
往期推荐阅读
觉得不错,那就点个在看和赞吧