剑桥大学时间序列对比学习新方法,缓解伪负样本影响

科技   2024-10-20 21:15   北京  

点关注,不迷路,用心整理每一篇算法干货~

后台留言”交流“,加入圆圆算法交流群~
👇🏻扫码👇🏻加入圆圆算法知识星球~
已有880+同学加入学习,700+干货笔记)

今天给大家介绍一篇由剑桥大学发表的时间序列表示学习文章,提出了StatioCL的对比学习建模方法,通过考虑时间序列的非平稳性和时序关系,解决时间序列表示学习中的伪负样本问题,文章被CIKM 2024录用。

论文标题:StatioCL: Contrastive Learning for Time Series via Non-Stationary and Temporal Contrast

下载地址https://arxiv.org/pdf/2410.10048v1

1

背景

在时间序列表示学习中,希望通过自监督的方式,训练一个良好的时间序列表征器,进而将表征用于下游预测、分类等任务中提升效果。

表示学习一般采用对比学习的建模方法,人工构造正样本对合负样本对,拉近正样本对表征距离,推远负样本对表征距离,实现表征优化。然而,在时间序列表示学习中,经常存在伪负样本问题,即采样的两个负样本,其实因为某些原因并不是负样本。

针对负样本问题,本文进一步拆解出了两种类型的伪负样本问题。第一种是semantic false negative pairs,指的是相同类别的时间序列随机采样出来的伪负样本对,可能是正样本;第二种是temporal false negative pairs,指的是随机采样不同序列的子序列,可能具有相似的pattern,但是被当成了负样本。

2

建模思路

针对第一类semantic false nagative pairs,文中引入了Non-Stationary Contrast Module,基于样本片段是否是non-stationary的,筛选伪负样本。具体的,对时间序列使用Augmented DickeyFuller进行统计检测,根据p-value值判断是平稳性序列还是非平稳性序列。在构建负样本对时,使用不同时间序列随机采样片段,且2个序列的平稳性不同(平稳+非平稳,或非平稳+平稳),构建hard negative sample。

针对第二类temporal false negative pairs,文中引入了Temporal Contrast module。文中假设,时间上相近的时间序列,更有可能是相似的,随着时间的推移,相似性会变低。因此,文中将两个样本对之间的时间距离,使用beta分布生成一个对比学习样本权重,2个样本时间间隔越长,这两个样本越可能是真负样本,权重越大。同时,考虑到一些场景中,时间很长的间隔,2个样本可能也是一致的,这种情况不太容易设定权重,因此通过beta分布将超过一个时间距离的权重逐渐减小。通过这种方式,生成对比学习的soft label。

最终,整体的模型结构如下图所示,同时引入上述的hard negative pairs和weighted negative pairs,构建对比学习样本,进行表征学习。

3

实验效果

文中利用表征结果进行时间序列分类,可以看到本文的对比学习方法在时间序列分类上取得了非常显著的效果提升。

此外,文中也进行了不同方法得到的表征的可视化结果,StatioCL可以更好的通过无监督训练的方式进行正负样本的区分。

END




后台留言”交流“,加入圆圆算法交流群~
后台留言”星球“,加入圆圆算法知识请星球~【时序预测专题课程持续更新中
知识星球提供一文贯通笔记、经典代码解析、问答服务、新人入门,已有880+小伙伴加入价格随人数增加和内容丰富上涨,感兴趣的同学尽早加入~


投稿&加交流群请加微信,备注机构+方向拉群~

【历史干货算法笔记】
生成式模型入门:一文讲懂3大类生成式模型
Sptial-Temporal时空预测总结:建模思路、优化方法梳理
时序预测顶会论文数据集、数据处理方法、训练方法汇总
时间序列预测实战方法概述:从数据到模型
Informer模型结构和代码解析
基于Transformer的时序预测模型TFT代码详解
时空预测经典模型STGCN原理和代码解读
一网打尽:14种预训练语言模型大汇总
Vision-Language多模态建模方法脉络梳理
花式Finetune方法大汇总
从ViT到Swin,10篇顶会论文看Transformer在CV领域的发展历程

如果觉得有帮助麻烦分享在看点赞~  

圆圆的算法笔记
定期更新深度学习/算法干货笔记和世间万物学习记录~
 最新文章