ICML 2024 | CaRiNG:在非可逆生成过程中学习时间因果表示

科技   2024-08-04 20:01   浙江  

点击名片

关注并星标

#TSer#

扫下方二维码,加入时序人学术星球
参与算法讨论,获取前沿资料
210+篇专栏笔记,已有210+同学加入学习)


在序列数据中识别潜在的时延因果过程对于掌握时间动态和进行下游推理至关重要。本文介绍一篇 ICML 2024 中的相关工作,研究者提出了一种可识别性理论,该理论允许从非线性和不可逆的混合中恢复独立的潜在成分。

基于这一理论,研究者引入了一种名为 CaRiNG 的原则性方法,能够学习具有可识别性保证的非可逆生成时序数据的因果表示。该方法利用时间上下文来恢复丢失的潜在信息,并应用其理论中的条件来指导训练过程。对于现实世界的应用,CaRiNG 被部署在交通事故推理任务中,这是一个复杂的交通动态引入大量非可逆性的场景。实验结果表明,该方法在非可逆生成过程中识别因果表示方面显著优于其他时序表示学习方法。此外,这种因果表示已被证明在增强视频推理任务方面发挥了重要作用。


【论文标题】CaRiNG: Learning Temporal Causal Representation under Non-Invertible Generation Process
【论文地址】https://arxiv.org/abs/2401.14535
【论文源码】https://github.com/sanshuiii/CaRiNG


引言


近年来,非线性 ICA 取得了显著进展,为潜在变量的可识别性提供了坚实的理论证据,并使得能够利用深度神经网络来处理复杂场景。例如,通过假设数据生成过程中的潜在变量是相互独立的,并利用辅助的侧信息,如时间索引、域索引或类别标签,已经展示了强大的可识别性结果。进一步将这一非线性ICA框架扩展到具有时延的动态系统场景中,从而允许潜在变量之间的时间转换。


混合函数(从源到观测的生成过程)是可逆的,这可能在现实场景中难以满足,例如视觉过程中的 3D 到 2D 投影。如图1(a)和(b)所示,提供了两个真实视频的直观实例来说明非可逆性是如何发生的。在(a)中,当发生物体遮挡时,当前时间步的生成过程中会丢失被遮挡物体的信息,从而导致非可逆性。在(b)中,视觉暂留现象引入了非可逆性,因为当前时间步的混合过程利用了历史信息。研究者进一步发现,违反这种可逆性假设可能导致非线性 ICA 方法在识别方面表现不佳。在图1的(c)展示了 TDRL 这一基于非线性 ICA 的典型方法,它假设了可逆性,但在非可逆性增加时,其识别潜在变量的性能会显著下降。这促使研究者扩展当前的非线性 ICA 方法,以考虑非可逆混合函数。


图1:非可逆生成过程的动机



模型方法


在本文中,为了应对上述挑战,研究者提出利用时间上下文来恢复由非可逆混合函数引起的缺失信息,这反映了人类感知的直观机制。例如,当遇到被遮挡的物体时,我们的自然倾向是利用历史数据来重建被遮挡的部分。研究者证明,即使生成过程是非可逆的,如果潜在变量可以表示为当前观测值与其历史的任意函数组合,那么推导出的潜在因果表示仍然是可识别的。

基于这一识别定理,研究者介绍了一种名为 CaRiNG 的原则性方法,该方法学习一个函数来整合历史数据,以补偿因非可逆性而丢失的潜在信息。CaRiNG 建立在序列变分自编码器(Sequential VAE)的基础上,并集成了三个主要模块:序列到步骤的编码器(SeqEnc)、步骤到步骤的解码器(StepDec)和转换先验模块()。

通过 Sequential VAE 确保了从潜在变量到观测变量的重构能力。同时,与 VAE 中的高斯先验不同,该论文方法采用归一化流来控制先验分布,确保潜在变量满足假设的条件独立性。

01

整体框架 



图2:CaRiNG的总体框架

CaRiNG 的框架首先通过序列到步骤的编码器获取潜在的因果表示,输入是一系列观测值,输出是估计的潜在变量然后,通过步骤到步骤的解码器从潜在空间生成观测数据为了学习独立的潜在变量,使用 KL 散度(Kullback-Leibler divergence)约束来确保学习的潜在变量的后验分布与服从条件独立性假设的先验分布之间的一致性。对先验分布的估计促使研究者利用归一化流,将先验分布转换为高斯噪声,表示为此外,为了模型训练,研究者在真实值和生成的观测值之间集成了重建损失。

02

序列到步骤的编码器和步骤到步骤的解码器 


  • 编码器

受人类视觉系统能力的启发,研究者利用时间上下文来恢复由于不可逆生成而丢失的信息。假设存在一个函数能够捕获当前观测值及其时间上下文中的所有潜在信息,我们就可以用可识别性来检索潜在的因果过程。各种非线性模型都适合用于估计这个函数。在本文实验中,研究者既使用了多层感知机(MLP),也使用了 Transformer,以适应不同的复杂性。

  • 解码器

在给定估计的潜在变量后,使用步骤到步骤的解码器来生成当前的观测值。在实际实现中,使用一个 MLP 就足够了。


03

转换先验模块 


为了维护条件独立性假设,CaRiNG 通过最小化学习到的潜在变量的后验分布与先验分布之间的 KL 散度来估计先验。该约束表明,在给定历史潜在变量的条件下,当前潜在变量是相互独立的。形式上,通过硬性编码先验分布,强制使相互独立。通过最小化 KL 散度,期望后验也符合这一假设。然而,直接估计具有任意密度函数的先验会带来挑战。


作为解决方案,研究者引入了一个转换先验模块,该模块利用归一化流来辅助先验的估计具体来说,先验是通过高斯分布与转换模块的雅可比矩阵相结合来表示的。


04

优化 


CaRiNG 使用证据下界(ELBO)目标进行训练,包括重建损失(LRecon)和 KL 散度(LKLD)。重建损失使用均方误差(MSE)来衡量生成数据和原始数据之间的差异。KL 散度的计算采用采样方法,因为先验分布没有显式形式。


实验结果与分析


01

模拟实验 


为了评估 CaRiNG 在非可逆情况下学习因果过程和识别潜在变量的能力,作者设计了一系列基于随机因果结构的模拟实验。


在 NG 和 NG-TDMP 两种情况下,CaRiNG 与其他基线方法的性能进行了比较,结果显示 CaRiNG 在两种情况下都提供了稳健的可识别性结果。这表明,在面临不可逆生成过程时,利用时间上下文可以显著提高可识别性。最后,NG 场景下的性能优于 NG-TDMP 场景,这表明时间延迟混合过程增加了复杂性。


模拟实验结果表明,CaRiNG 在非可逆生成过程中能够有效地识别潜在变量


表1:在NG和NG-TDMP设置下,CaRiNG和基线方法的MCC分数


图3:在非可逆生成设置中,基线(特别是TDRL)与CaRiNG的定性比较


02

真实世界实验 


这里使用了 SUTD-TrafficQA 数据集,这是一个为交通场景视频事件理解量身定制的综合资源,具有多个交通代理之间的大量遮挡。

在 SUTD-TrafficQA 数据集上,CaRiNG 在六种问题类型上的性能与其他方法进行了比较,CaRiNG 取得了显著的改进,比次佳方法提高了近 6.8%。

值得注意的是,与缺乏时间上下文的 TDRL 相比,CaRiNG 在表示复杂、不可逆的交通事件方面表现出显著的进步。与采用相同跨模态匹配模块的 HCRN 基线相比,该论文方法通过因果表示学习进一步将分数提高了 4.96。

表2:在SUTD-TrafficQA数据集上的结果

在真实世界实验中,CaRiNG 在交通事件理解任务上表现出色,特别是在表示复杂和非可逆交通事件方面。

扫下方二维码,加入时序人学术星球

星球专注于时间序列领域的知识整理,前沿追踪

提供论文合集、视频课程、问答服务等资源

210+篇专栏笔记,已有210+小伙伴加入

价格随着内容丰富而上涨,早入早享优惠哦~

时间序列学术前沿系列持续更新中 ⛳️

后台回复"讨论",加入讨论组一起交流学习 🏃

往期推荐阅读


WWW 2024 | FCVAE:从频率角度重新审视 VAE 在无监督异常检测中的效果
ICLR 2024 | FTS-Diffusion:针对金融时序中不规则特征的生成学习
ICML 2024 | BayOTIDE:针对多变量不规则时间序列的高效插补算法
ICML 2024 | 时序异常检测应该如何设计有效的模型?
ICML 2024 | 探索“河流网络拓扑+GNN”在洪水预测任务中的有效性
ICML 2024 | 时间序列相关论文盘点(附原文源码) 
KDD 2024 | UniST:清华推出首个通用城市时空预测模型,代码数据均已公开
综述 | 一文看懂生成式时序表示与时序大模型
CALF:用于长期时间序列预测的高效跨模态LLM微调框架
SOFTS:新SOTA,纯MLP模型架构实现高效多元时序预测
综述 | 解析生成技术在时空数据挖掘中的应用

FreDF:基于频谱对准的时序模型训练方法,多项任务全面超越SOTA!

COLING 2024 | AlphaFin:基于LLM的股票预测大模型,显著提高预测能力

觉得不错,那就点个在看和赞吧

时序人
专注于时间序列领域下的科研、工业干货分享,紧跟AI+等领域的科技前沿
 最新文章