点击名片
关注并星标
#TSer#
引言
近年来,非线性 ICA 取得了显著进展,为潜在变量的可识别性提供了坚实的理论证据,并使得能够利用深度神经网络来处理复杂场景。例如,通过假设数据生成过程中的潜在变量是相互独立的,并利用辅助的侧信息,如时间索引、域索引或类别标签,已经展示了强大的可识别性结果。进一步将这一非线性ICA框架扩展到具有时延的动态系统场景中,从而允许潜在变量之间的时间转换。
混合函数(从源到观测的生成过程)是可逆的,这可能在现实场景中难以满足,例如视觉过程中的 3D 到 2D 投影。如图1(a)和(b)所示,提供了两个真实视频的直观实例来说明非可逆性是如何发生的。在(a)中,当发生物体遮挡时,当前时间步的生成过程中会丢失被遮挡物体的信息,从而导致非可逆性。在(b)中,视觉暂留现象引入了非可逆性,因为当前时间步的混合过程利用了历史信息。研究者进一步发现,违反这种可逆性假设可能导致非线性 ICA 方法在识别方面表现不佳。在图1的(c)展示了 TDRL 这一基于非线性 ICA 的典型方法,它假设了可逆性,但在非可逆性增加时,其识别潜在变量的性能会显著下降。这促使研究者扩展当前的非线性 ICA 方法,以考虑非可逆混合函数。
图1:非可逆生成过程的动机
模型方法
在本文中,为了应对上述挑战,研究者提出利用时间上下文来恢复由非可逆混合函数引起的缺失信息,这反映了人类感知的直观机制。例如,当遇到被遮挡的物体时,我们的自然倾向是利用历史数据来重建被遮挡的部分。研究者证明,即使生成过程是非可逆的,如果潜在变量可以表示为当前观测值与其历史的任意函数组合,那么推导出的潜在因果表示仍然是可识别的。
基于这一识别定理,研究者介绍了一种名为 CaRiNG 的原则性方法,该方法学习一个函数来整合历史数据,以补偿因非可逆性而丢失的潜在信息。CaRiNG 建立在序列变分自编码器(Sequential VAE)的基础上,并集成了三个主要模块:序列到步骤的编码器(SeqEnc)、步骤到步骤的解码器(StepDec)和转换先验模块()。
通过 Sequential VAE 确保了从潜在变量到观测变量的重构能力。同时,与 VAE 中的高斯先验不同,该论文方法采用归一化流来控制先验分布,确保潜在变量满足假设的条件独立性。
01
整体框架
CaRiNG 的框架首先通过序列到步骤的编码器获取潜在的因果表示,输入是一系列观测值,输出是估计的潜在变量。然后,通过步骤到步骤的解码器从潜在空间生成观测数据。为了学习独立的潜在变量,使用 KL 散度(Kullback-Leibler divergence)约束来确保学习的潜在变量的后验分布与服从条件独立性假设的先验分布之间的一致性。对先验分布的估计促使研究者利用归一化流,将先验分布转换为高斯噪声,表示为。此外,为了模型训练,研究者在真实值和生成的观测值之间集成了重建损失。
02
序列到步骤的编码器和步骤到步骤的解码器
编码器
解码器
03
转换先验模块
为了维护条件独立性假设,CaRiNG 通过最小化学习到的潜在变量的后验分布与先验分布之间的 KL 散度来估计先验。该约束表明,在给定历史潜在变量的条件下,当前潜在变量是相互独立的。形式上,通过硬性编码先验分布,强制使相互独立。通过最小化 KL 散度,期望后验也符合这一假设。然而,直接估计具有任意密度函数的先验会带来挑战。
作为解决方案,研究者引入了一个转换先验模块,该模块利用归一化流来辅助先验的估计。具体来说,先验是通过高斯分布与转换模块的雅可比矩阵相结合来表示的。
04
优化
实验结果与分析
01
模拟实验
为了评估 CaRiNG 在非可逆情况下学习因果过程和识别潜在变量的能力,作者设计了一系列基于随机因果结构的模拟实验。
在 NG 和 NG-TDMP 两种情况下,CaRiNG 与其他基线方法的性能进行了比较,结果显示 CaRiNG 在两种情况下都提供了稳健的可识别性结果。这表明,在面临不可逆生成过程时,利用时间上下文可以显著提高可识别性。最后,NG 场景下的性能优于 NG-TDMP 场景,这表明时间延迟混合过程增加了复杂性。
模拟实验结果表明,CaRiNG 在非可逆生成过程中能够有效地识别潜在变量。
表1:在NG和NG-TDMP设置下,CaRiNG和基线方法的MCC分数
图3:在非可逆生成设置中,基线(特别是TDRL)与CaRiNG的定性比较
02
真实世界实验
这里使用了 SUTD-TrafficQA 数据集,这是一个为交通场景视频事件理解量身定制的综合资源,具有多个交通代理之间的大量遮挡。
扫下方二维码,加入时序人学术星球
星球专注于时间序列领域的知识整理,前沿追踪
提供论文合集、视频课程、问答服务等资源
210+篇专栏笔记,已有210+小伙伴加入
价格随着内容丰富而上涨,早入早享优惠哦~
时间序列学术前沿系列持续更新中 ⛳️
后台回复"讨论",加入讨论组一起交流学习 🏃
往期推荐阅读
FreDF:基于频谱对准的时序模型训练方法,多项任务全面超越SOTA!
觉得不错,那就点个在看和赞吧