ICML 2024 | CaRiNG：在非可逆生成过程中学习时间因果表示

科技 2024-08-04 20:01 浙江

点击名片

关注并星标

#TSer#

扫下方二维码，加入时序人学术星球

参与算法讨论，获取前沿资料

（210+篇专栏笔记，已有210+同学加入学习）

在序列数据中识别潜在的时延因果过程对于掌握时间动态和进行下游推理至关重要。本文介绍一篇 ICML 2024 中的相关工作，研究者提出了一种可识别性理论，该理论允许从非线性和不可逆的混合中恢复独立的潜在成分。

基于这一理论，研究者引入了一种名为 CaRiNG 的原则性方法，能够学习具有可识别性保证的非可逆生成时序数据的因果表示。该方法利用时间上下文来恢复丢失的潜在信息，并应用其理论中的条件来指导训练过程。对于现实世界的应用，CaRiNG 被部署在交通事故推理任务中，这是一个复杂的交通动态引入大量非可逆性的场景。实验结果表明，该方法在非可逆生成过程中识别因果表示方面显著优于其他时序表示学习方法。此外，这种因果表示已被证明在增强视频推理任务方面发挥了重要作用。

【论文标题】CaRiNG: Learning Temporal Causal Representation under Non-Invertible Generation Process

【论文地址】https://arxiv.org/abs/2401.14535

【论文源码】https://github.com/sanshuiii/CaRiNG

引言

近年来，非线性 ICA 取得了显著进展，为潜在变量的可识别性提供了坚实的理论证据，并使得能够利用深度神经网络来处理复杂场景。例如，通过假设数据生成过程中的潜在变量是相互独立的，并利用辅助的侧信息，如时间索引、域索引或类别标签，已经展示了强大的可识别性结果。进一步将这一非线性ICA框架扩展到具有时延的动态系统场景中，从而允许潜在变量之间的时间转换。

混合函数（从源到观测的生成过程）是可逆的，这可能在现实场景中难以满足，例如视觉过程中的 3D 到 2D 投影。如图1（a）和（b）所示，提供了两个真实视频的直观实例来说明非可逆性是如何发生的。在（a）中，当发生物体遮挡时，当前时间步的生成过程中会丢失被遮挡物体的信息，从而导致非可逆性。在（b）中，视觉暂留现象引入了非可逆性，因为当前时间步的混合过程利用了历史信息。研究者进一步发现，违反这种可逆性假设可能导致非线性 ICA 方法在识别方面表现不佳。在图1的（c）展示了 TDRL 这一基于非线性 ICA 的典型方法，它假设了可逆性，但在非可逆性增加时，其识别潜在变量的性能会显著下降。这促使研究者扩展当前的非线性 ICA 方法，以考虑非可逆混合函数。

图1：非可逆生成过程的动机

模型方法

在本文中，为了应对上述挑战，研究者提出利用时间上下文来恢复由非可逆混合函数引起的缺失信息，这反映了人类感知的直观机制。例如，当遇到被遮挡的物体时，我们的自然倾向是利用历史数据来重建被遮挡的部分。研究者证明，即使生成过程是非可逆的，如果潜在变量可以表示为当前观测值与其历史的任意函数组合，那么推导出的潜在因果表示仍然是可识别的。

基于这一识别定理，研究者介绍了一种名为 CaRiNG 的原则性方法，该方法学习一个函数来整合历史数据，以补偿因非可逆性而丢失的潜在信息。CaRiNG 建立在序列变分自编码器（Sequential VAE）的基础上，并集成了三个主要模块：序列到步骤的编码器（SeqEnc）、步骤到步骤的解码器（StepDec）和转换先验模块（）。

通过 Sequential VAE 确保了从潜在变量到观测变量的重构能力。同时，与 VAE 中的高斯先验不同，该论文方法采用归一化流来控制先验分布，确保潜在变量满足假设的条件独立性。

整体框架

图2：CaRiNG的总体框架

CaRiNG 的框架首先通过序列到步骤的编码器获取潜在的因果表示，输入是一系列观测值，输出是估计的潜在变量。然后，通过步骤到步骤的解码器从潜在空间生成观测数据。为了学习独立的潜在变量，使用 KL 散度（Kullback-Leibler divergence）约束来确保学习的潜在变量的后验分布与服从条件独立性假设的先验分布之间的一致性。对先验分布的估计促使研究者利用归一化流，将先验分布转换为高斯噪声，表示为。此外，为了模型训练，研究者在真实值和生成的观测值之间集成了重建损失。

序列到步骤的编码器和步骤到步骤的解码器

编码器

受人类视觉系统能力的启发，研究者利用时间上下文来恢复由于不可逆生成而丢失的信息。假设存在一个函数能够捕获当前观测值及其时间上下文中的所有潜在信息，我们就可以用可识别性来检索潜在的因果过程。各种非线性模型都适合用于估计这个函数。在本文实验中，研究者既使用了多层感知机（MLP），也使用了 Transformer，以适应不同的复杂性。

解码器

在给定估计的潜在变量后，使用步骤到步骤的解码器来生成当前的观测值。在实际实现中，使用一个 MLP 就足够了。

转换先验模块

为了维护条件独立性假设，CaRiNG 通过最小化学习到的潜在变量的后验分布与先验分布之间的 KL 散度来估计先验。该约束表明，在给定历史潜在变量的条件下，当前潜在变量是相互独立的。形式上，通过硬性编码先验分布，强制使相互独立。通过最小化 KL 散度，期望后验也符合这一假设。然而，直接估计具有任意密度函数的先验会带来挑战。

作为解决方案，研究者引入了一个转换先验模块，该模块利用归一化流来辅助先验的估计。具体来说，先验是通过高斯分布与转换模块的雅可比矩阵相结合来表示的。

优化

CaRiNG 使用证据下界（ELBO）目标进行训练，包括重建损失（LRecon）和 KL 散度（LKLD）。重建损失使用均方误差（MSE）来衡量生成数据和原始数据之间的差异。KL 散度的计算采用采样方法，因为先验分布没有显式形式。

实验结果与分析

模拟实验

为了评估 CaRiNG 在非可逆情况下学习因果过程和识别潜在变量的能力，作者设计了一系列基于随机因果结构的模拟实验。

在 NG 和 NG-TDMP 两种情况下，CaRiNG 与其他基线方法的性能进行了比较，结果显示 CaRiNG 在两种情况下都提供了稳健的可识别性结果。这表明，在面临不可逆生成过程时，利用时间上下文可以显著提高可识别性。最后，NG 场景下的性能优于 NG-TDMP 场景，这表明时间延迟混合过程增加了复杂性。

模拟实验结果表明，CaRiNG 在非可逆生成过程中能够有效地识别潜在变量。

表1：在NG和NG-TDMP设置下，CaRiNG和基线方法的MCC分数

图3：在非可逆生成设置中，基线（特别是TDRL）与CaRiNG的定性比较

真实世界实验

这里使用了 SUTD-TrafficQA 数据集，这是一个为交通场景视频事件理解量身定制的综合资源，具有多个交通代理之间的大量遮挡。

在 SUTD-TrafficQA 数据集上，CaRiNG 在六种问题类型上的性能与其他方法进行了比较，CaRiNG 取得了显著的改进，比次佳方法提高了近 6.8%。

值得注意的是，与缺乏时间上下文的 TDRL 相比，CaRiNG 在表示复杂、不可逆的交通事件方面表现出显著的进步。与采用相同跨模态匹配模块的 HCRN 基线相比，该论文方法通过因果表示学习进一步将分数提高了 4.96。

表2：在SUTD-TrafficQA数据集上的结果

在真实世界实验中，CaRiNG 在交通事件理解任务上表现出色，特别是在表示复杂和非可逆交通事件方面。

扫下方二维码，加入时序人学术星球

星球专注于时间序列领域的知识整理，前沿追踪

提供论文合集、视频课程、问答服务等资源

210+篇专栏笔记，已有210+小伙伴加入

价格随着内容丰富而上涨，早入早享优惠哦~

时间序列学术前沿系列持续更新中 ⛳️

后台回复"讨论"，加入讨论组一起交流学习 🏃

ICLR 2024 | FTS-Diffusion：针对金融时序中不规则特征的生成学习

ICML 2024 | BayOTIDE：针对多变量不规则时间序列的高效插补算法

ICML 2024 | 时序异常检测应该如何设计有效的模型？

ICML 2024 | 探索“河流网络拓扑+GNN”在洪水预测任务中的有效性

ICML 2024 | 时间序列相关论文盘点（附原文源码）

KDD 2024 | UniST：清华推出首个通用城市时空预测模型，代码数据均已公开

综述 | 一文看懂生成式时序表示与时序大模型

CALF：用于长期时间序列预测的高效跨模态LLM微调框架

SOFTS：新SOTA，纯MLP模型架构实现高效多元时序预测

综述 | 解析生成技术在时空数据挖掘中的应用

FreDF：基于频谱对准的时序模型训练方法，多项任务全面超越SOTA！

COLING 2024 | AlphaFin：基于LLM的股票预测大模型，显著提高预测能力

觉得不错，那就点个在看和赞吧

http://mp.weixin.qq.com/s?__biz=Mzg3NDUwNTM3MA==&mid=2247500400&idx=1&sn=065fe6b293f4f024871b672ccaeb5ead

时序人

专注于时间序列领域下的科研、工业干货分享，紧跟AI+等领域的科技前沿

最新文章

无惧漂移！D3R方法可用于不稳定多元时间序列异常检测，SOTA提升11%

无需安装，一个文件本地运行大模型！

EffiCANet：基于卷积注意力的高效时间序列预测，显著降低计算成本

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

快速学会登上nature的热门算法，LSTM！

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

填补空白！Salesforce 提出首个通用时序预测模型评测基准 GIFT-Eval

LSTM依然能打！原作者带队最新开源成果吊打Transformer和Mamba

涨点神器！100个即插即用缝合模块【合集下载】

清华与深大提出TimeBridge，有效处理长期时间序列预测中的非平稳性问题

Salesforce 推出 Moirai-MoE，新视角设计下一代时序基础模型

一文解读：时序基础模型的缩放定律

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

最强总结，99个时间序列+时空数据的顶会创新！

正常时序转化为图像，进行高效且可解释的多元时序异常检测

NeurIPS 2024 | 时间序列相关论文盘点（附原文源码）

Time-MMD：首个涵盖9大主要数据领域的多域多模态时间序列数据集

华东师大团队首创！时间序列异常预测开启全新时序任务

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

快速学会登上nature的热门算法，LSTM！

如何处理多频段时序特征？这个Transformer变体显著提升预测效果

20场Kaggle机器学习比赛Top方案GrandMaster整理

PeFAD：边缘设备中高效的联邦异常检测框架

KDD 2024 | 数据驱动的分布偏移检测与自适应

NeurIPS 2024 | 分段时序多分类任务下的一致性学习框架

KDD 2024 | 首个基于 Diffusion 的自监督时序表示方法

必看的11种主流注意力机制创新研究！(附代码）

港大智慧城市大模型 OpenCity 来袭! 时空预测是否将在 GPT 时代重塑？

KDD 2024 | RHiOTS：评估层级化时序预测算法的可靠性

博后招募 | 清华大学裴丹老师课题组招收时间序列博士后

这届审稿人是不是有毛病！？？？

时间序列预测中如何构建层级化的 Transformer 架构？

文末送书 | 豆瓣9.6，多语言版本全球发行，这本书为何这么受欢迎？

KDD 2024 | FNSPID：整合新闻与股价的大规模金融数据集

KDD 2024 | 检测并优化时序预测中的分布偏移问题

多模态融合，顶会超神了！

KDD 2024 | 时间序列相关论文盘点（附原文源码）

LSTM+Transformer=金融时序预测超高精准度！

LSTM又火了！最新52个创新思路+全部开源代码！

LSTM再升级！原作者携xLSTM回归，扩展LSTM到数十亿参数

发paper必备82个即插即用缝合模块！附下载

KDD 2024 | ShapeFormer：多维时序分类中基于形状的Transformer

综述 | 可解释性人工智能（XAI）在金融时间序列预测中的应用

文末送书 | AI for Science：一本书，洞察未来的科技生态！

AI顶会今年这情况，很严重，大家做好准备吧！

ICML 2024 | CaRiNG：在非可逆生成过程中学习时间因果表示

WWW 2024 | FCVAE：从频率角度重新审视 VAE 在无监督异常检测中的效果

清华第二届城市科学大会报名启动！文末赠送2个免费与会名额！

各位，请入局AI大模型，现在！立刻！马上！！

ICML 2024 | FlashST：一个简洁有效新范式，助力智慧城市时空预测

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉