「可信人工智能」论文分享：一种基于高阶累积量的隐变量因果关系识别算法

文摘 2024-08-28 15:18 浙江

「引言」在现代数据驱动的科学研究中，从观测数据中推断变量之间的因果关系是一项关键任务。无论是在社交网络分析、生物医学研究，还是在金融市场的动态评估中，准确的因果推断都能为决策者提供重要的信息，然而在实际应用中我们通常无法收集到所有相关变量的数据。某些变量可能由于技术限制、数据隐私或其他原因未被观察到，这些未被观测的变量被称为隐变量，而那些可以直接测量或观测到的变量则称为观测变量。如果因果发现方法忽略了隐变量的存在，那么最终得出的因果结构可能存在严重偏差，甚至误导研究结论。因此，在不完全观测数据的情况下，如何准确地推断因果结构成为了一个极具挑战性的研究课题。
最近，在人工智能顶会AAAI 2024上有一篇题为《基于高阶累积量的隐变量因果结构识别》[1]的文章刚好可以解决该问题。该研究在不完全观测数据下通过利用高阶统计量刻画受隐变量影响的观测变量之间的关系，提出了观测变量间因果关系的可识别条件，并解决了现有因果发现方法难以识别同时受隐变量影响的两个观测变量间因果关系的问题。让我们一起来深入了解一下吧！

本文链接：https://ojs.aaai.org/index.php/AAAI/article/view/30017/31788

一. 研究背景
在现实情况中通常无法收集或测量所有因果变量。而这种隐变量通常会给因果关系发现造成严重的可识别性问题。例如，我们无法观测到人的心理状况，而人的心理状况会影响到其他能够直接观测到的现象或者事物，即所观测到的事物受到隐变量的混淆。如图1所示，表示观测变量，表示隐变量。观测变量受到隐变量影响时，传统方法由于无法从数据中直接找到所有的原因变量，导致难以识别观测变量的因果关系。如图1(a)所示，在和受到隐变量影响时，无法通过检验条件下与的独立性，导致无法识别与之间不存在直接的因果关系。如图1(b)所示，与之间受到隐变量影响，使得与在特定因果方向的所独有的独立性无法被检验出来，导致无法识别与之间的因果关系。
图1 两个含有隐变量的因果图示例
二. 基于高阶统计量的因果关系识别方法
本文主要基于隐变量线性非高斯无环模型开展研究，下面将首先介绍LvLiNGAM。然后基于LvLINGAM，提出本文提出的方法。
2.1 隐变量线性非高斯无环模型
隐变量线性非高斯无环模型（LvLiNGAM）假设因果变量是由可观察的父亲节点与未观察到的父亲节点的线性组合，加上一个独立的非高斯噪声得到的。具体可以表达成下面的形式：
其中为观测变量，为隐变量，是观测变量之间的因果强度矩阵，是对的因果强度矩阵，是非高斯噪声，并且每个都相互独立。
2.2 算法原理
为了更好地识别隐变量的影响，本研究通过高阶统计量去挖掘隐变量的信息。本文将含有隐变量的因果关系发现问题分解为下列两个问题：
1）如何检测两个观测变量之间是否存在有向因果边？
为了检测两个观测变量之间是否存在因果边，本文基于高阶累积量提出了一个检测观测变量只受到隐变量影响，但观测变量之间不存在直接的因果关系的方法。考虑两个变量和之间的因果图如图1（a）所示。也就是说，和之间没有因果边连接且同时受到一个隐变量的影响。此时，和的联合累积量可以通过下面的式子得到：
上面式子中都只包含了一个项。如果我们对上述式子进行相乘，那么就可以得到：。
如果两个变量之间存在因果边，如图1（b）所示，上述式子两边无法相等。所以，这可以启发我们得到判断两个变量之间是否存在因果边的方法。因此，我们可以得到，当且仅当观测变量与只受到一个隐变量影响，而且它们之间没有直接的因果关系的时候，数据会满足：

2）当存在这样的边时，如何确定其因果方向？
根据上述理论，如果存在变量与不满足约束，则说明两个观测变量之间存在因果边。为了识别因果关系方向的不对称性，考虑两个变量和之间的因果图如图1（b）所示。可以得到和的三阶累积量分别为：
从上式可以看到，原因变量比结果变量少了一项关于的噪声的三阶累积量。而且他们共同含有和这两项。因此，我们可以通过得到如下的不对称性条件：
基于此发现，本文提出了一个识别两个受到隐变量影响的观测变量之间因果边方向的识别方法：当且仅当是的原因，其中。
为了验证是否为的原因，我们需要估计和。这些量可以通过高阶累积量来估计得到。
含有隐变量的因果结构学习算法
基于上述结论，本文提出了一种基于高阶统计量的识别的含有隐变量的因果结构学习算法。具体而言，我们首先考虑两个观察变量和，且这两个变量受到同一个隐变量的影响的情况。定义统计量。首先，检验是否等于 0，来判断他们之间是否存在因果边。如果，则说明他们之间没有直接的因果边连接；否则，说明他们之间存在因果边。如果存在，我们利用确定因果边的方向的方法，进一步确定因果边的方向。在实际中，不一定确切等于 0，可以采取假设检验的方法进行判断。
三. 仿真实验
本文基于图1中的两个因果图，根据下面的设置，随机生成了不同的数据：因果系数从均匀分布中采样获得，噪声项从指数分布，Gamma分布和Gumbel分布这三种分布中产生。对于每个因果图，样本量设置为5000，10000，50000和100000。对于每种设置，均生成了100份数据集。将本文提出的方法和现有方法应用于上述仿真数据，实验结果如表1和表2所示。
针对图1(a)中的因果结构生成的仿真数据，不同方法在不同噪声分布下的实验结果如表1所示。在这种情况下，只是比较 LvLiNGAM 算法和我们的方法之间的结果，因为 ANM 算法无法推断因果有向边的存在。从结果来看，LvLiNGAM 算法无法得到观测变量之间不存在因果边的结果。由于 LvLiNGAM 算法的性能依赖于过完备独立成分分析，通常会陷入局部最优，因此在实践中会推断出冗余的因果边。而我们提出的方法能在大多数情况下确定两个观察变量之间不存在边。
表1 不同方法在不同分布下识别不存在直接因果关系的准确度
针对图1(b)中的因果结构生成的仿真数据，不同方法在不同噪声分布下的实验结果如表2所示。对于大样本量，HSIC方法不适用，因为其时间和内存消耗较高，因此当样本量为 50000 和 100000 时，ANM算法无法返回任何结果。结果表明，对于不同噪声分布的情况，我们的方法的准确度都高于其他方法。ANM算法和 LvLiNGAM算法在所有样本量下都获得了 0.5 左右的准确度得分。由于ANM算法没有考虑隐变量，这导致它无法区分因果方向。
表2 不同方法在不同分布下识别因果方向的准确度

图2和图3显示了我们的方法的第一类错误和第二类错误的结果，表明算法的准确度其实取决于实验中的样本量和所采用的检验方法。

四.总结
在本文中，我们提供了利用高阶累积量来推断两个观测变量与潜在变量之间的因果关系的可识别性理论。基于这些可识别性理论，我们推导出一种因果发现方法，该方法首先检测两个观测变量之间是否存在边缘，然后如果存在因果边缘，则确定因果边缘的方向。与现有方法相比，本文提供的可识别性结果的有效性取决于非高斯数据的高阶累积量的信息。实验结果表明，我们提出的方法取得了良好的性能，特别是在样本量较大（约 100,000个样本）的情况下。这也反映出该检验方法需要较大的样本量来逼近变量的真实联合累积量。
值得注意的是，如果我们能够在测试过程中找到近似联合累积量组合的分布，则可以设计一种更可靠的测试方法，而无需严格的样本量要求。此外，人们可能会认为线性假设过于严格并且不适合现实世界的场景。然而，从加性非线性关系生成的数据获得的实验结果，证明了我们的方法即使在非线性情况下也具有潜在的适用性。如果可以设计出更有效的测试，即使样本量有限，也将有助于将我们的方法扩展到实际应用中的高维场景。这将是我们下一步工作的研究方向。

参考文献：
[1] Chen Wei, Huang Zhiyi, Cai Ruichu, et al. Identification of Causal Structure with Latent Variables Based on Higher Order Cumulants[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38(18): 20353-20361.
[2] Chen Wei, Cai Ruichu, Zhang Kun, Hao Zhifeng. Causal Discovery in Linear Non-Gaussian Acyclic Model With Multiple Latent Confounders[J]. IEEE Transactions on Neural Networks and Learning Systems. 2022, 33(7): 2816-2827.
[3] Cai Ruichu, Huang Zhiyi, Chen Wei, et al. Causal discovery with latent confounders based on higher-order cumulants[C]//ICML, 2023.

初稿：陈薇颜学明

初审：颜学明

终审：金耀初

可信及通用人工智能实验室

金耀初实验室（可信及通用人工智能实验室）由欧洲科学院院士、IEEE Fellow，西湖大学人工智能讲席教授金耀初领导成立。实验室致力于应用驱动的可信人工智能研究，以及采用演化发育方法探索实现通用人工智能的新途径。

2025 IEEE CEC 征稿 | Workshop & Special Session: 多模态数据驱动优化

加入我们｜西湖大学可信及通用人工智能实验室「类脑大规模脉冲神经网络方向」招聘助理研究员、博士后、科研助理

诚邀国内外学者来杭参加2025年度演化计算盛会 —— IEEE CEC 2025

「通用人工智能」论文分享｜鸟类启发的反射形态变化实现无舵飞行

「可信人工智能」论文分享｜FedMBridge：一种多模态联邦学习的新框架

[AI for Science] 论文分享 | 探索蛋白质宇宙中的结构多样性——结构域百科全书

金耀初教授入选2024年度“全球高被引科学家”

好消息！可信及通用人工智能实验室成员入选中国博士后科学基金面上资助拟资助名单

[工业人工智能] 论文分享：基于逆变器的AVC：图多智能体强化学习算法

一周年 | 可信及通用人工智能实验室年度工作回顾

「通用人工智能」论文分享：基于螺旋空间的机器人双臂协作学习与优化

计算智能学会浙江分会成功举办青年学者论坛

[通用人工智能] 论文分享：一种基于类别属性推理的零样本关系分类方法

交互式科普论文：一文看懂生成式大语言模型

[可信人工智能] 论文分享：联邦代理辅助进化算法的差分隐私

「工业人工智能」论文分享：初探强化学习在芯片布局中的应用

「通用人工智能」Nature论文分享：人工智能引导的闭环实验平台生成新的化学知识

西湖大学人工智能系多位学者入选2024年全球前2%顶尖科学家榜单

加入我们｜西湖大学TGAI实验室「形态发育机器人|可重构模块化机器人|群机器人」方向科研助理招聘

[可信人工智能] 论文分享：一种基于强化学习的个性化联邦神经架构搜索算法

可信及通用人工智能实验室喜获一项省博士后择优资助

好消息！大规模多目标进化优化领域首部专著出版了

「可信人工智能」论文分享：一种基于高阶累积量的隐变量因果关系识别算法

加入我们｜西湖大学可信及通用人工智能实验室「基于大模型的带电作业机器人项目」科研助理招聘

加入我们｜西湖大学可信及通用人工智能实验室「神经组合优化方向」软件工程师、科研助理招聘

西湖大学可信及通用人工智能实验室成功举办第六届复杂系统数据驱动优化国际会议

「可信人工智能」论文分享：一种联邦数据驱动多任务优化的集成模型知识蒸馏方法

加入我们｜交叉学科研究中心金耀初项目组【AI智能辅助合成生物方向】【智能养殖方向】研究员、科研助理招聘

[通用人工智能] 论文分享｜CognitiveDog：一种基于多模态LLM的四足机器人系统

「工业人工智能」基于集成填充准则的多阶段代理模型辅助进化优化算法

「工业人工智能」基于强调非零变量的稀疏大规模优化

论文分享：一种多目标进化多任务的神经架构搜索算法

[通用人工智能] 论文分享：大语言模型驱动的优化算法设计新方法

喜报！西湖大学工学院可信及通用人工智能实验室金耀初教授获IEEE Frank Rosenblatt Award大奖

一种基于大规模重叠问题的改进差分分组求解方法

「工业人工智能」论文分享：一种面向约束多解多目标优化的多任务辅助进化算法

第六届复杂系统数据驱动优化国际会议（DOCS 2024）征文（投稿延期通知）

[通用人工智能] 论文分享：基于选择优化的多智能体行为模仿研究

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉