「引言」在现代数据驱动的科学研究中,从观测数据中推断变量之间的因果关系是一项关键任务。无论是在社交网络分析、生物医学研究,还是在金融市场的动态评估中,准确的因果推断都能为决策者提供重要的信息,然而在实际应用中我们通常无法收集到所有相关变量的数据。某些变量可能由于技术限制、数据隐私或其他原因未被观察到,这些未被观测的变量被称为隐变量,而那些可以直接测量或观测到的变量则称为观测变量。如果因果发现方法忽略了隐变量的存在,那么最终得出的因果结构可能存在严重偏差,甚至误导研究结论。因此,在不完全观测数据的情况下,如何准确地推断因果结构成为了一个极具挑战性的研究课题。
最近,在人工智能顶会AAAI 2024上有一篇题为《基于高阶累积量的隐变量因果结构识别》[1]的文章刚好可以解决该问题。该研究在不完全观测数据下通过利用高阶统计量刻画受隐变量影响的观测变量之间的关系,提出了观测变量间因果关系的可识别条件,并解决了现有因果发现方法难以识别同时受隐变量影响的两个观测变量间因果关系的问题。让我们一起来深入了解一下吧! 本文链接:https://ojs.aaai.org/index.php/AAAI/article/view/30017/31788 一. 研究背景
在现实情况中通常无法收集或测量所有因果变量。而这种隐变量通常会给因果关系发现造成严重的可识别性问题。例如,我们无法观测到人的心理状况,而人的心理状况会影响到其他能够直接观测到的现象或者事物,即所观测到的事物受到隐变量的混淆。如图1所示,表示观测变量,表示隐变量。观测变量受到隐变量影响时,传统方法由于无法从数据中直接找到所有的原因变量,导致难以识别观测变量的因果关系。如图1(a)所示,在和受到隐变量影响时,无法通过检验条件下与的独立性,导致无法识别与之间不存在直接的因果关系。如图1(b)所示,与之间受到隐变量影响,使得与在特定因果方向的所独有的独立性无法被检验出来,导致无法识别与之间的因果关系。
图1 两个含有隐变量的因果图示例 二. 基于高阶统计量的因果关系识别方法
本文主要基于隐变量线性非高斯无环模型开展研究,下面将首先介绍LvLiNGAM。然后基于LvLINGAM,提出本文提出的方法。
2.1 隐变量线性非高斯无环模型
隐变量线性非高斯无环模型(LvLiNGAM)假设因果变量是由可观察的父亲节点与未观察到的父亲节点的线性组合,加上一个独立的非高斯噪声得到的。具体可以表达成下面的形式:
其中为观测变量,为隐变量,是观测变量之间的因果强度矩阵,是对的因果强度矩阵,是非高斯噪声,并且每个都相互独立。
2.2 算法原理
为了更好地识别隐变量的影响,本研究通过高阶统计量去挖掘隐变量的信息。本文将含有隐变量的因果关系发现问题分解为下列两个问题:
1)如何检测两个观测变量之间是否存在有向因果边?
为了检测两个观测变量之间是否存在因果边,本文基于高阶累积量提出了一个检测观测变量只受到隐变量影响,但观测变量之间不存在直接的因果关系的方法。考虑两个变量和之间的因果图如图1(a)所示。也就是说,和之间没有因果边连接且同时受到一个隐变量的影响。此时,和的联合累积量可以通过下面的式子得到:
上面式子中都只包含了一个项。如果我们对上述式子进行相乘,那么就可以得到:。
如果两个变量之间存在因果边,如图1(b)所示,上述式子两边无法相等。所以,这可以启发我们得到判断两个变量之间是否存在因果边的方法。因此,我们可以得到,当且仅当观测变量与只受到一个隐变量影响,而且它们之间没有直接的因果关系的时候,数据会满足:
2)当存在这样的边时,如何确定其因果方向? 根据上述理论,如果存在变量与不满足约束,则说明两个观测变量之间存在因果边。为了识别因果关系方向的不对称性,考虑两个变量和之间的因果图如图1(b)所示。可以得到和的三阶累积量分别为:
从上式可以看到,原因变量比结果变量少了一项关于的噪声的三阶累积量。而且他们共同含有和这两项。因此,我们可以通过得到如下的不对称性条件:
基于此发现,本文提出了一个识别两个受到隐变量影响的观测变量之间因果边方向的识别方法:当且仅当是的原因,其中。
为了验证是否为的原因,我们需要估计和。这些量可以通过高阶累积量来估计得到。
含有隐变量的因果结构学习算法
基于上述结论,本文提出了一种基于高阶统计量的识别的含有隐变量的因果结构学习算法。具体而言,我们首先考虑两个观察变量和,且这两个变量受到同一个隐变量的影响的情况。定义统计量。 首先,检验是否等于 0,来判断他们之间是否存在因果边。如果,则说明他们之间没有直接的因果边连接;否则,说明他们之间存在因果边。如果存在,我们利用确定因果边的方向的方法,进一步确定因果边的方向。在实际中,不一定确切等于 0,可以采取假设检验的方法进行判断。
三. 仿真实验
本文基于图1中的两个因果图,根据下面的设置,随机生成了不同的数据:因果系数从均匀分布中采样获得,噪声项从指数分布,Gamma分布和Gumbel分布这三种分布中产生。对于每个因果图,样本量设置为5000,10000,50000和100000。对于每种设置,均生成了100份数据集。将本文提出的方法和现有方法应用于上述仿真数据,实验结果如表1和表2所示。
针对图1(a)中的因果结构生成的仿真数据,不同方法在不同噪声分布下的实验结果如表1所示。在这种情况下,只是比较 LvLiNGAM 算法和我们的方法之间的结果,因为 ANM 算法无法推断因果有向边的存在。从结果来看,LvLiNGAM 算法无法得到观测变量之间不存在因果边的结果。由于 LvLiNGAM 算法的性能依赖于过完备独立成分分析,通常会陷入局部最优,因此在实践中会推断出冗余的因果边。而我们提出的方法能在大多数情况下确定两个观察变量之间不存在边。
表1 不同方法在不同分布下识别不存在直接因果关系的准确度 针对图1(b)中的因果结构生成的仿真数据,不同方法在不同噪声分布下的实验结果如表2所示。对于大样本量,HSIC方法不适用,因为其时间和内存消耗较高,因此当样本量为 50000 和 100000 时,ANM算法无法返回任何结果。结果表明,对于不同噪声分布的情况,我们的方法的准确度都高于其他方法。ANM算法和 LvLiNGAM算法在所有样本量下都获得了 0.5 左右的准确度得分。由于ANM算法没有考虑隐变量,这导致它无法区分因果方向。
表2 不同方法在不同分布下识别因果方向的准确度
图2和图3显示了我们的方法的第一类错误和第二类错误的结果,表明算法的准确度其实取决于实验中的样本量和所采用的检验方法。
四.总结在本文中,我们提供了利用高阶累积量来推断两个观测变量与潜在变量之间的因果关系的可识别性理论。基于这些可识别性理论,我们推导出一种因果发现方法,该方法首先检测两个观测变量之间是否存在边缘,然后如果存在因果边缘,则确定因果边缘的方向。与现有方法相比,本文提供的可识别性结果的有效性取决于非高斯数据的高阶累积量的信息。实验结果表明,我们提出的方法取得了良好的性能,特别是在样本量较大(约 100,000个样本)的情况下。这也反映出该检验方法需要较大的样本量来逼近变量的真实联合累积量。
值得注意的是,如果我们能够在测试过程中找到近似联合累积量组合的分布,则可以设计一种更可靠的测试方法,而无需严格的样本量要求。此外,人们可能会认为线性假设过于严格并且不适合现实世界的场景。然而,从加性非线性关系生成的数据获得的实验结果,证明了我们的方法即使在非线性情况下也具有潜在的适用性。如果可以设计出更有效的测试,即使样本量有限,也将有助于将我们的方法扩展到实际应用中的高维场景。这将是我们下一步工作的研究方向。 参考文献:
[1] Chen Wei, Huang Zhiyi, Cai Ruichu, et al. Identification of Causal Structure with Latent Variables Based on Higher Order Cumulants[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38(18): 20353-20361.
[2] Chen Wei, Cai Ruichu, Zhang Kun, Hao Zhifeng. Causal Discovery in Linear Non-Gaussian Acyclic Model With Multiple Latent Confounders[J]. IEEE Transactions on Neural Networks and Learning Systems. 2022, 33(7): 2816-2827.
[3] Cai Ruichu, Huang Zhiyi, Chen Wei, et al. Causal discovery with latent confounders based on higher-order cumulants[C]//ICML, 2023.
初稿:陈薇 颜学明
初审:颜学明
终审:金耀初