将因果关系分解为协同、独特和冗余

文摘   2024-11-08 09:01   北京  

Martínez-Sánchez Á, Arranz G, Lozano-Durán A. Decomposing causality into its synergistic, unique, and redundant components[J]. Nature Communications, 2024, 15(1): 9296.

摘要

因果关系是科学探究的核心,作为理解物理系统中变量间相互作用的基础。尽管其核心作用,当前的因果推断方法因非线性依赖、随机交互、自我因果、汇聚效应和外生因素的影响等面临重大挑战。虽然现有方法可以有效解决部分挑战,但没有单一方法成功整合了所有这些方面。在这里,我们通过SURD(协同-独特-冗余分解因果关系)来应对这些挑战。SURD将因果关系量化为从过去的观测中获得的关于未来事件的冗余、独特和协同信息的增量。该公式是非侵入式的,适用于计算和实验调查,即使样本稀少。我们在因果推断面临重大挑战的场景中对SURD进行基准测试,并证明它比以往的方法提供了更可靠的因果关系量化。

引言

因果关系是科学研究的核心,它帮助我们理解变量间的相互作用。现有的因果推断方法在处理非线性依赖、随机交互等复杂情况时面临挑战,而SURD方法通过量化冗余、独特和协同信息增量来克服这些挑战,提供了一种更可靠的因果关系量化方式

探索因果关系对于科学发现至关重要,它使我们能够理解现象并影响事件的发展。因果推断方法的发展正在推动多个科学和工程领域,如气候研究和神经科学,向前发展。

因果关系涉及物理影响的概念,即对原因的操纵会导致效果的变化。然而,区分因果关系、关联和相关性是复杂的,因为它们可能由共同原因或混杂因素引起。

为了准确表征因果模式,理解变量之间的相互作用是关键,包括中介、混杂和汇聚。这些互动可能导致复杂的因果网络,需要精确捕捉。考虑由A、B和C表示的三个事件:

  • 中介变量(A → B → C)出现在变量A到变量C的因果链之间,变量B作为桥梁。。中介变量有助于解释独立变量如何影响因变量的潜在机制。
  • 混杂变量(A ← B → C)作为两个变量的共同原因:B → A和B → C。它们有可能在A和C之间创建统计相关性,即使它们之间没有直接的因果联系。混杂变量可能会掩盖或扭曲变量之间的真实关系。
  • 汇聚变量(A → B ← C)代表多个因素对同一变量的影响:A → B和C → B。这种情况特别适用于非线性动态系统,其中大多数变量由于耦合而受到多个原因的影响。冗余原因导致通往同一效果的多条路径。

因果关系识别领域在准确识别中介、混杂和汇聚时遇到挑战,现有方法如基于干预的概念和观察方法都具有侵入性、成本高、不切实际以及伦理问题等局限性。尽管这些方法在理解复杂系统中的因果相互作用方面取得了进展,但它们在处理非线性依赖、随机交互和自我因果等问题时存在不足,并且无法区分冗余、独特和协同的因果互动,也不能量化未观测变量的影响。为了克服这些限制,研究者提出了SURD方法,该方法提供了冗余、独特和协同贡献方面的因果量化,并提供了隐藏变量因果关系的度量,可用于检测具有多个变量、不同时间滞后的依赖关系和瞬时链接的系统中的因果关系。

理论

SURD(Synergistic-Unique-Redundant Decomposition)的逻辑基于信息论,特别是Shannon熵的概念,来量化和分解因果关系。

1. 信息论基础

在信息论中,熵(Entropy)是衡量不确定性或信息量的一个度量。对于一个随机变量 ,其熵 定义为:

其中  是   取值    的概率。

2. 互信息(Mutual Information)

互信息 衡量两个随机变量 之间的相互依赖性,即知道 能减少对 不确定性的程度:

这里, 的熵, 是给定 的条件熵。

3. 因果关系的分解

SURD将互信息 分解为冗余、独特和协同三个部分:

  • 冗余因果性(Redundant Causality):多个变量共同提供的信息,即这些变量中的任何一个都能提供相同的信息。

  • 独特因果性(Unique Causality):单个变量独有的信息,其他变量不能提供。

  • 协同因果性(Synergistic Causality):多个变量联合提供的信息,这些信息不能从单个变量中获得。

4. 公式推理

是观测变量的集合, 是目标变量。SURD的目标是量化 的因果影响:

其中:

  • 是从变量 的冗余因果性。
  • 是从变量 的独特因果性。
  • 是从变量集合 的协同因果性。
  • 是由于未观测变量导致的因果漏损。
图一 的冗余、独特和协同因果关系图

5. 归一化和解释

SURD通过归一化处理,确保冗余、独特和协同因果性的总和等于互信息 ,从而提供了一个直观、可解释的框架来衡量每种因果关系的重要性。这种归一化处理使得研究者可以比较不同变量对目标变量的相对影响。

案例分析

1.三种因果相互作用情况

针对前文提及的中介、混杂和汇聚三种情况,论文分别展示了如何进行SURD分析:

图二 中介变量系统

系统,其中通过中介变量产生影响。图二显示了变量之间关系的示意图,以及通过 SURD 和其他因果分析方法得出的结果。

图三 混杂变量系统

系统中作为的混杂变量,即。上图混杂效应的存在在 SURD 中通过协同因果关系来体现,同时发现的自引因果性。

图四 汇聚-协同变量系统

系统,其中共同作用以影响。下图中展示SURD 能够通过协同因果关系检测出的主导协同效应,同时还检测到了自引因果性。

图五 汇聚-冗余变量系统(

基本的交互关系,其中相同。的未来结果有相等的影响。

2.湍流中能量级联的应用

论文应用SURD研究湍流中能量级联的因果关系,这是一个混沌、多尺度、高维系统的例子。湍流能量级联描述了在湍流中,能量如何从大尺度结构转移到小尺度结构的过程。这个过程对于理解湍流的动力学至关重要。

论文首先通过数值模拟获取了在不同长度尺度上的流速场数据,并计算了这些尺度之间的能量转移率。然后使用SURD来量化不同尺度之间的能量转移,识别哪些尺度之间的能量流动是冗余的、独特的或协同的。

图六 湍流能量级联中的因果关系

SURD揭示了能量级联中的冗余和独特因果性,表明能量主要从小尺度向大尺度传递,而协同效应在这一过程中的作用较小。

3.湍流边界层中的应用

湍流边界层是流体动力学中的一个重要现象,它影响着飞机的气动阻力和大气边界层的气象条件。

论文利用SURD来研究湍流边界层的外层(远离壁面)和内层(靠近壁面)的流速运动之间的相互作用,特别是确定能量和信息是如何在这些层之间传递的。

图七 湍流边界层中顺流速度运动之间的因果关系

SURD表明,内层的速度主要受外层速度的影响,而外层速度则主要受自身过去状态的影响。这支持了湍流研究中的“自上而下”的因果关系假设。

讨论

考虑到准确量化因果关系的复杂性,特别是在存在中介、混杂和汇聚三种情况下,SURD能够区分冗余、独特和协同因果性,这是传统方法所不具备的。这种区分对于理解系统中变量之间的真实关系至关重要。

此外,SURD引入了因果漏损的概念,量化了由于未观测变量而未被解释的因果关系。这一指标有助于评估因果关系的完整性和分析的可靠性。

SURD不依赖于模型,适用于线性和非线性的多变量系统,包括确定性和随机过程。这使得SURD在多个领域都有广泛的应用潜力。

与其他因果推断方法比较,SURD在处理复杂因果网络时具有明显优势,尤其是在冗余和协同效应的识别上。

论文最后提出了未来研究的方向,包括进一步验证SURD在更多实际应用中的效果,以及探索如何将SURD与其他数据分析技术结合,以解决更广泛的科学问题。

使用动态不确定因果图(DUCG)实现动态可靠性框图(DRBD)的求解

基于因果路径的层次图卷积注意力网络在复杂机电系统故障检测中的应用

基于可视化因果注意力的自动驾驶汽车可解释学习

复杂制造系统非平稳制造环境下基于因果推理的零样本预测方法

动态不确定因果图(DUCG)的起源与发展

一种跨域集群对抗的动态弹性评价方法

推荐阅读 | 带飞行助手的旅行商问题:无人机协助的配送优化建模及求解(附代码)

基于 MResNet-LSTM 的滚动轴承故障诊断

空间挠性作动器的可靠性验证试验方法

推荐阅读 | 上门配送成本控制:如何通过激励机制优化成本?

学术人人
传播科学与学术研究动态,发布学术领域重要研究成果。 重点推广可靠性系统工程(包括可靠性、维修性、保障性、测试性、安全性和环境适应性)理论研究成果,传播相关知识。
 最新文章