Normalizing Flows for Interventional Density Estimation
用于干涉密度估计的归一化流
https://proceedings.mlr.press/v202/melnychuk23a/melnychuk23a.pdf
摘要
现有的用于因果推断的机器学习方法通常估计通过潜在结果的均值表示的量(例如,平均处理效应)。然而,这些量并不能完全捕获潜在结果分布的全部信息。在本文中,我们从观测数据中估计了干预后潜在结果的密度。为此,我们提出了一种新颖的全参数深度学习方法,称为干预归一化流(Interventional Normalizing Flows)。具体而言,我们结合了两种归一化流,即(i)用于估计干扰参数的干扰流(nuisance flow),以及(ii)用于潜在结果密度参数估计的目标流(target flow)。我们进一步基于一步偏差校正开发了一个可行的优化目标,以实现目标流参数的高效且双重稳健估计。因此,我们的干预归一化流提供了一个适当归一化的密度估计器。在各种实验中,我们证明了我们的干预归一化流具有强大的表达能力和高度有效性,并且能很好地适应样本量和高维混杂因素。据我们所知,我们的干预归一化流是首个用于潜在结果密度估计的适当全参数深度学习方法。
引言
因果推断越来越多地利用机器学习方法来从观测数据中估计治疗效果(例如,van der Laan等人,2011;Kunzel等人,2019;Curth & van der Schaar,2021;Kennedy,2022)。这对于包括医学(例如,Bica等人,2021)、市场营销(例如,Yang等人,2020)和政策制定(例如,Hunermund等人,2021)在内的多个领域都至关重要。在这里,从观测数据中进行因果推断具有巨大价值,尤其是在确定治疗效果的实验成本高昂甚至不道德的情况下。
绝大多数用于因果推断的机器学习方法估计的是由潜在结果的(条件)均值表示的平均量。这些量的例子包括平均处理效应(ATE)(例如,Shi等人,2019;Hatt & Feuerriegel,2021)、条件平均处理效应(CATE)(例如,Shalit等人,2017;Hassanpour & Greiner,2019;Zhang等人,2020)以及治疗反应曲线(例如,Bica等人,2020;Nie等人,2021)。重要的是,这些估计仅描述了平均值,而不涉及分布特性。
然而,基于平均因果量做出决策可能会产生误导,在某些应用中甚至可能很危险(Spiegelhalter,2017;van der Bles等人,2019)。一方面,如果潜在结果具有不同的方差或众数数量,那么依赖平均量会提供关于潜在结果的不完整信息,并可能在决策过程中不经意地导致局部而非全局最优。另一方面,需要分布知识来考虑潜在结果中的不确定性,从而了解某个结果出现的可能性。例如,在医学中,了解潜在结果的分布至关重要(Gische & Voelkle,2021):它给出了潜在结果落在所需范围内的概率,从而定义了治疗成功或失败的概率。受此启发,我们的目标是估计潜在结果的密度。
图1显示了一个强调估计潜在结果密度必要性的例子。在这里,我们根据给定的结构因果模型(SCM)模拟了结果。通过将二元治疗设置为方程中Y的特定值,可以采样潜在结果Y[a]。同时,通过仅筛选(未)治疗人群并对具有反事实治疗的相同方程进行应用,我们可以获得反事实结果Y[a]|A=a'。我们观察到,潜在结果具有相同的均值(即,E(Y[0]) = E(Y[1]))和相同的方差(即,var(Y[0]) = var(Y[1]))。因此,真实ATE等于零。然而,潜在结果的分布(即,P(Y[a]))明显不同。因此,在医学实践中,如果不了解潜在结果的分布而仅根据ATE行事,可能会产生严重的负面影响。为了说明这一点,让我们考虑一个“不采取任何治疗”(a=0)的方案和某种医疗治疗(a=1)。此外,让我们假设如果某个风险评分Y低于5的阈值,则结果为成功。那么,治疗成功的概率(即,P(Y[1] < 5.0) ≈ 0.63)远大于“不采取任何治疗”后成功的概率(即,P(Y[0] < 5.0) ≈ 0.51),这凸显了治疗的重要性。
在本文中,我们的目标是估计干预a后潜在结果的密度,即P(Y[a] = y)。从这一点开始,我们将此任务称为干预密度估计(IDE)。估计干预的密度具有几个关键优势:它允许识别潜在结果分布中的多模态性;它允许估计分布的分位数;并且它允许计算潜在结果落在某个范围内的概率。重要的是,由于因果推断的基本问题,即反事实结果通常从未被观察到,因此也无法从真实干预分布的样本中获取数据,所以传统的密度估计方法不适用于IDE。有效的IDE也远比有效估计平均因果量更具挑战性。原因是密度是一个函数式、无限维的目标估计量,因此标准效率理论不适用。
现有文献为IDE提供了半参数或非参数方法。例如,核密度估计(Kim等人,2018)和分布核均值嵌入(Muandet等人,2021)。然而,这两种方法都存在一个关键限制:估计的密度可能是未归一化的,甚至可能返回负值(根据定义,这是不可能的)。此外,这两种方法在处理样本大小或协变量维度方面都不具备良好的可扩展性。为了解决这个问题,Kennedy等人(2023)提出了一种用于高效半参数IDE估计的理论,使得完全参数化建模成为可能。然而,作者并没有提供一个适当且灵活的理论实例化:在(Kennedy等人,2023)中提出的解决方案要么(i)不具有普遍性(例如,仅限于指数族),要么(ii)不是适当的密度估计器(例如,截断序列估计器)。
在这里,我们提出了一种适当的完全参数化方法。与半参数和非参数方法不同,我们的完全参数化方法具有几个实际优势:它自动提供适当归一化的密度估计器,允许从估计的密度中进行采样,并且通常能够很好地处理大型和高维数据集。然而,据我们所知,还没有用于IDE的完全参数化深度学习方法。为了实现这一点,我们稍后对(Kennedy等人,2023)中用于半参数IDE估计的理论结果进行了非平凡扩展,以适应完全参数化IDE估计。
在本文中,我们开发了一种新颖、完全参数化的深度学习方法:干预归一化流(INFs)。我们的INFs基于归一化流(NFs)(Tabak & Vanden-Eijnden,2010;Rezende & Mohamed,2015),但我们对其进行了仔细调整以适应因果推断。这需要几个非平凡的调整。具体来说,我们结合了两种NFs:(i)用于估计干扰参数的干扰流,以及(ii)用于潜在结果密度参数估计的目标流。在这里,我们构建了一个新颖且可行的优化目标,该目标基于一步偏差校正,以实现高效且双重稳健的估计。最后,我们开发了一个两步训练程序来训练干扰流和目标流。
总体而言,我们的主要贡献如下:
我们引入了第一个适当的完全参数化深度学习方法,用于干预密度估计,称为干预归一化流(INFs)。我们的INFs提供了一个适当归一化的密度估计器。
我们扩展了(Kennedy等人,2023)的结果,并推导出了一个具有一步偏差校正的可行优化问题,以实现高效且双重稳健的估计。这允许我们使用INFs进行有效的两步训练程序。
我们在各种实验中证明了我们的INFs具有高度表达能力和有效性。目标流的参数形式带来的一个主要优势是,与其他非参数和半参数方法相比,我们的INFs在处理大型和高维数据集时具有良好的可扩展性。
2. 相关工作
近年来,利用机器学习,尤其是深度学习来估计因果量,引起了极大的兴趣。例如,利用机器学习估计平均处理效应(ATE)(如Shi等人,2019;Hatt & Feuerriegel,2021),条件平均处理效应(CATE)(如Johansson等人,2016;Alaa & van der Schaar,2018;Wager & Athey,2018;Curth & van der Schaar,2021;Hatt等人,2022;Kuzmanovic等人,2023),以及治疗反应曲线(如Bica等人,2020;Schwab等人,2020;Nie等人,2021;Schweisthal等人,2023)。在这方面,一些论文提出了不确定性感知方法,例如通过潜在结果的方差(Alaa & van der Schaar,2017;Jesson等人,2020),或条件结果分布(Jesson等人,2021;2022)来实现。然而,上述工作都关注于估计通过潜在结果的均值或围绕这些量的认知不确定性表达的平均因果量。相比之下,我们的目标是估计干预后的结果密度,即潜在结果的偶然不确定性(=由总体层面的数据生成过程引起的不确定性)。
2.1 干预密度估计
表1列出了现有的干预密度估计(IDE)方法。重要的是,这些方法要么是非参数的,要么是半参数的。Kim等人(2018)开发了一种具有函数回归的双鲁棒核密度估计(KDE)。Muandet等人(2021)提出了分布核均值嵌入(DKME),它提供了一种非参数的插件估计器。然而,这两种方法(Kim等人,2018;Muandet等人,2021)都存在局限性。(1)它们不提供适当归一化的密度估计器。因此,估计的密度可能是未归一化的,甚至可能是负的,但根据定义,这是不可能的。(2)它们不提供直接采样,这将允许人们从估计的密度中采样,而无需额外的算法。这可能会在计算测试对数概率或评估期间的经验Wasserstein距离时造成麻烦。(3)非参数和半参数方法的另一个局限性是它们通常扩展性不好。这与全参数方法不同,全参数方法在处理大型和高维数据集时具有良好的扩展性。
Kennedy等人(2023)提出了一种有效的半参数IDE理论,该理论也扩展到全参数估计。作者提出了一个假设估计器,作为多元积分方程组(即偏校正矩条件,见其中的式19)的解。然而,该理论没有以适当的通用密度估计器的形式提供算法实例化:提出的解决方案要么(i)是非通用的,要么(ii)不是适当的密度估计器。通过(i),我们指的是指数族,因为它对数据有非常强的假设,并且不是通用的。通过(ii),我们指的是截断级数,它在意义上不是适当的密度估计器,因为估计的密度可能有负值,并且仅在结果空间的有界区域内归一化(Efromovich,2010)。因此,对于具有重尾和多个低密度区域的分布,它们将是一个特别糟糕的模型。此外,截断级数估计器在超过一维分布时扩展性也不好(Gellerstedt & Sjolin,2022)。例如,需要大量的训练数据来充分超出模型的自由度。
上述IDE方法(Kim等人,2018;Muandet等人,2021;Kennedy等人,2023)基于后门调整的标准假设来构建因果可识别性。我们稍后将在IDE中采用相同的假设(见第3节),然后开发一种称为INFs的全参数深度学习方法。作为我们的贡献之一,我们采用了Kennedy等人(2023)的理论框架,并将偏校正矩条件转换为可处理的优化目标,然后展示如何有效地使用深度学习来解决它。我们的方法具有三个有利的特性:它产生适当的密度估计器,允许直接采样,并且具有良好的扩展性。
2.2. 高效估计
在治疗效果估计的背景下,为了对有限维目标估计量(参数)进行高效、半参数估计,开发了所谓的增强逆治疗倾向加权(A-IPTW)估计量(Robins,2000)。形式上,A-IPTW估计对插入模型进行了一阶偏差校正(Bickel等,1993;Chernozhukov等,2018)。A-IPTW估计还具有双重稳健性,即即使其中一个干扰参数估计量收敛缓慢,也能实现快速收敛速率(Kennedy,2020)。
我们的任务与上述内容不同:干预密度是一个函数型、无限维的目标估计量,因此标准效率理论在这里并不适用。为了解决这一问题,Kennedy等(2023)提出先估计有限维投影参数,然后将半参数估计量表述为满足偏差校正矩条件的解。然而,迄今为止,尚未实现以适当通用密度估计器形式的灵活算法实例化。稍后,我们对干预噪声滤波器(INFs)进行了非平凡的扩展,以推导出一个可行的优化问题。
2.3. 正则化流
正则化流(Normalizing Flows)是在变分自编码器(Variational Autoencoders)中引入的,用于进行富有表现力的变分近似(Tabak & Vanden-Eijnden, 2010; Rezende & Mohamed, 2015)。我们在附录B中提供了关于正则化流的背景知识。正则化流的一个实际好处是,它们可以产生通用密度近似器(Dinh等,2014; 2017; Huang等,2018; Durkan等,2019)。此外,正则化流还可以用于条件密度估计(例如,通过所谓的超网络(Hypernetworks)(Trippe & Turner, 2018))。虽然正则化流之前已被用于因果推断,但与我们的设置不同(见附录A)。
研究空白:现有的干预密度估计(Interventional Density Estimation, IDE)方法要么是非参数方法,要么是半参数方法。据我们所知,我们的工作是首个提出用于干预密度估计的全参数深度学习方法。
3.设置:介入密度估计
这个估计量是干预密度的一个无偏但不高效的估计量,被称为半参数插入估计量。与半参数平均治疗效果(ATE)估计等不同,半参数干预密度估计(IDE)存在很大的问题。对于大样本量,半参数估计量需要对每个评估点在整个样本上进行平均。基于这一点,我们的目标是开发一个适当的全参数估计量。
全参数干预密度估计的理论背景
在本节中,我们介绍了干预密度的全参数估计理论。首先,我们提供了(Kennedy等,2023)中介绍的理论背景。在这里,我们将投影参数描述为满足矩条件的解,然后列出了两个估计量,即协变量调整(CA)估计量和高效增强逆治疗倾向加权(A-IPTW)估计量。其次,我们详细阐述了A-IPTW估计量,并将其转化为优化目标,这也是我们的贡献之一。
4.1. 作为矩条件解的投影参数(Kennedy等人,2023)
在这里,矩条件是潜在结果的期望得分函数。在整篇论文中,我们假设矩条件有一个唯一的解,因此,方程(3)中的最小化任务和方程(4)中的求根任务是等价的。
4.2 将投影参数作为优化目标的解
之前,Kennedy等人(2023)提出了直接解决偏差校正的矩条件,即,一个非线性方程组,但通常在计算上更难解决。相反,我们开发了一个可以直接纳入深度学习密度估计器损失的优化目标。为此,我们将偏差校正的矩条件转化为以下可行的优化任务(详见附录C中的所有细节)。
干预归一化流
接下来,我们将介绍我们的干预归一化流(Interventional Normalizing Flows):一种通过深度学习进行干预密度估计的完全参数化方法。首先,我们将描述我们架构的所有组成部分,然后介绍使用一步偏差校正的高效估计方法。
5.1. 组成部分
在我们的干预归一化流(INFs)中,我们结合了两种归一化流,我们称之为(i)干扰流和(ii)目标流(见图2)。这种设计的理由基于我们在第3节中的推导,根据这些推导,一个完全参数的干预密度估计(IDE)需要两个模型:(i)一个用于估计干扰参数,以及(ii)一个用于后续针对投影参数优化学习目标的模型。因此,在我们的干预归一化流中的两种归一化流具有不同的目标:(i)干扰流估计干扰参数(即倾向得分和条件结果分布);(ii)目标流则使用估计的干扰参数来估计投影参数。
5.2 一步偏差校正
为了提供目标流参数的有效估计,我们在交叉熵损失(方程(14))中增加了一步偏差校正。为了评估偏差校正项,我们需要计算条件交叉熵损失:。
5.3. 训练和推断
训练。为了训练我们INFs的两个组成部分,我们采用两步训练过程。具体来说,我们首先使用混杂流拟合混杂参数。然后,我们冻结混杂流的参数并拟合目标流。我们还使用目标参数的指数移动平均(EMA)和平滑超参数γ 来稳定小批量大小的训练(Polyak & Juditsky, 1992)。我们在附录D中展示了完整的算法,并在附录E中进一步提供了实现细节。
推断时间。我们混杂-目标模型的一个主要优点是目标流具有恒定的推断时间(例如,在评估阶段)。因此,与最先进的基线相比,我们INFs的推断不依赖于协变量(或表示)的维度和训练数据的大小。这是半参数插值估计器的一个主要优势。有关详细的运行时间比较,我们参考附录L。为此,我们的方法提供了很好的可扩展性,如医学中所需的。
6. 实验
基线。我们使用最先进的IDE基线(见第2.1节):(1) 扩展的TARNet(TARNet*)(Shalit等人,2017)估计条件均质正态分布的均值;(2) 混合密度网络(MDNs)(Bishop,1994);(3) 条件正规化流(CNF)(Trippe & Turner,2018);(4) 核密度估计(KDE)(Kim等人,2018);(5) 分布核均值嵌入(DKME)(Muandet等人,2021);以及 (6) 与CNF一起截断的级数估计器(CNF+TS),作为(Kennedy等人,2023)中更灵活的基线。TARNet*、MDNs和CNF是半参数插值估计器(见方程(2))。重要的是,KDE、DKME和CNF+TS不能保证适当的密度估计(与我们的INFs不同)。因此,我们进行了额外的重新归一化和负值剪辑,以便我们可以使用平均对数概率作为评估指标。关于基线的详细信息在附录F,关于超参数调整的信息在附录G。
消融研究。我们比较了我们INFs的三个变体:(1) INFs(主要):如上所述使用AIPTW估计的我们INFs。(2) INFs w/o目标流:一个简化变体,仅使用混杂流的条件密度估计作为半参数插值估计器,因此没有目标流。这个变体与CNF基线相同。(3) INFs w/o偏差校正:我们使用协变量调整的全参数估计器,其中目标流仅使用方程(14)中的交叉熵损失,但没有一步偏差校正。消融研究与我们的主要方法有相同的超参数,以便更好地比较。
合成数据。我们使用图1中的SCM生成合成数据。在这里,我们改变了协变量偏移 b,它控制了处理和未处理人群之间的重叠。值得注意的是,b 的低值对应于两种人群相似或相同的情况下,而 b的高值导致违反积极性假设。关于合成数据集的更多细节在附录H。我们的INFs在性能上明显优于基线,特别是对于较大的 b(图3)。此外,消融研究证实了我们提出的深度学习架构与一步偏差校正是优越的。在附录I中,我们进一步提供了一个二维基准,我们的INFs再次表现最佳。
IHDP 数据集。婴儿健康和发展计划(IHDP)(Hill, 2011) 是一个半合成数据集,它由来自现实世界医疗协变量的两个合成潜在结果生成(n = 747, d_X = 25,详见附录H)。在这里,我们使用了十折训练/测试分割(90%/10%),并根据第一次分割进行超参数调整。结果在表2中。TARNet* 已知包含一个真实的条件分布模型,因此不应被解释为基线,而是作为性能的上限。我们的INFs达到了同样好的表现,重要的是,对于两个潜在结果,都超过了所有其他基线。消融研究再次确认,我们的主要INFs优于其他没有目标流和没有偏差校正的变体。在附录J中,我们使用经验Wasserstein距离重复评估,发现结果类似。
ACIC 2016 & 2018 数据集。ACIC 2016 & 2018 分别提供了77个和24个半合成数据集,这些数据集具有不同的数据生成机制(Dorie等人,2019;Shimoni等人,2018)(详见附录H)。我们对每个数据集执行五次随机训练/测试分割(80%/20%),在第一次分割上调整超参数,并在每次分割上评估平均的样本内和样本外对数概率。表3提供了性能比较。再次,我们的INFs在性能上明显优于基线和其他模型变体。与MDNs作为第二好的方法相比,我们的INFs在运行时间方面表现得更好,特别是对于大样本量(见附录L)。
可扩展性。ACIC 2018和HC-MNIST数据集的实验显示了我们的INFs对于大样本量( n > 25,000 )和高维协变量的数据集的可扩展性。我们在附录L中提供了运行时间比较。对于HC-MNIST,非参数和半参数方法由于内存和时间限制而变得非常不切实际。例如,我们的INFs每次实验大约需要5分钟,而KDE需要大约26分钟,DKME需要大约18分钟。这是我们的全参数IDE估计器(INFs)相对于半参数插值估计器和其他基线的一个主要优势。
案例研究。我们使用加利福尼亚州烟草控制计划的数据进行了案例研究,以估计其对烟草销售的影响。以前的证据主要基于点估计,而没有关于干预密度的信息(Abadie等人,2010)。我们的INFs表明,该计划将导致烟草销售大幅减少(见附录M)。
讨论:
有趣的是,我们干预归一化流(INFs)的两个组成部分都对最终性能至关重要(见我们的消融研究)。
(i)在噪声正则化的帮助下,干扰流能够对干扰参数进行一致估计。
(ii)目标流则利用估计的干扰参数来解决优化目标问题。在绝大多数实验中,我们干预归一化流的大部分性能都归功于第二阶段估计,即目标流。目标流对于计算性能也至关重要。虽然简单的归一化流在拟合优度方面具有相似的估计性能,但只有我们的干预归一化流具有恒定的推理时间(例如,在评估阶段,无论训练数据的大小如何)。这是完全参数化治疗效果估计器相较于半参数插值估计器的主要优势。
关于归一化流的选择,神经样条流是通用密度近似器的一种可能选择。10 我们已经证明,在绝大多数实验中,神经样条流的表现优于其他基线方法。我们进一步推荐神经样条流,因为它们既灵活又简洁。
结论:
在个性化医疗的决策制定中,不仅要了解治疗对患者健康的影响,还要了解治疗实现预期结果的可能性有多大。为了解决这个问题,我们提出了一种新的潜在结果密度估计方法。具体来说,我们提出了干预归一化流,这是首个用于此目的的全参数深度学习方法。
原文链接:https://proceedings.mlr.press/v202/melnychuk23a/melnychuk23a.pdf