因果推断机器学习前沿方法综述

文摘   2024-11-25 12:19   上海  

顶刊欧洲流行病近期发表了一篇十分全面的理论文章《流行病学因果推断中的机器学习》。我们一同来看看最新的因果ML前沿技术, 下面是分享的全文翻译。

摘要

在因果推断中,参数模型通常用于回答因果问题并估计感兴趣的效应。然而,参数模型依赖于正确模型设定的假设,如果这一假设不成立,则会导致效应估计存在偏差。尤其是在高维设置中,正确指定模型形式具有挑战性。将机器学习(ML)引入因果分析可以减少模型错误设定带来的偏差,因为ML方法无需预先指定变量间关系的函数形式。然而,当将ML预测值直接代入预定义的效应公式时,可能会在效应度量中引入“插入偏差(plug-in bias)”。为了解决这一问题,并获得有用的渐近性质,新提出了一些结合ML预测潜力与传统统计方法推断总体参数能力的估计方法。对于希望利用ML进行因果推断研究的流行病学家,我们概述了当前最先进的三种估计方法,即目标最大似然估计(TMLE)、增强反向概率加权(AIPW)和双重/去偏机器学习(DML)。

引言

先进技术和数据收集方法的出现增加了现代流行病学研究的复杂性,使得研究人员需要更频繁地处理高维数据。与此同时,由于机器学习ML能够从数据中学习模式和关系,无需为每种情况明确编程,其应用也日益广泛。到目前为止,ML算法在流行病学中的应用主要集中于预测任务,例如疾病诊断、患者预后或治疗反应【1, 2, 3】。ML算法擅长从数据中学习复杂模式,能够让分析人员基于现有信息生成准确的预测。在流行病学研究中ML的日益使用,激发了人们在因果推断背景下的兴趣。在这一背景下,研究的目标是对感兴趣的关系得出因果结论。研究人员的工作首先是定义一个因果估计量(causal estimand),即他们希望估计的数量,并通过一个被称为“识别(identification)”的过程,建立将其与观测数据联系的必要假设。随后,研究的重点转移到估计和推断任务上。在使用观察性数据进行因果推断时,一个主要风险是混杂因素的存在。常见的混杂调整技术包括多变量回归模型、倾向评分方法和G-method法【4】。所有这些方法通常采用参数模型。然而,参数模型依赖于正确的模型设定,这在高维数据的背景下尤其具有挑战性。例如,在遗传流行病学中,研究人员经常处理包含数千种遗传变异信息的数据集,并试图捕获遗传因素与环境暴露之间的复杂交互,以理解它们对疾病风险的综合影响。在环境流行病学中,测量空气污染、水污染物和工业毒素等环境暴露对健康结局的联合效应至关重要。社会流行病学致力于研究健康的决定因素,通常涉及一系列与社会经济地位相关的高维协变量,如教育、就业和社区特征。在生命历程流行病学中,研究人员分析高维纵向数据,以了解各种暴露和因素如何在整个人生阶段影响健康结局。在这些背景下,不需要指定变量之间关系的函数形式的ML方法能够充分发挥其潜力,减少因模型设定错误导致的偏倚。在过去十年中,研究人员对如何利用ML卓越的预测性能来解决流行病学研究中因果关系建立的挑战进行了越来越多的探索【5, 6, 7】。本文旨在介绍一些允许将ML整合到因果效应估计过程中的估计方法。我们将首先介绍ML的一些关键概念,例如监督学习、超参数调优、K折交叉验证以及过拟合。然后,我们将概述统计模型设定问题,并描述如何利用ML估计平均处理效应(Average Treatment Effect, ATE)的方法。接下来,我们将讨论插入估计量并重点介绍插入偏倚问题。最后,我们将说明三种解决插入偏倚问题的双重稳健估计量,这些方法能够为ATE提供高效的估计。由于因果推断涉及观察性研究和随机对照试验,本文中“暴露(exposure)”和“治疗(treatment)”两个术语可互换使用。

什么是机器学习?

由于在预测任务中的卓越表现,ML技术在流行病学中获得了越来越多的关注。这些算法使用数据作为“经验”来学习,逐步提高其性能,模仿人类的学习任务。ML与统计方法之间的区别并不明确,将特定的方法归类为“机器”或“统计”学习通常取决于其历史背景【8】。尽管概念相似,这两个领域的术语却有所不同。Bi等人【8】提供了一个有用的ML和统计/流行病学等效术语表。在本文中,我们将重点关注ML的一个特定领域,称为 “监督学习”。监督学习处理的数据集中的每个单元/个体都观察到了因变量(例如,某种疾病的存在或缺失),就像在标准的流行病学模型中一样,该因变量被称为“标签”【8】。监督学习自动且自适应地学习一个通用规则,将数据集中的输入(预测变量)映射到输出(标签),并可用于对新数据进行预测。ML模型的开发和评估涉及三个主要步骤:训练、验证和测试。在训练过程中,具有不同超参数配置(即,控制学习过程的参数值)的各种模型在数据上进行训练,以学习变量之间的模式和关系。在验证阶段,评估预测误差以选择性能最佳的模型。在测试阶段,在未见数据上评估所选模型的泛化性能(即,模型对“样本外”数据的泛化能力)【9】。通常,K折交叉验证被用作数据分割的程序,在相同的数据上重复训练和验证阶段。该过程将观测数据随机分成K组,称为折叠(folds)。使用K-1组来拟合模型,然后在之前排除的那一折上验证模型。该过程重复K次,每次排除一个不同的折叠。用于评估的度量(例如均方误差MSE)的K个最终估计值然后被平均,以产生一个对训练数据上模型性能的单一、稳健的度量。为了使模型能够“学习”并优化其参数,许多ML算法执行迭代的优化过程,以最小化或最大化捕获整体学习任务的目标函数。在训练阶段,某个函数(例如上述的MSE度量)量化预测值与观测值之间的差距,指导优化过程。许多数据分析的核心问题是找到模型灵活性和简单性之间的正确平衡。这对于在偏差和方差之间实现最佳权衡至关重要。偏差是模型预测参数的平均值与其真实值之间的差异。方差反映了模型对训练集中微小波动的敏感性。高偏差导致欠拟合模型(模型过于简单,无法捕获潜在模式),而高方差导致过拟合模型(模型紧密拟合训练数据,甚至记住了训练集中的随机波动)。不同的方法采用不同的策略来达到最佳的偏差-方差权衡。例如,参数模型通过假设特定的数据分布并限制参数数量(通常远小于ML模型中的参数数量)来实现平衡。然而,它们的假设可能限制了捕获数据中复杂关系的能力。相反,增加参数数量可以放宽这些限制,提供更大的灵活性,防止模型设定错误带来的偏差。然而,这种灵活性可能导致更宽的置信区间,反映出方差的增加【10】。正则化方法(如Lasso、Ridge和Elastic Net)通过惩罚因子来约束模型的灵活性。通过对模型中的系数进行惩罚,这些技术减少了在训练数据中捕获噪声的风险,以实现更准确的预测,同时促进对新数据的泛化。Lasso惩罚系数的绝对值,通常将一些系数缩小到零,从而执行特征选择。Ridge惩罚系数的平方值,倾向于均匀缩小系数,对于处理多重共线性特别有效。Elastic Net结合了Lasso和Ridge的惩罚,平衡了特征选择和系数缩减。此外,ML模型使用适当的验证和调优阶段,以达到最佳的偏差-方差权衡,并避免过拟合。

超学习

SuperLearner是一种对堆叠方法(stacking methods)的推广【11】。堆叠方法是一种技术,通过使用多个模型并对其加权组合,生成一个新的输出模型。SuperLearner利用交叉验证来评估多个监督学习模型的性能。SuperLearner考虑的机器学习模型和参数模型的集合可以非常庞大,这些模型在以下几个方面可能存在差异:【12】工作机制:用于进行预测的数学函数;性能评估方式:模型在预测目标结果上的能力如何衡量(损失函数);解空间搜索方式:探索解空间的搜索算法。SuperLearner可以包括更结构化的方法,例如参数模型或Lasso,以及不太结构化的方法,例如随机森林(random forest)、支持向量机(support vector machine)和神经网络(neural network)(关于这些算法的介绍,请参见【8】)。SuperLearner中的加权平均解决了预先选择单一算法的关键难题【12】。因此,SuperLearner的渐近性能至少与所有可能加权组合中的最佳选择一样好(有限样本的oracle不等式定理【12】)。这一特性使得SuperLearner能够捕获更广泛的数据模式,在不同的情境下生成更可靠的预测【12】。

因果研究

因果研究可以大致分为两种方法:验证性研究(confirmatory)和探索性研究(exploratory)【13】。• 验证性研究的主要目标是评估现有证据,依赖于先验知识,并假设一种初始因果结构,用以描述所涉及变量之间的关系(例如,使用有向无环图(DAGs))。数据分析随后被用来验证或否定这种初始假设。• 探索性研究则不依赖先验假设。在数据分析之前不指定模型,而是通过数据直接探索因果模型并激发对备选假设的探索。这种目的一种方法分支被称为因果发现(causal discovery),利用了ML的强大能力【14】。本文主要聚焦于将ML整合到因果效应估计过程中的验证性研究方法。

模型设定问题

参数模型因其简洁性及渐近性质(如构建置信区间和假设检验)而广受欢迎【7】。随着样本量增加,中心极限定理和大数法则可被用来实现以下理想性质:

  1. 效率性:估计量的方差最低;
  2. 一致性:估计量在概率意义上收敛于真实参数值;
  3. 渐近正态性:估计量的分布随着样本量的增加趋近正态分布【7】。然而,为了使估计量在概率上收敛到真实参数值(即一致性),并获得其他理想的渐近性质,通常假设基础模型被正确设定。在实践中,参数模型常被错误设定,因此无法最佳地捕捉真实的数据生成过程。参数模型依赖的一个强假设是暴露与结局关系的正确模型设定。若该假设未满足,估计值可能受到“估计偏差”的影响【15】。要正确设定参数模型,需要:
  4. 假设真实的数据生成过程属于特定的参数化族(例如,通过正确指定链接函数,将可能的非线性关系映射为线性);
  5. 包括正确的暴露-协变量集和/或协变量-协变量交互项;
  6. 适当地建模潜在的非线性关系【16】。一个例子是使用逻辑回归来估计倾向评分(propensity score):它限制了暴露与混杂变量之间关系的类型,假设暴露的对数几率可以被协变量的线性组合适当地描述【16】。

经典统计方法与其局限性 • 参数模型:经典统计理论通常保证,基于最大似然估计获得的估计量在大样本下是渐近有效的,即在一致估计量中具有最低的可能方差。然而,这种最优性仅在假设参数模型正确且样本量足够大的情况下成立。• 非参数或半参数方法:不假设数据遵循特定的参数分布。它们特别适用于对暴露机制、结局机制或两者了解有限的情况。尽管没有参数假设,非参数模型仍能达到收敛率,并在使用ML技术处理高维数据时构建有效的置信区间(CIs)。


因果效应估计中的ML

近年来,利用ML效率的因果效应估计方法逐渐发展【17】。这些方法将因果推断与ML的两个看似独立的视角结合在一起,使两者能够相互补充。ML方法的引入缓解了正确模型设定的假设,因其灵活性和近似复杂函数的能力,能够处理交互和非线性关系,并避免函数形式限制【7, 8】。


因果框架的定义 根据反事实因果理论(counterfactual theory of causation)【18】,关于暴露 A、对特定人群中结局 Y、的因果效应的问题可以用反事实对比来表达。反事实是一个“如果……会怎样”的陈述,描述在目标人群中,在观察到的暴露水平不同的情况下会发生什么。关键的因果估计量是平均处理效应(Average Treatment Effect, ATE),对于二元暴露,表示暴露 A=1、(暴露)和 A=0、(未暴露)下结局期望值的差异(即所谓的潜在结果)。数学定义如下:ATE=E[Y(1)−Y(0)] 其中 E 表示期望,Y(1)、和 Y(0)、分别是暴露 A=1 和 A=0下的潜在结果。


估计ATE的关键步骤与假设

在一个正式的因果框架内,从观测数据估计ATE需要考虑以下关键步骤和假设(例如,因果路线图【19】):

  1. 识别研究问题;
  2. 指定因果模型(例如通过DAG表示假定的变量关系);
  3. 将研究问题转化为感兴趣的因果估计量(如ATE);
  4. 将因果估计量转化为统计估计量,以便从观测数据中量化因果估计量。要使统计估计量具有因果解释,需满足以下可识别性假设【15, 19】:• 反事实一致性(Counterfactual consistency):观测到的结局与观测暴露水平下的潜在结果一致。• 无干扰(No interference):一个个体的潜在结果不受其他个体暴露状态的影响。• 可交换性(Exchangeability):给定协变量,暴露组与未暴露组的潜在结果分布相同。• 正值性(Positivity):对于所有协变量水平,每种暴露水平的接收概率均不为零。在评估因果模型中的假设并确保数据支持后,统计参数可以被估计。

ATE的统计估计量 本文重点关注对平均处理效应(ATE)的估计。风险差(Risk Difference, RD)是ATE的一种直观度量方式(适用于连续或二元结局)。然而,本文讨论的方法具有高度的通用性,相关软件包还能够提供其他量表上的治疗效应估计,例如风险比(Risk Ratio, RR)和比值比(Odds Ratio, OR)(用于二元结局)。此外,这些方法还能适应除ATE之外的其他因果估计量,例如已治疗者的平均处理效应(ATT)和对照组的平均处理效应(ATC)【20, 21, 22】以及各种结构模型(详见表1)【21, 22】。

估计ATE的过程 为了估计ATE,因果推断方法通常需要在最终参数估计步骤之前,对数据拟合“干扰模型(nuisance models)”【7】。这些干扰模型的目标是:

  1. 估计结局的条件期望值,给定暴露和混杂变量(即结局机制);
  2. 估计暴露的条件概率,给定混杂变量(即倾向评分(Propensity Score, PS),或称为暴露机制)。

传统与现代的干扰模型方法 • 传统方法:干扰模型传统上通过参数模型进行拟合。然而,当混杂变量的数量是高维的,甚至超过样本量时,传统参数模型很可能被错误设定【10】。• 现代方法的优越性:由于干扰模型是纯预测问题,不涉及因果解释【23】,它们可以从具有高预测能力的方法中获益,尤其是那些适合处理高维数据的方法,例如机器学习(ML)。ML的监督学习技术,包括决策树、随机森林、支持向量机、神经网络,以及像SuperLearner这样的集成方法,特别适用于这一目的【19, 24, 25, 26】。

ATE的插入估计量 从使用单一ML方法或SuperLearner建立的干扰模型中获得的预测值可以整合到ATE的估计量中(图1B)。插入估计量(plug-in estimators)是统计估计量的一种,通过将特定量(例如参数或函数的估计值)代入预定义的公式中计算感兴趣的估计值。两个典型例子是逆概率加权(Inverse Probability Weighting, IPW)和g计算器(g-computation)。它们通过将估计的量(在IPW中是倾向评分(PS),在g计算器中是潜在结果)代入特定公式中来估计ATE。由于这些方法依赖于一个正确设定的干扰模型(IPW依赖暴露机制模型,而g计算器依赖结局机制模型),因此它们是“单稳健(singly robust)”估计量【24】。

倾向评分在IPW中的应用 倾向评分(PS)作为IPW中暴露机制的干扰模型,其目标是将所有混杂变量的信息浓缩到一个参数中,即“倾向性”,表示个体接受感兴趣暴露的概率。这一过程使暴露组和未暴露组之间的协变量实现最佳平衡。PS可用于多种方式控制混杂。例如,在IPW估计量中,每个观测值会根据其实际接受的暴露水平被赋予一个加权值:• 对于暴露者,加权值为 1/PS1;• 对于未暴露者,加权值为 1/(1−PS)。这些加权值帮助创建一个伪总体,在该总体中,暴露状态不再依赖于混杂变量。


g计算器中的潜在结果 与IPW不同,g计算器是一种依赖结局机制干扰模型的估计量。在这种方法中,潜在结果被视为一个缺失数据问题,通过结局模型进行预测。预测的潜在结果随后被代入g计算器估计量中,用以计算ATE。


ML在插入估计量中的优势与挑战 优势 ML技术可以取代参数模型,用于计算PS和潜在结果,从而提升预测质量。相比传统参数方法,ML的灵活性使其能够更好地处理复杂的数据关系。挑战 然而,使用ML来估计插入估计量的干扰模型也带来了代价,包括以下几个方面的挑战:

  1. 复杂性增加:ML方法涉及大量计算和复杂的模型架构。
  2. 过拟合风险:高灵活性模型可能在训练数据中过拟合。
  3. 样本量需求:ML模型需要更大的样本量来实现稳健的估计。
  4. 插入偏倚风险:由于ML方法解决的是干扰模型的预测问题,其偏差-方差权衡可能未针对ATE估计任务优化,从而导致ATE估计的偏倚。维度灾难 在整合非参数模型时,插入估计量通常表现出比 1/√n更大的偏倚,并且其收敛速度比参数方法更慢。这种现象被称为维度灾难,意味着需要指数级更大的样本量才能获得尽可能接近真实参数值的估计【24, 27, 28, 29】。

双重稳健估计量

为应对插入估计量的局限性,提出了双重稳健估计量(doubly-robust estimators)【24】。这些估计量具有有用的渐近性质,例如即使干扰模型是使用机器学习(ML)估计的,也能构建有效的置信区间【19, 30】。


双重稳健的概念 双重稳健估计量之所以被称为“双重稳健”,是因为它们提供了两种机会来获得ATE的无偏估计值。与单稳健估计量类似,双重稳健估计量在效应估计之前也需要进行预测步骤。但在这种情况下,需要构建两个独立的干扰模型,一个用于暴露机制,另一个用于结局机制(见图1B)。在预测了倾向评分(propensity)和结局模型之后,将两个干扰模型结合起来估计目标因果效应。如果倾向模型或结局模型中的任何一个被正确设定,则该估计量是一致的,但并不需要两个模型都正确设定【30】。然而,只有当两个干扰模型都被正确设定时,才能实现渐近效率以及目标参数的标准参数速率推断(例如,与参数模型通常关联的收敛速率)【30】。


ML与双重稳健估计量的结合优势 将ML技术与双重稳健估计量结合使用具有以下优势:

  1. 偏倚较小:由于双重稳健估计量的数学特性,其估计误差的偏倚比单稳健估计量更小。具体而言,如果两个干扰模型的误差都显著小于 1/4√n,则偏倚将小于 1/√n。
  2. 灵活性:ML估计量在满足平滑性和稀疏性假设的情况下,能够达到上述条件。注意事项 需要谨慎的是,双重稳健估计量通常比基于最大似然估计的正确参数模型获得的估计效率更低【17】。此外,如果两个干扰模型都被错误设定,结果可能会比单一错误设定的最大似然模型产生更大的偏倚【24】。然而,尽管参数模型可能以更快的速度收敛并需要较小的样本量即可实现一定程度的效率,它们的准确性可能不及ML模型,因为ML模型通常具有更大的灵活性,可以捕捉数据中更复杂的关系。

样本分割与交叉拟合 为了确保置信区间的统计有效性,基于ML的双重稳健估计量需要进行样本分割(sample splitting)和交叉拟合(cross-fitting)。

  1. 样本分割 o 将研究人群分为训练样本和估计样本。训练样本用于训练ML算法以估计干扰模型,估计样本则用于估计ATE。这一方法从研究人群的随机一半中得出ATE的双重稳健估计。o 然而,由于样本量被减半,结果的置信区间通常比使用整个样本得到的置信区间更宽。
  2. 交叉拟合 o 为了缓解样本分割带来的效率损失,交叉拟合重复对不同子集的数据进行训练和估计。通过对这些不同子集获得的估计值进行平均,减少估计的变异性,从而获得更精确的治疗效应估计。

进一步探讨 在接下来的三节中,我们将讨论三种最常用的双重稳健估计量:

  1. 增强逆概率加权(Augmented Inverse Probability Weighting, AIPW),
  2. 双重/去偏机器学习(Double/Debiased Machine Learning, DML),
  3. 目标最大似然估计(Targeted Maximum Likelihood Estimation, TMLE)。我们将详细探讨它们的概念细节、基本原理、优势以及应用示例。表1列出了每种方法的相关理论文献、教程、实际案例、综述和软件工具。



增强逆概率加权(AIPW)

增强逆概率加权(Augmented Inverse Probability Weighting, AIPW)由Robins等人首次提出【32】,并由Scharfstein等人进一步发展【33】。AIPW是一种基于估计方程方法的双重稳健估计量【12】。其基本思想与IPW类似,通过加权调整暴露组与未暴露组之间混杂变量分布的差异。然而,为了获得AIPW估计量,IPW估计量通过一个涉及结局回归的补充项(augmentation term)得到增强。补充项是两个潜在结果的加权平均【34】,其作用如下:

  1. 提高效率,使得估计量的方差小于IPW估计量【35】;
  2. 为估计量提供双重稳健性【36】。• 如果倾向评分(PS)被正确设定,则AIPW估计量简化为IPW估计量。• 如果PS被错误设定,则AIPW估计量简化为基于结局模型的估计量【36】。AIPW源自半参数效率理论,即使与ML技术结合使用,也能保持其双重稳健性【28】。AIPW的局限性 在AIPW的全样本实现中,使用所有个体的数据同时估计PS、结局模型和ATE。然而,这种全样本方法可能引入干扰模型与最终ATE估计之间的相关性,从而对性能产生不可预测的影响【10】。

双重/去偏机器学习(DML)

为解决上述问题,Chernozhukov等人在2018年提出了基于AIPW的双重/去偏机器学习(Double/Debiased Machine Learning, DML)框架【28】。DML通过引入样本分割和交叉拟合技术改进了AIPW的性能。

  1. 样本分割 o 将样本分为两部分:一部分用于估计干扰参数(PS和结局模型),另一部分用于计算最终ATE估计值。这种分割减少了全样本估计量的偏倚风险。
  2. 避免过拟合偏倚 o 样本分割还减少了过拟合偏倚,使得DML能够根据数据特征和问题需求灵活地使用多种ML方法,例如lasso、随机森林和神经网络。

DML的实现 在DML框架中,ML方法分别用于预测结局 Y和暴露 A(基于协变量)。随后,将预测值的残差通过回归方法进行结合,即通过一个指导性估计方程【22, 28, 37】将 Y的残差回归到 A的残差上。这种方法确保了双重稳健性,同时克服了插入估计量的固有问题。


DML的适用性与优势

  1. 高维协变量环境 DML特别适用于包含大量协变量的场景【28】。它通过样本分割和交叉拟合技术减轻了数据复杂性带来的偏倚和过拟合问题。
  2. 灵活性 DML允许根据数据特征选择最合适的ML方法。其设计指导了如何根据问题和数据特点优化ML技术的选择【28】。

目标最大似然估计(Targeted Maximum Likelihood Estimation, TMLE)

目标最大似然估计(TMLE)是一种基于最大似然的双重稳健估计方法,由 van der Laan 和 Rubin 提出【31】。TMLE通过一个“目标化”步骤(targeting step)优化目标参数的估计(如ATE),在初始结局模型和暴露模型估计的基础上进一步改进【38】。


方法概述 以下是TMLE用于估计二元暴露 A对结局 Y的ATE(调整基线混杂变量 W)的技术步骤:

  1. 结局模型的预测 在第一阶段,建模并预测给定暴露和协变量条件下的结局的条件期望Q=E[Y|A, W]。• 这一模型可以使用SuperLearner拟合。• 随后,通过g计算器基于该模型估计ATE。然而,这种估计是单稳健的,依赖于E[Y|A, W]的正确估计,因此容易受到偏倚的影响。
  2. 倾向评分的预测 为克服上述问题,利用暴露机制的信息估计倾向评分(PS),即 P(A∣W)。• PS可以通过SuperLearner估计。
  3. 巧妙协变量和波动参数ε 的估计 • 定义巧妙协变量(clever covariate):使用PS创建一个名为巧妙协变量的变量,用于整合暴露信息和优化目标参数的偏差-方差权衡。巧妙协变量定义如下:o 对于暴露个体:1/P(A=1∣W);o 对于未暴露个体:-1/P(A=0∣W)。• 目标化步骤(targeting step):使用一个预定义的回归模型更新初始结局预测。具体方法如下:
  4. 将观测结局Y回归到巧妙协变量上,该变量是唯一的预测变量。
  5. 初始结局预测 Q被设为固定的截距。
  6. 通过最大似然估计得到的回归系数 ε被称为波动参数(fluctuation parameter)。• 无偏性与渐近性质:通过求解估计方程(将高效影响函数设为零,详见补充材料【11】),巧妙协变量确保估计量近似无偏,并获得有用的渐近性质【12】。

关键点总结

  1. 巧妙协变量的核心作用:它结合暴露信息对初始结局预测进行更新,以优化目标参数(如ATE)的估计,而不仅仅优化结局预测本身。
  2. 波动参数的意义:波动参数 ε调整了初始估计,使得TMLE估计量接近无偏,并满足高效性要求。
  3. 双重稳健性:TMLE的双重稳健特性源于结合了暴露和结局两种机制模型的估计。即使一个模型被错误设定,另一个正确的模型仍可提供一致的估计。

TMLE的优势 • 通过优化目标参数的估计(如ATE),TMLE比单稳健方法(如g计算器)更有效率。• TMLE能够适应ML技术(如SuperLearner)处理高维协变量的复杂性,同时保持无偏性和统计有效性。

更新结局模型 波动参数(fluctuation parameter)用于更新初始估计的 Q(A,W),从而得到最终的两个潜在结局。ATE随后被计算为所有个体的这两个更新后的潜在结局之间的平均差异。


TMLE的应用与发展 关于TMLE的文献正在不断扩展【38】,这一技术已成为使用最广泛的双重稳健方法【50, 51, 52】。一项近期的系统综述审查了TMLE在公共健康和流行病学研究中的日益采用情况,涵盖了广泛的研究问题和结局类型【38】。TMLE的多样化应用突显了其在解决复杂因果效应估计问题上的潜力,例如:• 多时间点干预;• 纵向数据;• 干预后效应修饰因素;• 单位之间暴露分配的依赖性或审查;• 因果关联的单位;• 分层数据结构;• 集群层级的随机化;• 大规模电子健康记录数据;• 元分析【38】。


实践指导与教程 关于TMLE的实施,已经发表了多个实用指南和教程,包括用于建模二元暴露效应【11, 37】以及带有时间变化混杂变量的序列干预【38】的TMLE方法。这些资源为研究人员在不同研究背景中应用TMLE方法提供了宝贵的见解。

AIPW与TMLE的比较 由于TMLE和AIPW都基于有效影响函数(efficient influence function)(详见补充材料),两者在数学上是高效的,并且具有类似的渐近性质。然而,尽管这两种估计量在大样本环境下表现良好,但在有限样本环境中,它们的表现有所不同:AIPW估计量的变异性通常比TMLE估计量更大【30】。


关键差异 一个重要的区别在于,虽然TMLE和AIPW都是基于估计方程(estimating-equation-based)的估计量,但TMLE也是一种基于损失函数(loss-based)的估计量,利用了最大似然估计。基于估计方程的方法旨在提供最小渐近方差的估计量,但不对估计值施加约束,以确保其在观测数据的背景下是现实且可行的【12】。• AIPW的弱点 AIPW在满足正值性假设(positivity assumption)和处理不稳定权重方面与IPW具有相同的弱点。在双重错误设定(dual misspecification)和接近正值性假设违背的情况下,研究表明AIPW的表现不如TMLE,并且当倾向评分(PS)的值接近零时,其表现可能不稳定【12】。• AIPW的优势 与TMLE相比,AIPW的实现相对更容易,因为它不涉及模型的迭代更新,并且可能需要较少的计算资源。


在流行病学研究中的应用

机器学习的预测能力可以在因果效应估计器的预测步骤中得到利用。在本文中,我们展示了三种当前可用的双鲁棒估计器,它们将机器学习集成到估计过程中。特别是,利用机器学习的双鲁棒估计器对于因果问题特别有前途,因为它们有助于缓解模型错误指定问题,同时仍然提供目标参数的高效且无偏的估计。在估计过程中包括SuperLearner的双鲁棒方法被应用于各个流行病学领域,服务于不同的目的,例如危险因素识别、治疗效果估计、干预效果评估、异质性治疗效果、健康社会决定因素研究等

特别是TMLE,已应用于非传染性疾病流行病学、行为流行病学、药物流行病学、生物标志物流行病学、环境流行病学和职业流行病学。将双鲁棒方法与传统技术结合使用是有益的,因为每种方法都基于不同的假设。通过采用各种方法,研究人员可以更深入地了解其研究结果的稳健性,并评估基本假设的有效性。这提高了研究结果的可信度和可靠性。Luque-Fernandez 及其同事 [ 45] 进行了一个激励性的例子,旨在通过模拟研究证明双鲁棒性的优势。他们估计了接受单一疗法(仅放疗)与双重疗法(放疗和化疗)治疗的癌症患者的 1 年死亡率风险差异和死亡比值比。他们比较了不同估计方法的性能,包括朴素回归、AIPW 和 TMLE 的三种变体。在 TMLE-1 中,作者使用逻辑回归对暴露和结果机制进行建模,在 TMLE-2 中,他们使用 SuperLearner 和默认库,在 TMLE-3 中,使用 SuperLearner 和用户提供的库。为了模拟现实世界的场景,研究人员故意在治疗和结果模型中引入轻微的错误指定,例如在逻辑回归模型中忽略年龄和合并症之间的相互作用。此外,他们确保数据生成过程经常导致近乎实际的积极性违规,其中某些亚组很少或从未接受治疗。他们的研究结果表明,当治疗和结果模型指定错误时,TMLE 方法,尤其是涉及超级学习者库的 TMLE-2 和 TMLE-3,比朴素方法和 AIPW 方法表现更好。真实 ATE 为 19.3%,单一疗法与双重疗法的边际比值比 (MOR) 为 2.5。朴素方法高估了 MOR 24%,而 AIPW 和 TMLE-1 高估了 20%,可能是因为模型指定错误。TMLE-3 使用了更加多样化的 SL 库,将 MOR 的偏差降低至 12%。关于风险差异的模拟结果,AIPW 估计器高估了 ATE 7%,而 TMLE-1 仅高估了 3%。TMLE-2 和 TMLE-3 将 ATE 的偏差降低至 0%。此外,他们通过使用正确指定的倾向得分和错误指定的结果模型运行第二组模拟,证明了 TMLE 的双重稳健性。真实的 ATE 为 22.4%,单一疗法与双重疗法的 MOR 为 2.6。朴素方法高估了 MOR 11%,而 AIPW、TMLE-1 和 TMLE-2 高估了 7%。TMLE-3 使用更多样化的 SL 库,将 MOR 的偏差降低至 4%。关于风险差异的模拟结果,AIPW 和 TMLE-1 估计器将 ATE 高估了 1%,而 TMLE-2 和 TMLE-3 将 ATE 的偏差降低至 0%。

Schnitzer 及其同事的研究是真实数据应用的另一个例子,其中使用双鲁棒方法产生的结果与通过标准分析方法获得的结果不同。54],旨在估计不同母乳喂养时间下胃肠道感染的边际预期数量的差异。他们采用了各种估计方法来解决基线和时间相关混杂问题,包括 G 计算、参数化建模的 TMLE、超级学习器的 TMLE 以及稳定的 IPW 估计器。不同方法的结果显示出一致的趋势:母乳喂养时间越长与感染率降低相关。然而,这种影响的程度因方法而异。例如,在比较 3-6 个月与 1-2 个月的母乳喂养时间时,IPW 的估计值范围为 − 0.021 (− 0.042, 0.000),而带有超级学习者的 TMLE 的估计值范围为 -0.039 (− 0.062, − 0.016)。相似地,在 9 个月以上的母乳喂养时间与 3-6 个月的母乳喂养时间之间的比较中,估计值从 IPW 的 − 0.013 (− 0.020, − 0.005) 到使用 SuperLearner 的 TMLE 的 -0.024 (− 0.038, − 0.010) 不等。

然而,文献中也有一些例子,其中不同的方法并没有导致明显不同的结果。在 Ehrlich 及其同事的队列研究中 [ 55],研究人员使用双稳健方法,特别是 TMLE,来调查怀孕前三个月的运动与婴儿出生时的体型之间的因果关系。这项研究在北加州 Kaiser Permanente 接受护理的 2,286 名妇女中进行,根据怀孕期间的运动习惯,估计了生下小于胎龄婴儿或大于胎龄婴儿(分别为 SGA 或 LGA)的风险差异。将 TMLE 的推论与 IPW 估计器的推论进行了比较。使用 IPW 和 TMLE 的结果相似。队列特定 75% 的锻炼与 SGA 出生风险增加相关。进行任何强度的剧烈运动与不进行任何强度运动的 TMLE 和 IPW 估计值略有不同,特别是在体重不足和体重正常的女性中。对于这些,IPW 结果表明分娩 SGA 新生儿的风险差异为 0.0418 (− 0.0113, 0.0949),而 TMLE 估计值较低:0.0294 (− 0.0107, 0.0695)。 

在 Kreif 及其同事的另一项研究中 [ 47 ],在英国的一项研究中,比较了纵向 TMLE、IPW 和 g 计算,以评估营养干预对危重儿童临床结果的影响。考虑到一系列静态和动态喂养方案,测量了儿童在特定日期从儿科重症监护病房 (PICU) 活着出院的可能性。统计方法产生类似的结果。例如,对于“从第 3 天开始饲喂”的方案,使用 IPW 估计到第 5 天结束时的出院概率为 0.54(95% CI:0.47,0.60),使用 g 计算为 0.59,使用 g 计算为 0.53(95% CI)。: 0.48, 0.59) 使用 TMLE。虽然一些研究可能表明不同估计方法的结果没有差异,但估计偏差的可能性仍然不可预测。这种不确定性凸显了采用双稳健方法来确保对不同研究背景下的因果效应进行更可靠估计的重要性。

特别是,在处理高维数据时,双鲁棒方法提供了强大的框架。它们提供了双重保护,防止模型错误指定并确保渐近效率,使它们特别适合传统方法可能难以处理的复杂数据集。Papadopoulou 及其同事 [ 56 ] 使用 TMLE 来研究饮食作为来自六个欧洲出生队列的母子对血液和尿液样本中环境污染物暴露来源的作用。结果表明,母亲和儿童的鱼类消费量增加与某些污染物(如多氯联苯、全氟辛烷磺酸、汞和砷)含量升高有关。相反,儿童时期有机食品的消费与较低水平的农药代谢物有关。这项研究为暴露组铺平了道路 [ 57 , 58],一种范式,其中有关一生中多种暴露的信息被一起考虑,包括外部环境暴露(例如空气污染、噪音、气候)、内部暴露(例如化学产品的血液浓度)、高通量组学层(例如,基因组学、蛋白质组学)和身体状态的高分辨率测量(例如,智能设备、手表)[ 59 ]。虽然目前使用 TMLE 来调查完整暴露组的研究有限,但在使用高维环境暴露集探索关系时,这种方法有可能提供有价值的见解。 

应用机器学习双鲁棒方法的另一个高维环境是分子流行病学,试图解决各种研究问题:针对给定结果搜索候选生物标志物集、对候选生物标志物的贡献进行排名、衡量变量重要性,并降低基因表达数据的维度[ 60 ]。在此背景下,TMLE-VIM被提出,它是TMLE的扩展,用于基于变量重要性测量的降维。这种方法不仅利用了机器学习算法的预测能力,而且还考虑了变量之间的相关结构。

结论

总之,使用双稳健 ML 估计器实现因果估计量为流行病学研究提供了显着的优势。这些估计器能够适应模型错误指定,灵活处理高维数据,并且能够高效地提供精确估计。此外,它们可以容纳各种因果估计值。

小结

因果机学习方法,从单一鲁棒过度到双重稳健,主流方法TMLE(多维环境领域关注!)、AIPW、DML。逻辑如下



临床研究与医学统计
传播和普及临床试验与医学统计方法学知识
 最新文章