双重差分(DID)法:类实验研究重要方法!看看Lancet子刊如何分析中国数据

健康   2024-11-26 07:49   浙江  

引言

本周末开课:机器学习方法

11.30-12.1 R语言构建机器学习课程开启,欢迎报名开启


类实验作为非随机对照研究,需要非常规的统计学方法。双重差分(DID)法啦是其中一种。今天分享一篇类实验研究,研究团队使用双重差分(DID)法分析,发文柳叶刀子刊!
让我们先来看看本文的研究设计:

1.数据收集与处理:

  • 划分为处理组(受到政策影响的组)和对照组(未受到政策影响的组);

  • 使用贝叶斯空间模型估计每个乡镇的急性心肌梗死发生率;

  • 纳入随时间变化的协变量数据。

2.双重差分(DID)分析:比较两组在政策实施前后的急性心肌梗死发生率的变化

3.敏感性分析:对模型进行了多次不同的参数设定,以评估研究结果的稳健性。

4.稳健性检验

  • 考虑多种协变量,使用回归调整和逆概率权重等方法,来提高研究的稳健性;

  • 观察了政策实施前后急性心肌梗死发生率的趋势,验证双重差分分析的关键假设是否成立。

2024年11月,医学顶刊Lancet子刊Lancet Planetary Health(医学一区top,IF=24.1)发表了一篇题为:Effects of a coal to clean heating policy on acute myocardial infarction in Beijing: a difference-in-differences analysis”的研究论文,旨在使用双重差分(DID)法,探究煤改清洁取暖政策(CHP)是否影响北京乡镇急性心肌梗死的发病率。
研究结果表明,相对于未CHP政策的乡镇,执行CHP政策的乡镇居民在政策实施后,总体急性心肌梗死发病率下降了6.6%。

如果你需要全文,请公众号后台回复关键词“pdf”

数据收集与处理

在该项研究中,研究团队纳入了北京市乡镇地区在CHP执行前(2013年1月1日至2014年12月31日和执行后(2016年1月1日至2017年12月31日、2018年1月1日至2019年12月31日)年龄≥35岁常住居民急性心肌梗死入院和死亡数据、CHP覆盖情况(是或否)及一系列协变量。
如果乡镇中有50%以上的村落分配到CHP任务时,就认为其受到CHP政策的覆盖。
图1 研究时间轴
在符合条件的151个北京近郊与农村乡镇中,有75个(50%)乡镇在2017年年底前开始执行“煤改”政策,有92个乡镇(61%)在2019年年底前开始执行该政策。
纳入CHP的大多数乡镇靠近城市核心和东南部平原,北京西部和北方地区较少。
图2 北京乡镇地区CHP覆盖情况




为评估CHP对乡镇急性心肌梗死(AMI)发病率的影响,研究团队采取了一系列详细的数据处理措施:

  • 使用拟合贝叶斯空间模型,评估307个乡镇中,CHP推出前后所有成年人、按性别和老年人(≥65岁)的乡镇急性心肌梗死发病率;
  • 为了评估政策实施前各CHP暴露队列的时间趋势,研究团队评估了2007年至2008年、2009年至2010年、2011年至2012年的AMI发生率,以评估政策实施前最终CHP暴露队列的时间趋势。
  • 将2年以上的AMI事件数据合并,以提供更稳定估计,特别是对于人口较少的乡镇和性别-年龄亚组;
  • 排除了2015年的数据,这一年是CHP的试点年,仅有18个村庄受到政策影响,且没有乡镇达到CHP暴露的定义标准;
  • 由于35至64岁成人中的AMI事件相对较少,且政策前平行趋势的证据不足,团队未单独估计这一年龄段的乡镇AMI发病率。

通过以上步骤,研究团队确保了数据处理的严谨性和科学性,为后续的双重差分法(DID)分析提供了高质量的基础数据支持。

双重差分(DID)分析

所谓双重差分模型(Difference in Difference),便是干预组和对照组分别计算差值,在对差值进行进行分析。

一般情况下,DID通过类似于回归分析,加交互项的模型来实现。

回归模型中的自变量有三个关键变量:

  • 干预变量T ;  接受干预T =1,对照组=0 

  • 时间变量A ;干预后=1,干预前=0

  • 交互变量TA ;  时间与干预的交互


    如果干预组和对照组没有差别,即没有干预效应,则两条线性平行

    如果干预组和对照组有差别,有干预效应,则两条线性不平行,则有交互


该团队采用推广CHP的交错型DID分析,比较暴露于CHP的乡镇与未暴露的乡镇的急性心肌梗死发生率。
简而言之,这些方法允许通过比较暴露于CHP的乡镇与未暴露于该政策的乡镇随时间的急性心肌梗死发生率的变化,在没有CHP的假设下,在组水平上制定的CHP变化的因果效应(在特定假设下)进行估计。研究者使用Callaway和Sant'Anna16介绍的方法来处理具有多个时间段的DID。




具体分析如下所示:

  • 在模型中,在考虑了CHP暴露的时间长度后(如暴露<2年和2-4年后的组时间效应),估计了平均治疗效果(ATT)
  • 协变量调整:为了降低混淆的可能性,进行了协变量调整。
    协变量包括乡镇农业就业率、失业率、教育水平、吸烟和肥胖情况、年度每日室外温度的变化、医疗保健获取情况以及暴露于退役燃煤电厂等。
  • 对所有成年人和不同性别-年龄组进行了有和没有协变量的DID分析。
  • 使用双重稳健估计,将结果回归与逆概率加权相结合,以计算倾向得分,试图平衡暴露于CHP和未暴露于CHP的城镇之间的预CHP协变量,从而减少混淆的可能性
  • 对乡镇急性心肌梗死发生率进行了对数转换,使数据近似正态分布。因此,ATT估计表示为急性心肌梗死发生率的百分比变化,计算公式为(exp[coef]−1)*100。
  • 不确定性纳入:为了纳入小范围估计乡镇急性心肌梗死的不确定性,使用贝叶斯模型估计了急性心肌梗死的后验分布,并从中随机抽取了6000例乡镇急性心肌梗死发病率进行6000次DID分析。

研究结果显示,在具有协变量的 DID 模型中,相对于未开展CHP政策的乡镇,执行CHP政策的乡镇居民在政策实施前后,急性心肌梗死发病率总体降低了6.6%(95% CI:-12.3, -0.8)。
表1 CHP对北京乡镇急性心肌梗死(AMI)发病率的平均治疗效果(ATT
此外,在女性、老年人以及开展该政策时间较长的乡镇中,发病率的降低幅度更大。
图3 所有成人、性别和年龄组急性心肌梗死发病率(事件/ 10万)的动态组-时间ATT

敏感性和稳健性分析

研究团队对模型进行了多次不同的参数设定,以评估研究结果的稳健性。




√分层分析

首先,对年龄进行分层分析,包括较小年龄组(35-49岁、50-64岁、65-79岁和≥80岁)和老年人组(65-79岁、≥80岁)。

√时间聚合
其次,汇总了从11月开始的2年期间的AMI事件,以更好地与11月15日供暖季节开始时间一致;
  • 同时汇总了老年人(年龄≥65岁)1年期间的事件,以便在时间上更好地与CHP实施时间保持一致。

√排除数据
考虑到离群值的影响,去除了两个AMI发病率特别高的乡镇;

同时,为减少潜在的偏差,团队排除了四个未实施CHP的乡镇。

√重新定义纳入标准
使用更保守的阈值,将“暴露于政策”定义为超过70%的村庄加入CHP,“未暴露于政策”定义为暴露于CHP的村庄不到30%。
最后,团队调整了乡镇高胆固醇血症的患病率,并调整了加热季节温度的变化。
敏感性分析的所有结果与主要分析的结果一致。
图4 敏感性分析所有结果
综上所述,本研究首次提供了关于家庭清洁能源政策(CHP政策)可能带来心血管健康益处的实证证据,在妇女、老年人和采用CHP时间较长的城镇中,CHP对急性心肌梗死的影响更大。
研究团队认为,即使是较小规模的干预措施也能为我们带来健康益处,建议中国和其他依赖固体燃料进行家庭取暖和烹饪的国家继续投资清洁家庭能源。

小结

DID(双重差分法)是,一种基于反事实理论框架,用于类实验的数据分析,常用于评估政策影响的方法。它通过分析策略干预后,实验组和假设实验组未被干预下的待解释变量变化之间的差异来评价策略的影响。
其实就是两步法:第一通过减去基线值,控制基线带来的偏倚;第二,通过回归,进一步控制其它偏倚。这类研究,和协方差分析其实相差不大。
近期,双重差分方法DID见到比较多,有机会可以给大家详细讲讲!

公众号后台回复关键词“pdf”,即可获取原文!

郑老师统计团队及公众号

全国较大的线上医学统计服务平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!

我们提供以医学数据数据挖掘统计服务
①NHANES:一二区论文占半数
②MIMIC:急诊数据分析与机器学习建模
GBD:全球、中国各种疾病患病、死亡研究
孟德尔随机化:疾病的因果推断研究

同时我们提供上述数据库的挖掘的一对一指导
GBD、NHANES医学数据库挖掘1对1R语言指导
联系助教陈老师咨询(微信号sas555777



医学论文与统计分析
本号为高校统计学老师所设,介绍医学论文进展与统计学方法,SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后,发送关键词“33”到公众号就可以获取常见的统计软件比如Spss,sas,PASS(绝对无毒)等
 最新文章