引言
本周末开课:机器学习方法
1.数据收集与处理:
划分为处理组(受到政策影响的组)和对照组(未受到政策影响的组);
使用贝叶斯空间模型估计每个乡镇的急性心肌梗死发生率;
纳入随时间变化的协变量数据。
2.双重差分(DID)分析:比较两组在政策实施前后的急性心肌梗死发生率的变化
3.敏感性分析:对模型进行了多次不同的参数设定,以评估研究结果的稳健性。
4.稳健性检验
考虑多种协变量,使用回归调整和逆概率权重等方法,来提高研究的稳健性;
观察了政策实施前后急性心肌梗死发生率的趋势,验证双重差分分析的关键假设是否成立。
如果你需要全文,请公众号后台回复关键词“pdf”。
数据收集与处理
为评估CHP对乡镇急性心肌梗死(AMI)发病率的影响,研究团队采取了一系列详细的数据处理措施:
使用拟合贝叶斯空间模型,评估307个乡镇中,CHP推出前后所有成年人、按性别和老年人(≥65岁)的乡镇急性心肌梗死发病率; 为了评估政策实施前各CHP暴露队列的时间趋势,研究团队评估了2007年至2008年、2009年至2010年、2011年至2012年的AMI发生率,以评估政策实施前最终CHP暴露队列的时间趋势。 将2年以上的AMI事件数据合并,以提供更稳定估计,特别是对于人口较少的乡镇和性别-年龄亚组; 排除了2015年的数据,这一年是CHP的试点年,仅有18个村庄受到政策影响,且没有乡镇达到CHP暴露的定义标准; 由于35至64岁成人中的AMI事件相对较少,且政策前平行趋势的证据不足,团队未单独估计这一年龄段的乡镇AMI发病率。
双重差分(DID)分析
一般情况下,DID通过类似于回归分析,加交互项的模型来实现。
回归模型中的自变量有三个关键变量:
干预变量T ; 接受干预T =1,对照组=0
时间变量A ;干预后=1,干预前=0
交互变量TA ; 时间与干预的交互
如果干预组和对照组没有差别,即没有干预效应,则两条线性平行
如果干预组和对照组有差别,有干预效应,则两条线性不平行,则有交互
具体分析如下所示:
在模型中,在考虑了CHP暴露的时间长度后(如暴露<2年和2-4年后的组时间效应),估计了平均治疗效果(ATT)。 协变量调整:为了降低混淆的可能性,进行了协变量调整。 协变量包括乡镇农业就业率、失业率、教育水平、吸烟和肥胖情况、年度每日室外温度的变化、医疗保健获取情况以及暴露于退役燃煤电厂等。 对所有成年人和不同性别-年龄组进行了有和没有协变量的DID分析。 使用双重稳健估计,将结果回归与逆概率加权相结合,以计算倾向得分,试图平衡暴露于CHP和未暴露于CHP的城镇之间的预CHP协变量,从而减少混淆的可能性 对乡镇急性心肌梗死发生率进行了对数转换,使数据近似正态分布。因此,ATT估计表示为急性心肌梗死发生率的百分比变化,计算公式为(exp[coef]−1)*100。 不确定性纳入:为了纳入小范围估计乡镇急性心肌梗死的不确定性,使用贝叶斯模型估计了急性心肌梗死的后验分布,并从中随机抽取了6000例乡镇急性心肌梗死发病率进行6000次DID分析。
敏感性和稳健性分析
√分层分析
首先,对年龄进行分层分析,包括较小年龄组(35-49岁、50-64岁、65-79岁和≥80岁)和老年人组(65-79岁、≥80岁)。
同时汇总了老年人(年龄≥65岁)1年期间的事件,以便在时间上更好地与CHP实施时间保持一致。
同时,为减少潜在的偏差,团队排除了四个未实施CHP的乡镇。
小结
公众号后台回复关键词“pdf”,即可获取原文!
郑老师统计团队及公众号