凡是搞计量经济的,都关注这个号了
邮箱:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.
Xiliang, Zhao, 双重差分法原理及其最新发展:一个不完全综述 (January 11, 2024)
双重差分法是应用微观经济学研究中一种非常流行的研究设计和识别策略,它的核心识别条件是平行趋势假设。然而,在应用研究中,研究者往往利用回归方法估计因果效应,而回归所蕴含的平行趋势假设和目标参数的识别假设可能并不一致,从而导致估计偏差。双重差分法的最新文献充分体现了参数估计方法和因果识别之间的矛盾。首先,本文给出了因果识别的具体定义,并讨论了因果推断和统计推断之间的区别与联系。然后,本文基于双重差分法的最新文献,总结了双重差分法的基本识别条件、协变量引入方式和估计方法。在多期交错政策中,最新文献表明,存在异质性时,双向固定效应估计量和事件研究法估计量存在偏差。本文详细归纳了异质性情况下的最新估计量,并对平行趋势检验存在的问题、解决办法和敏感性分析进行了总结。最后,利用一个案例详细说明了如何利用最新工具估计政策效应并评估结果的稳健性。
最近围绕DID进展的综述,参考1.有启发! 将DID双重差分的最新进展整合到模型设定偏差的统一框架中进行解读,2.绝对一网打尽最新DID! 示例, 数据, 图标, 代码, 解读应有尽有, 关键理解和操作起来容易!3.平行趋势不可靠, 范式变了, 需考虑事前趋势可靠性, 稳健性和敏感性检验! 附代码和数据
双重差分法(Differences-in-differences,简称DID) 是政策评估的一种重要的研究设计和识别策略,在经济学的实证研究中非常流行,据统计,2018年,NBER应用微观方面的工作论文中,几乎25%的论文使用了双重差分法,5大经济学顶尖国际期刊中超过15%的应用微观文章使用了双重差分法 (Currie et al, 2020)。据笔者统计,《经济研究》发表的论文中使用双重差分策略的文章数2020年为22篇,2021年为17篇,2022年10篇,三年共49篇,年均超过1期发文量。
双重差分法最早可以溯源到英国乡村医生约翰·斯诺 (John Snow) 1855年对伦敦霍乱传播原因的研究,在经济学中最早采用DID的是Ashenfelter (1978)对培训效果的研究,双重差分法的名词最早出现在Ashenfelter & Card (1985) 一文中,Card (1990) 和Card & Krueger (1994) 是较早的对双重差分策略应用的文献,分别考察了外来移民对本地劳动力市场的影响和最低工资调整对就业的影响。随后,利用双重差分策略的实证论文越来越多,出现了很多经典的文献,比如Qian(2008) 对消失女性的研究,Nunn & Qian(2011) 关于土豆种植对人口增加和城市化发展的影响等等。
近年来,人们开始将双重差分法运用到更复杂的渐进政策 (Staggered policy) 情形中,发现存在异质性因果效应时,传统双向固定效应(TWFE)估计量存在负权重问题(Borusyak & Jaravel, 2021; de Chaisemartin & D’Haultfoeuille, 2020; Goodman-Bacon, 2021),反映动态因果效应的事件研究法估计量也存在着“污染偏差”问题(Sun & Abraham, 2021),从而引发人们在多期渐进政策等复杂情形下如何合理地估计因果效应进行了广泛探讨(Callaway & Sant’Anna, 2021; Wooldridge, 2021; Borusyak et al., 2022; Cengiz et al., 2019),出现了大量文献,很有必要对这些最新发展进行梳理,以便为经济学实证研究学者提供必要的参考。当然,本文综述并不追求将所有最新文献全部囊括,而是着眼于为实证研究者提供一种合适的工具,因而,可能会遗漏一些最新的文献。
为了更好地理解最新文献争论的焦点,本文首先给出因果识别的具体定义,并讨论了因果推断和统计推断的区别与联系。然后,第三部分讨论经典2×2双重差分设计的基本识别条件、协变量的引入方式和参数估计方法;3第四部分讨论多期双重差分设计,分别讨论多期单一时点政策和多期渐进政策设计的基本识别条件、回归设定及协变量引入方式。第五部分讨论平行趋势诊断和敏感性分析;第六部分讨论统计推断问题;第七部分为例子;第八部分是进一步讨论;最后总结和启示。
七、例子:大学生村官与乡村发展
下面,我们用一个例子说明如何利用最新的双重差分方法估计政策效应并评估其稳健性。He & Wang (2017)考察了大学生村官(CGVO)对农村发展的作用,他们利用山西运城市大学生村官的调查数据,评估了村官对村贫困人口注册率、危房注册率等指标的影响,发现有村官的村,上述注册率都有显著上升,说明大学生村官在政策的执行和信息传递方面起到了很大作用。
He & Wang (2017)的原始数据包括255个村2000-2011年的非平衡面板数据,共2809个样本点,我们删除了变量缺失和期数不全的村子,并保留如果一旦有村官并且一直持续到样本期末的村子,最终得到108个村的平衡面板数据并且符合交错政策情形,最早干预时点是2007年,最迟为2011年,到样本期末共有32个村子接收过大学生村官,1296个样本点。
(一)双向固定效应模型
我们首先沿用He & Wang (2017) 的双向固定效应模型进行估计,被解释变量为农村贫困人口注册率,估计结果见如表1,和原文结果相似,大学生村官会提升农村贫困人口注册率,并且影响程度比原文0.13略高,但统计上不显著,和原文相比,可能样本量减少造成估计量精度下降。用滞后一期村级是否有大学生村官,影响程度相似,统计上也是显著的,原因可能是大学生村官一般是6、7月份毕业时安排,真正的效果可能会滞后一年才显示出来(He & Wang, 2017)。
上述TWFE估计量,在存在时间异质性时可能存在着偏差,我们利用Goodman-Bacon (2021) 分解评估一下TWFE估计是否受到严重影响,分解结果如下:
可以看出三大类DID估计量的值均为正(第三行对应于Goodman-Bacon所述的前两种DID),第二行为“坏的对比”,后期干预组和早期干预组作为控制组作对比,权重只有0.019,并且其估计值也很小,因而,“坏的对比”在本例中影响很小,TWFE估计量偏差很小,仍然可以使用。
(二)事件研究法
下面估计动态效应,采用和作者一样的事件研究法设计,包含事前3 期(以事前1 期作为基准期)和事后4 期的效应,动态效应见图2。可以看出,事前系数均在统计上不显著,通常认为事前满足平行趋势假设,尽管事前看起来有些下降的趋势;如果事后也满足平等趋势假设,那么后4 期的系数分别代表村接收大学生村官当期、1 期、2 期和3 期以上的平均因果效应。当期统计上不显著,但接受1 期后,统计上显著,和上文的TWFE 估计量结果一致。
(三)功效分析
上文平行趋势检验是根据不能拒绝事前系数为零的原假设,为了评估上述检验是否有足够的功效,即当存在事前趋势时,平行趋势检验方法能够检验出来的概率有多大。
我们利用Roth (2022) 提出的功效分析方法,图3 所示,根据事前系数,假设事前趋势服从图中所示斜率为0.03 的实线,计算得到的统计功效为0.31,即如果真实趋势为0.03 时,平行趋势检验能够拒绝掉的可能性只有31%,功效很低,我们可能会担心通过平行趋势检验并不能保证事前趋势平行。另外,Roth(2022)还提供了两个指标,一个是贝叶斯因子,是假设趋势下通过平行趋势检验的概率和假设平行趋势下通过平行趋势检验的概率的比值,另一个是似然比,是假设趋势下看到上述估计系数的概率(即图中黑点表示的系数)和假设平行趋势下看到上述估计系数的概率比值。图3的检验中,两个指标的值分别为0.89和1.00,即在假设趋势下通过平行趋势的可能性和通常的平行趋势检验概率相近,并且假设的趋势下得到上述估计系数的可能与平行趋势假设下得到上述系数的可能性相同,这说明在假设的趋势下,通过平行趋势检验的可能性和我们现在做的一样高,从而,我们对平行趋势假设存在担忧,有可能存在着一些时变的因素,比如地方经济发展、地方政府治理等,造成干预组和控制组的村庄贫困注册率不满足平行趋势,下面我们考虑可能的趋势不平行是否可能影响估计结果的稳健性。
(四)敏感性分析
根据事件研究法的事前系数和上文的功效分析,可能担心事前趋势不平行。下面利用Rambachan & Roth(2022) 提出的敏感性分析方法,假设利用观测到的事前偏差最大值的𝑀̅ 倍作为事后趋势的估计,讨论对估计量的影响,这里主要估计滞后一期的效应(评估其他期估计量可以类似处理),16事件研究法系数为0.25,在10%的显著性水平下显著。图4给出了相应的敏感性分析图,Mbar给出了事前趋势偏差的倍数,可以看到,如果假设事后趋势是事前趋势偏差的0.5倍时,估计结果已经不再显著,如果事后趋势与事前趋势相当或更大时,滞后一期的因果效应将在统计上不显著。这说明上文事件研究法得到的效应可能不稳健,如果事后有一定的趋势偏离,上文估计的效应将不再存在。
(五)异质性效应下的因果效应估计
上文Goodman-Bacon分解证明TWFE估计量偏差很小,时间异质性影响较小,但是不能排除组间存在异质性,上述事件研究法系数可能存在着污染偏差。因而,我们考虑使用Callaway & Sant’Anna(2021)的非参数估计量(下文简称为CS估计量)估计群组时期平均因果效应,并加总得到动态效应,然后进行功效分析和敏感性分析。
利用CS估计量得到的加总平均因果效应为0.12,和TWFE估计值相似,标准误差为0.10,统计上不显著。图5a是加总的动态效应,类似于事件研究法系数。图5a显示,事前效应均在统计上不显著,但无法通过平行趋势的联合检验,因而,事前可能不满足平行趋势假设。如果假设事后满足平行趋势,可以看到事后效应在统计上也不够显著,但滞后一期的效应更大,这和上文事件研究法结果一致。图5b 报告了滞后一期系数的敏感性分析,在不同的门槛值下,事后一期效应在统计上均不显著,因而,考虑了组间异质性后,原文发现的效应可能不存在,至少在贫困人口的注册方面,TWFE 方法和事件研究法发现的村官效应并不稳健。
八、讨论
最近几年来,关于渐进政策和更复杂政策的双重差分设计中,双向固定效应模型和事件研究法不能得到目标参数估计的讨论(de Chaisemartin & D'Haultfoeuille, 2020; Goodman-Bacon, 2021; Sun & Abraham, 2021;Borusyak et al., 2021),体现了最新文献对估计方法和因果识别之间的区别的关注。经济学者习惯于使用线性回归回答问题,但是,回归估计量并不必然为研究者提供目标参数的一致估计,在截面数据中,引入控制变量以满足非混杂性的识别条件后,回归系数可以解释为分层平均因果效应的方差加权,还能保证权重为正,从而可以将回归估计量解释为目标参数(ATT)的近似 (Angrist & Pischke, 2009),至少当每层效应为正,回归估计也会提供一个正值。然而,在渐进政策情形下,最新文献 (de Chaisemartin& D'Haultfoeuille, 2020; Goodman-Bacon, 2021) 发现,如果因果效应存在时间上的异质性时,TWFE 估计量对每组每期效应的加权权重可能会出现负值,即使每组每期效应均为正,但通过回归的加权平均之后却可能得到负的估计,这是非常不合理的。原因在于TWFE 估计量里包括了“坏的对比”,即包含了以已经受政策影响的群体作为控制组构造的双重差分估计量,从而即使平行趋势假设等基本识别条件成立的情况下,经济学者习惯使用的双向固定效应模型也不能回答研究者的问题,不能给出正确的目标参数的估计。
回归作为一种参数估计方法,它本身只给出相关性的估计,而相关性并不必然与研究者关心的因果效应一致。当回归模型所蕴含的识别假设和目标参数的识别条件一致时,回归系数将可以给出目标参数的一致估计,比如回归模型(6)(7),它本身就蕴含了无条件平行趋势假设1,那么回归系数就可以得到目标参数的一致估计。比如回归模型(7),直接引入不随时间变化的协变量𝑋𝑖,它会被固定效应吸收掉,起不到控制的作用,事实上,在模型(7)中直接引入非时变协变量,所蕴含的平行趋势假设仍然是假设1,而不是条件平行趋势假设1’,因而,如果研究者确信平行趋势是随𝑋𝑖变化的,就应该采用模型(9)。与条件平行趋势假设1’一致的回归模型为(9)式,它允许平行趋势和政策效应随𝑋𝑖变化,回归模型(9)才能给出目标参数的一致估计。因而,研究者在使用回归方法估计政策效应时,必须明确回归模型本身所蕴含的假设是否与识别目标参数时所需要的识别假设一致,两者一致,回归才能给研究者正确的答案。否则,回归将给出错误的估计。另外,除回归方法外,匹配方法、回归调整、逆概率加权和双重稳健方法也是可行的选择,理论上同样的识别条件下,这些估计方法都可以得到一致的估计,因而,可以使用几种方法估计目标参数,以验证结果的稳健性。
在双重差分模型中,时变协变量的引入仍然是一个开放的问题,模型(7)基础上直接引入时变协变量𝑋𝑖𝑡,它蕴含了强外性假设,不允许过去的协变量影响未来的干预和结果,也不允许过去的干预和结果影响未来的协变量,这在有些研究中不能满足,这是研究者需要了解的。如果不同期协变量都可能影响到未来的干预和结果,那么更合适的平行趋势假设可能是根据协变量和结果的历史进行设定,而蕴含该假设的回归模型可以采用(9)式。因此,在选择估计模型时,研究者需要思考哪种识别条件更合理。
多期单一时点政策模型中,回归模型(12)(13)分别蕴含着无条件平行趋势假设和条件平行趋势假设1”,回归系数𝜏𝑙可以解释为𝑙期的平均因果效应,可以利用政策实施前的回归系数𝜏𝑙,𝑙≤𝑇0检验平行趋势是否成立。系数𝜏𝑙本身就可以解释为受𝑙−(𝑇0+1)期政策影响的平均效应,类似于事件研究法的系数。当然,通常的平行趋势检验存在低功效问题,可以考虑使用Roth(2022)的功效分析方法。另外,可以使用Rambachan & Roth(2022)的敏感性分析方法评估事后趋势对估计结果的影响。
在多期模型中,时变协变量的引入方式,目前学界仍然没有一致可行的方案,目前有少量文献(Caetano et al., 2022; Shahn et al., 2022)开始讨论多期双重差分模型中时变协变量的引入方式。基本的原则仍然是需要根据所研究问题的背景知识,多期单一时点政策下,如果政策实施前的协变量演变模式可能会影响到未来的政策干预,那么引入的识别条件可能需要建立在时变协变量历史的基础上,从而在构建模型时,不仅仅需要引入当期协变量,可能需要引入政策实施前整个协变量的历史作为控制变量。对于多期渐进政策也是如此,需要利用每组实施政策前的历史信息作为政策干预的协变量而引入模型。
平行趋势假设依赖于不随时间变化的混杂因素𝑈𝑖,之所以会存在平行趋势,就是因为控制干预组和控制组可观测的协变量后,仍然有不随时间变化的因素𝑈𝑖在起作用,造成干预组和控制组结果之间有差异,而这一差异是由非时变混杂𝑈𝑖造成的,因而,结果会出现平行。这种因未观测混杂𝑈𝑖造成的干预组和控制组基线潜在结果的平行,在短期内可能是比较合理的假设,如果在比较长期数据中,时期越长,时变因素越多,可能会有很多未观测的时变混杂因素𝑈𝑖𝑡在发生作用,它们将使干预组和控制组的基线潜在结果不平行。因而,在很长时期情况的分析中,平行趋势假设可能不再是合理的假设。在数据考察期很长时,因果效应的估计无需再依赖于平行趋势假设,可以考虑其他识别策略,比如缺失值填补方法 ( Abadie et al., 2010; Borusyak et al, 2022, Xu, 2017; Athey et al., 2021),不需要平行趋势假设,可以允许很复杂的时变协变量和未观测时变混杂因素的存在,18在分析长时间的政策效应时,可能是更好的选择。
九、总结和启示
双重差分法是一种使用广泛的应用微观计量方法,是一种重要的研究设计和识别策略,它依赖于平行趋势假设。本文首先给出了因果识别的定义,明确了因果推断和统计推断的区别与联系。然后,利用潜在结果框架,总结了经典两期双重差分模型的基本识别条件、回归模型设定,非时变协变量和时变协变量的引入方式及估计方法。然后将它推广到多期模型,分析了多期单一时点政策和多期渐进政策的双重差分设计,总结了它们的基本识别条件、回归模型设定和协变量的引入方式。对传统双向固定效应方法和事件研究法存在的缺陷进行了讨论,并总结了正确估计总体平均效应和动态因果效应等目标参数的最新估计方法。接着对平行趋势检验存在的问题、解决办法和敏感性分析进行归纳总结。最后通过一个案例说明了最新DID方法的使用。通过对双重差分策略全面的梳理和分析,使用DID策略时,需要注意的事项或启示有:
(1)协变量的引入方式很重要,不同的引入方式,蕴含着不同的目标参数识别条件,特别是蕴含着不同的平行趋势假设。模型(6)(7)蕴含着无条件平行趋势假设1成立,模型(9)的协变量引入方式蕴含着条件平行趋势假设1’成立。估计结果的可信性依赖于识别假设的合理性,如果识别条件在现实中成立,那么相应的估计结果就会比较可信。因而,学者在采用双重差分策略时,必须要深入分析采用什么样的平行趋势假设更合理,从而选择相对应的回归模型进行估计。
(2)在多期模型中,特别是交错政策(staggered DID)情况下,TWFE估计量存在着偏差,原因在于TWFE估计量包含了禁止比较,即包含了以已经受政策影响的群体作为控制组的双重差分估计量,造成负权重问题,从而造成估计偏差(de Chaisemartin & D'Haultfoeuille, 2020; Goodman-Bacon, 2021)。因而,交错政策情况下,应使用Callaway & Sant’Anna(2021)的非参数估计量或Wooldridge(2021)的回归估计量,估计出每组每期的平均因果效应𝜏𝑒𝑡,然后再利用合适的加权平均,得到研究者想要的目标参数。
(3)在多期模型中,特别是交错政策,若存在着组间异质性,不宜使用事件研究法估计政策的动态效应,也不宜使用事件研究法进行平行趋势假设检验。原因在于在组间异质性情况下,事件研究法回归系数会受到模型中包括的其他期效应和作为基准组的排除期效应的污染,19存在污染偏差(Sun & Abraham, 2021; Goldsmith-Palm et al., 2022)。要想得到正确的动态效应或检验平行趋势假设,可以使用Callaway & Sant’Anna (2021)的非参数估计法或Wooldridge (2021)的回归估计法先估计出每组每期的效应𝜏𝑒𝑡,然后将各组受𝑙期影响的政策效应加权平均,即可以得到受𝑙期影响的动态平均因果效应𝜏𝑙,也可以利用政策实施前的平均因果效应𝜏𝑙,𝑙<0去检验平行趋势假设是否成立。
(4)通常的平行趋势检验存在统计功效低、事前平行并不能保证事后平行等问题,可以使用Roth (2022)的功效分析方法评估平行趋势检验的功效问题。Rambachan & Roth (2022)的敏感性分析讨论存在事后趋势时,所估计的因果效应是否仍然存在,以评估估计结果的稳健性。
当然,DID研究设计中,仍然存在着一些开放的问题。首先,应该如何控制时变协变量,当存在时变协变量时,应该引入什么样的平行趋势假设,在使用回归模型时,应该采用什么样的模型形式。已经有一些文献(Caetano et al., 2022; Shahn et al., 2022)开始研究,但目前仍未有一致的可操作的方案。其次,如果存在进入退出等复杂情形时,应该如何进行DID设计。目前最新文献主要集中于交错政策,即个体一旦受到政策影响会一直受到影响,不会中途退出,如果出现一开始个体受政策影响,但某一时点后则退出,不再受政策影响(甚至后期又受政策影响),这种情况下,应该引入什么样的平行趋势假设,应该如何评估政策效应。
de Chaisemartin & D'Haultfoeuille(2020)考察了类似的情况,他们构造的𝐷𝐼𝐷𝑀估计量允许估计政策退出当期的平均因果效应,但他们引入了比较强的平行趋势假设,他们假设退出组和干预组如果都接受干预的情况下,变动趋势相同,这一假设比通常的平行趋势假设更强,另外,𝐷𝐼𝐷𝑀只能估计政策改变当期的效应。因而,需要新方法能够估计更一般的情况。
*群友可前往社群下下载全文PDF。 关于多期DID或交叠DID: 1.DID相关前沿问题“政策交错执行+堆叠DID+事件研究”, 附完整slides,2.交错(渐进)DID中, 用TWFE估计处理效应的问题, 及Bacon分解识别估计偏误,3.典范! 这篇AER在一图表里用了所有DID最新进展方法, 审稿人直接服了!4.最新Sun和Abraham(2020)和TWFE估计多期或交错DID并绘图展示结果!详细解读code!5.多期DID或渐进DID或交叠DID, 最新Stata执行命令整理如下供大家学习,6.多期DID前沿方法大讨论, e.g., 进入-退出型DID, 异质性和动态性处理效应DID, 基期选择问题等,7.交叠DID中平行趋势检验, 事件研究图绘制, 安慰剂检验的保姆级程序指南!8.欣慰! 营养午餐计划终于登上TOP5! 交叠DID+异质性稳健DID!9.用事件研究法开展政策评估的过程, 手把手教学文章!10.从双重差分法到事件研究法, 双重差分滥用与需要注意的问题,11.系统梳理DID最新进展: 从多期DID的潜在问题到当前主流解决方法和代码! 12.标准DID中的平行趋势检验,动态效应, 安慰剂检验, 预期效应教程,13.DID从经典到前沿方法的保姆级教程, 释放最完整数据和代码! 关于因果推断书籍:1.一本最新因果推断书籍, 包括了机器学习因果推断方法, 学习主流和前沿方法,2.社会经济政策的评估计量经济学, 提供书籍和数据和程序文件,3.诺奖得主Angrist的因果推断课程文献读物单子再次更新了, 还提供了其他三门课程,4.全面且前沿的因果推断课程, 提供视频, 课件, 书籍和经典文献,5.从网页上直接复制代码的因果推断书籍出现了, 学会主流方法成效极快,6.推荐书籍"用R软件做应用因果分析", 有需要的学者可以自行下载!7.哪本因果推断书籍最好?我们给你整理好了这个书单!8.“不一样”的因果推断书籍, 很多观点让我们能恍然大悟, 涵盖了不少其他书里没有的因果推断方法!9.搞懂因果推断中内生性问题解决方法必读的书籍和文献已搜集好!10.一位“诗人”教授写了本因果推断书籍, 现在可以直接下载PDF参看!11.使用R软件学习计量经济学方法三本书籍推荐,12.机器学习与Econometrics的书籍推荐, 值得拥有的经典,13.史上最全的因果识别经典前沿书籍, 仅此一份,14.用R语言做Econometrics的书籍推荐, 值得拥有的经典,15.Stata学习的书籍和材料大放送, 以火力全开的势头,16.USA经管商博士最狂热崇拜的计量书籍震撼出炉,17.推荐使用Python语言做因果推断前沿方法的书籍,18.一些比较常见的因果推断书籍25本汇总, 很多可以直接下载PDF,19.推荐一本专攻处理效应分析的书籍, 包括主流政策评估计量方法
7年,计量经济圈近2000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
Econometrics Circle