有意思! 断点回归设计RDD的两大分析框架, 哪个场景使用哪一个呢?

学术   2024-12-28 08:04   中国香港  

凡是搞计量经济的,都关注这个号了

邮箱:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

“1.RDD断点回归, Stata程序百科全书式的宝典",“2.最强断点回归RDD方法资料主页!提供replication数据, 编写和注释完整的codes!”,“3.政策评估里的断点回归设计RDD是什么, 如何做?如何简单的理解?”,“4.复现经典RDD断点回归设计文献保姆级教程, 直接上手!” "5.她极度近视, 却凭该TOP5文掌控着关于RDD使用的话语权!"

接着陈强: 计量经济学实证论文写作全解析,今天看看最新关于断点回归设计RDD的综述方法类论文“断点回归的两大分析框架:我们究竟该用哪一个?”。如果你不在意选择哪个框架,哪个好用就用哪个,或者别人怎么用你就用哪个,也可以熟悉一下断点回归设计研究思路。
假定、带宽选择还是推断方法上均有相当差异。其中,基于连续性的框架(continuity-based framework)假定潜在结果的条件期望连续,在实证研究中广泛应用。局部随机化的框架(local randomization framework)则为后起之秀,该框架假定在断点附近的小窗口,驱动变量可视为随机分配。本文详细介绍了这两大框架的原理与技术细节,包括识别、估计、推断与证伪,并通过蒙特卡罗模拟与经典案例深入比较了二者的差异。
文献中一般认为基于连续性的框架所依赖的假定更弱,但本文发现,一方面,该框架隐含假定驱动变量在带宽内为外生变量,在实践中未必满足;另一方面,局部随机化的框架所选窗口一般更窄,故驱动变量的外生性条件更易满足,且适用于离散驱动变量的情形。由于局部随机化框架的有效样本容量一般较小,易受离群值影响,故本文提出使用“留一估计”(leave-one-out estimation)作为稳健性检验。
简要介绍:
断点回归设计(regression discontinuity design),简称“断点回归”(RD),是经济学实证研究中最为流行的准实验因果推断方法之一。Thistlethwaite & Campbell( 1960)首次提出断点回归,并以此研究奖学金对于未来学业成就的影响。由于奖学金由考试成绩决定,而学生无法精确控制其成绩,故成绩刚好达到获奖标准与差点达到的学生具有可比性。自20 世纪90 年代以来,断点回归在经济学的多个领域,包括教育经济学、劳动经济学、发展经济学、健康经济学、政治经济学以及区域经济学等领域得到了广泛应用。
断点回归设计包含两个基本前提。首先,个体获得一个得分(score),①若此得分超过已知的某个断点(cutoff 或threshold),则进入处理组,接受政策处理;反之,则进入控制组。此前提正是断点回归所特有的“处理配置机制”(treatment assignment mechanism)。其次,在此断点附近两侧的处理组与控制组个体具有“可比性”(comparability),故可将对方作为“有效的反事实”(valid counterfactuals)。此前提排除了在断点两侧存在“内生分组”(endogenous sorting)的可能性,因为若个体可精确地控制进入断点的某侧,则断点附近两侧的个体将失去可比性。
针对断点附近两侧个体的可比性所使用的不同数学表达,文献中出现了两个分析框架。一方面,基于连续性的框架(continuity-based framework),简称“连续性框架”,假设潜在结果的条件期望在断点处连续,这保证了在断点附近两侧的处理组与控制组个体的特征相近。基于此连续性假定,可识别在断点处的“局部平均处理效应”(local average treatment effect),并使用非参数的局部多项式回归(local polynomial regression)进行估计与推断(Hahn et al., 2001)。另一方面,局部随机化的框架(local randomization framework)则假设在断点附近的小窗口内,个体的驱动变量及处理状态可视为随机分配(as-if randomly assigned)。基于局部随机化的假设,可使用分析实验(analysis of experiments)的方法进行估计与推断(Cattaneo et al., 2015)。
一个重要问题是如何在断点回归的两大分析框架之间进行选择。连续性框架出现更早,是目前的主流框架,在实践中广泛应用。局部随机化框架出现较晚,当前仍主要作为替补方法或稳健性检验。然而,作为后起之秀的局部随机化框架,有望在未来的断点回归实证研究中发挥日益重要的作用,原因如下:
首先,一方面,尽管连续性假设弱于局部随机化假设,但基于连续性框架进行局部多项式回归时,仍隐含假定驱动变量在所选带宽内为外生变量,以保证局部多项式回归的一致性。然而,此外生性条件一直为文献所忽略,实证研究者通常非正式地视断点回归为“ 局部随机实验”(local randomized experiment),故默认接受此外生性条件。但连续性框架并未假设局部随机实验,在选择带宽时也完全未考虑须保证驱动变量的外生性,只是通过最小化均方误差(MSE)来选择最优带宽,称为“MSE 最优带宽”(MSE-optimal bandwidth)。由此所得最优带宽一般比较宽,可能难以保证驱动变量的外生性,遑论局部随机实验。另一方面,局部随机化框架并不通过最小化MSE 来选择带宽,而是通过一系列的协变量平衡(covariate balance)检验来选择带宽,以满足局部随机化的假定。①因此,局部随机化框架所选带宽一般更为狭窄(Cattaneo & Vazquez-Bare, 2017),这使得驱动变量的外生性更易被满足。当然,选择更窄带宽的后果是在此带宽内的有效观测值可能大幅下降。为此,Cattaneo et al.( 2015)建议使用适用于小样本的“费雪推断法”(Fisherian inference),通过随机化检验(randomization test)进行统计推断。
其次,一方面,连续性框架通常假定驱动变量连续,且在断点处的密度函数为正,这使得连续性框架在离散驱动变量的情况下不便使用,而不得不引入额外假定;另一方面,无论驱动变量连续或离散,局部随机化框架均可照常使用。
再次,一方面,由于连续性框架仅能识别在断点处的局部平均处理效应(local average treatment effect,简记LATE),其“外部有效性”(external validity)较弱。尽管文献中已有若干将此局部平均处理效应拓展外推(extrapolation)的尝试,②但均须施加额外的较强假定,在实践中鲜有应用。另一方面,局部随机化框架所识别的是在带宽内所有个体的平均处理效应(ATE),尽管其带宽通常较窄。
总之,断点回归的两大分析框架各有优缺点,而局部随机化框架在未来可能越来越重要。进一步,本文通过蒙特卡洛模拟,深入比较了二者的表现。结果发现,若驱动变量在更宽的MSE 最优带宽内外生,则连续性框架的估计更有效率。然而,若驱动变量仅在更窄的局部随机化带宽内外生,则连续性框架的估计不一致,而局部随机化框架的估计依然一致。另外,本文还通过美国参议院选举的经典案例(Cattaneo et al., 2015)进行演示,比较两大框架在操作上的具体差异。
有关断点回归的英文文献综述包括Cook( 2008)、Imbens & Lemieux( 2008)、van der Klaauw( 2008)、Lee & Lemieux( 2010)、Cattaneo & Titiunik( 2022),以及 Cattaneo et al.( 2020a, 2023)所提供的实践指南,而中文文献综述包括谢谦等(2019)、刘生龙(2021)、张泽宇等(2022)及刘冲等(2022)。其中,刘冲等(2022)在国内文献中首次将断点回归的两大分析框架进行了对比,并介绍了断点回归的一些新应用场景及拓展,包括多重驱动变量、多重断点、拐点回归设计等。与这些综述文献相比,本文详细地介绍并比较了两大框架的原理与技术细节,包括识别、估计、推断与证伪,特别是国内学界还比较陌生的局部随机化框架;并通过蒙特卡洛模拟与经典案例深入考察了二者的差异。本文的创新之处包括,首次指出连续性框架的断点回归可能存在内生性偏差,并通过蒙特卡洛模拟进行验证。另外,由于局部随机化框架下的有效样本容量可能较小,易受离群值影响,本文提出使用“留一估计”(leave-one-out estimates)进行稳健性检验。本文还使用美国参议院选举的经典案例(Cattaneo et al.,2015),演示两大框架的具体操作。
****省略10页内容。
断点回归两大框架的比较
断点回归的连续性框架与局部随机化框架无论在假定、识别、估计及推断方面均有相当差异。一方面,连续性框架始于Hahn et al.( 2001)的非参数识别,成熟于Calonico et al.( 2014)的偏差校正稳健估计,技术已十分完善,是目前断点回归的主流方法。另一方面,局部随机化框架起步较晚,始于Cattaneo et al.( 2015),经过Cattaneo et al.( 2017)的拓展,也趋于成熟。局部随机化框架目前应用较少,仍主要作为稳健性检验或替补方法。
断点回归两大框架一主一辅地位的形成,表面原因是局部随机化框架出现较晚,而连续性框架占据先发优势,早已在实证研究中普及。更重要的原因则是,学界普遍认为连续性框架的假定比局部随机化框架更弱,而出于稳健性考虑,我们一般偏好假定更弱的方法。但事实上,连续性框架的假定并不一定比局部随机化框架更弱,因为它隐含地假定驱动变量在最优带宽内为外生变量。为此,本节首先考察连续性框架的隐含外生假定,以及离散驱动变量的问题,并以表格形式全面对比两大框架的不同特征。
(一)连续性框架的隐含外生假定
众所周知,在进行线性回归时,一致估计的最基本要求是解释变量为外生变量,即解释变量与扰动项不相关。此结论对于非参数回归依然成立,因为非参数回归仅解决回归函数误设问题,本身并不解决可能存在的内生性。具体到断点回归的连续性框架,一致估计要求驱动变量Xi 在所选最优带宽内为外生变量。显然,假定2.1(驱动变量的连续性)与假定2.2(结果变量条件期望的连续性)均无法保证驱动变量的外生性。进一步,在实践中,连续性框架的MSE 最优带宽通常较宽,一般也难以满足局部随机实验的假设。例如,在美国参议院选举的经典案例中(Cattaneo et al., 2015),使用三角核进行局部线性回归所得的MSE 最优带宽为[-17.754, 17.754 ]。①在民主党得票率与最强竞争对手相差达±17.754% 的区间内,显然未必是势均力敌的选举(close election),故难以满足局部随机实验的假设。事实上,根据Cattaneo et al. (2015)所汇报的结果,满足局部随机化带宽仅为[-0.75, 0.75 ]。然而,实证研究者经常非正式地将MSE 最优带宽内的断点回归一概视为局部随机实验(无论此带宽有多宽),而不担心驱动变量可能的内生性。为此,本文在文献中首次引入如下外生性假定,以保证连续性框架的一致估计。
假定4.1( 驱动变量的外生性):驱动变量Xi在所选最优带宽内为外生变量,与局部多项式回归方程的扰动项不相关。
很遗憾,假定4.1 长期为文献所忽视,而实证研究者则通常将其看作理所当然的隐含假定。当然,实证研究者也担心存在内生分组的可能,故一般通过密度检验(McCrary, 2008;Cattaneo et al.,2020)考察在断点处存在个体完全操纵的可能性。然而,即使密度检验通过,也依然无法保证驱动变量在整个最优带宽内的外生性。
由于学界对于假定4.1 充满信心,以至于经常以一元回归进行断点回归,而不在回归方程中加入任何协变量。进一步,即使加入协变量,也认为只是改进了估计效率,而不影响估计的一致性(Calonico et al., 2019)。基于同样的原因,在使用面板数据进行断点回归时,一般也认为不必考虑个体固定效应,尽管控制个体固定效应可以提高估计效率(张春丽等,2020)。然而,由于连续性框架所选最优带宽一般较宽,故局部随机实验的假设难以成立,这使得假定4.1 也可能不成立。这提示实证研究者,在使用连续性框架进行断点回归时,应重视引入协变量,以解决可能存在的遗漏变量偏差。类似地,在使用面板数据进行断点回归时,则建议控制个体固定效应,以缓解内生性偏差的顾虑。
局部随机化框架在通过协变量平衡检验选择带宽时,已充分考虑满足局部随机化的假定,且所选带宽通常更窄,故假定4.1 在局部随机化框架下更易满足,从而在源头上避免了可能的内生性偏差。在第五节,我们通过蒙特卡罗模拟,进一步比较了连续性框架与局部随机化框架,以揭示连续性框架可能存在的内生性偏差。
(二)离散驱动变量
连续性框架假设驱动变量为连续型随机变量,且在断点处密度为正数(假定2.1)。这意味着,若驱动变量离散,则使用连续性框架进行断点回归可能会遇到困难。若驱动变量离散,则在断点处的局部平均处理效应不再是“非参数可识别”(nonparametrically identifiable),因为在断点两侧的极限lim x↓c E (Yi |Xi = x ) 与lim x↑c E (Yi |Xi = x ) 没有定义。此时,连续性框架的识别与估计必然要求对驱动变量的取值范围进行外推(extrapolation outside the support of the running variable)。
不失一般性,假设离散驱动变量的可能取值为{ x-K,⋯,x-1,c,x1,⋯,xK},其中,为了简便,假设断点c 为中位数。在此情形下,若使用连续性框架,则需加上两个额外假定,即(1)从Xi = x-1 到Xi =c 所作的参数外推(parametric extrapolation)足够精确;(2)样本中驱动变量不同取值的个数足够大。如果满足这两个额外条件,则连续性框架的局部多项式回归仍可使用(Cattaneo & Titiunik, 2022)。
相反,无论驱动变量连续或离散,局部随机化框架均同样适用,无须额外假定。这凸显了局部随机化框架的另一优势。进一步,如果样本中驱动变量的重复值(repeated values)足够多,甚至可以选择最小的窗口,即直接使用满足Xi = x-1 到Xi = c 的观测值进行局部随机化的估计与推断。即使需要更宽的带宽,也可以每次按照驱动变量的离散取值来扩大窗口。

需要指出,尽管局部随机化常使用小样本的费雪推断法进行统计推断,但并不意味着其适用于原始样本就比较小的数据。如果原始样本容量已经较小,则在协变量平衡检验所选取的较窄带宽内,有效观测值可能更少,依然不利于小样本推断。由表1 可见,使用局部随机化框架的两大场景为离散驱动变量,或驱动变量在连续性框架最优带宽内可能存在内生性。由于这两种情形(尤其是后一种情形)均比较常见,故局部随机化框架在未来的断点回归实践中可望发挥更大的作用。

Reference:陈强,齐霁,颜冠鹏.断点回归的两大分析框架:我们究竟该用哪一个?[J].经济学动态,2024,(11):128-144.

群友可前往社群下载上述全文PDF。
关于断点回归设计RDD,可参看1.断点回归设计RDD分类与操作案例,2.RDD断点回归, Stata程序百科全书式的宝典,3.断点回归设计的前沿研究现状, RDD,4.断点回归设计什么鬼?且听哈佛客解析,5.断点回归和读者的提问解答,6.断点回归设计RDD全面讲解, 教育领域用者众多,7.没有工具变量、断点和随机冲击,也可以推断归因,8.找不到IV, RD和DID该怎么办? 这有一种备选方法,9.2卷RDD断点回归使用手册, 含Stata和R软件操作流程,10.DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征,11.安神+克拉克奖得主的RDD论文, 断点回归设计,12.伊斯兰政府到底对妇女友不友好?RDD经典文献,13.PSM,RDD,Heckman,Panel模型的操作程序,14.RDD经典文献, RDD模型有效性稳健性检验,15.2019年发表在JDE上的有趣文章, 计量方法最新趋势,16.关于(模糊)断点回归设计的100篇精选Articles专辑!17.断点回归设计RDD精辟解释, 保证你一辈子都忘不了,18.“RDD女王”获2020年小诺奖!她的RD数据, 程序, GIS和博士论文可下载!关于她学术研究过程的最全采访!19.中国博导要求掌握的RDD方法实证运用范文(配程序code), 不然就不要用RDD做实证研究!20.最近70篇关于中国环境生态的经济学papers合辑!21.事件研究法用于DID的经典文献"环境规制"论文数据和程序,22.环境, 能源和资源经济学手册推荐, 经典著作需要反复咀嚼,23.中文刊上用断点回归RDD和合成控制法SCM的实证文章有哪些?不看至少需要收藏一下!24.上双一流大学能多赚多少钱? 学习断点回归RDD, 机制分析的经典文章!25.JPE上利用地理断点RDD和IV研究中国环境议题的do文件release!26.学习经济学会让你富有吗? 基于大学专业回报的断点回归分析,27.政策评估里的断点回归设计RDD是什么, 如何做?如何简单的理解?28.AER上用断点回归设计的经典文章有哪些?给出了具体的程序和code,29.AER: 严刑竣法真的可以减少犯罪吗? 断点回归设计RDD的经典!30.断点回归设计RDD的原理和实证指南, 年龄, 地理, 分数等断点应有尽有,31.最强断点回归RDD方法资料主页!提供replication数据, 编写和注释完整的codes!32.前沿: 农业与环境经济学中断点回归设计RDD万字综述与最新进展!

7年,计量经济圈近2000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

计量经济圈
凡是搞计量经济的,都关注这个号了。
 最新文章