内生性问题:方法与Stata实现
引言
在经济学的实证分析中,因果关系的识别是至关重要的任务,而内生性问题则是影响这种识别的主要挑战之一。
内生性指的是模型中的解释变量与误差项之间存在相关性,导致常用的估计方法(如普通最小二乘法,OLS)无法提供无偏和一致的估计结果。
内生性问题的出现,不仅影响研究结论的准确性,还可能导致政策建议的偏差。因此,理解内生性的本质、成因及解决方案是经济学研究者的重要任务。
本篇文章将深入探讨内生性的定义、成因、后果,并详细介绍各种解决内生性问题的实证方法,提供研究者在面对内生性问题时的应对策略。
1. 什么是内生性?
内生性(Endogeneity)问题是指在回归模型中,解释变量与误差项之间存在相关性。经典回归分析中假设误差项与解释变量是独立的,而一旦这一假设被破坏,估计量的无偏性和一致性将无法保证,进而影响结果的有效性。
具体来说,内生性问题通常通过以下几种方式出现:
遗漏变量偏误(Omitted Variable Bias):当一个重要的解释变量未被包括在模型中时,如果它与已经包括的解释变量和被解释变量都有关系,就会导致内生性。 测量误差(Measurement Error):如果某个解释变量的测量存在误差,那么这种误差会导致该变量与误差项之间产生相关性,从而引发内生性问题。 双向因果关系(Simultaneity):当解释变量与因变量之间存在双向因果关系时(即因变量影响解释变量,解释变量又反过来影响因变量),也会导致内生性问题。
2. 内生性带来的影响
内生性问题的存在会导致常规回归分析中的OLS估计量不再是无偏的,并且在样本量趋于无限时也无法收敛于真实值。具体来说,OLS估计可能会产生系统性偏误,使得因果推断的结论不可靠。
主要后果:
无偏性丧失:OLS回归中的系数估计可能系统性偏离真实值。 一致性丧失:即使样本量趋向无穷,OLS估计也无法收敛到真实参数。 无法得出因果关系:内生性使得回归结果难以直接解释为因果效应,可能导致错误的政策推导。
3. 内生性的成因
内生性问题的根本原因在于模型的设定偏误,主要表现在以下几种情况:
遗漏变量偏误(Omitted Variable Bias):遗漏了一个与被解释变量和解释变量都相关的变量。例如,在研究教育水平与收入的关系时,个体的能力如果未被考虑进去,可能导致教育对收入影响的估计偏误。 测量误差(Measurement Error):如果某些关键变量被错误测量,可能导致这些变量与误差项产生相关性,进而影响估计结果。 双向因果关系(Simultaneity):解释变量与因变量之间相互影响的情况。形成了双向因果关系,导致内生性问题。 自我选择偏误(Self-Selection Bias):个体的选择行为(如是否接受培训或是否投资某项目)可能与其未观察到的特征相关,导致内生性问题。
4. 处理内生性问题的方法
面对内生性问题,研究者通常采用多种方法来进行处理,确保模型估计的无偏性和一致性。以下是常见的几种方法:
4.1 工具变量法(Instrumental Variables, IV)
工具变量法是解决内生性问题的经典方法之一。其基本思想是通过引入与内生解释变量相关且与误差项不相关的工具变量,来替代原有的内生变量,从而解决内生性。
工具变量的基本要求
相关性条件:工具变量与内生解释变量之间需要有较强的相关性。 外生性条件:工具变量与误差项之间没有相关性。
4.2 广义矩估计(Generalized Method of Moments, GMM)
GMM是工具变量法的一种扩展,适用于更复杂的内生性问题,尤其是在存在多个内生解释变量的情况下。GMM通过利用多个矩条件,改进传统工具变量方法的效率。
4.3 面板数据模型(Panel Data Models)
面板数据模型通过同时利用时间序列数据和横截面数据,能够有效控制个体不变的特性,从而减少遗漏变量的影响。
4.4 倍分法(Difference-In-Differences, DID)
倍分法是一种常用于政策评估中的研究设计方法。通过比较实验组和对照组在政策实施前后的差异,控制时间不变的潜在混杂因素,从而识别因果效应。
4.5 断点回归设计(Regression Discontinuity Design, RDD)
RDD利用某一阈值处的政策变化来识别因果效应,适用于自然实验中具有明确阈值的情况。通过比较阈值附近的单位,能够识别政策的因果效应。
4.6 倾向得分匹配(Propensity Score Matching, PSM)
PSM通过匹配实验组和对照组的个体特征,减少自选择偏误,从而估计处理效应。这种方法的核心在于通过倾向得分来匹配相似的个体,确保比较组间的差异仅仅来源于处理效应。
4.7 合成控制法(Synthetic Control Method, SCM)
合成控制法是另一种用于政策评估的非实验方法,特别适用于只有一个处理组和多个对照组的情况。通过构建一个合成对照组,能够较为准确地估计政策的因果效应。
实施步骤:
选择与处理组相似的单位,构建合成对照组。
比较处理组和合成对照组的表现,估计政策效应。
实证论文中8种内生性解决办法大全!最全的总结(附命令+示例+论文)
1、内生性简介
一个典型的线性回归模型:
这里y为被解释变量,x1为自变量,或者解释变量,也即“因”。
大写的 X 为外生控制项向量( 也即一组假定为外生的其他控制变量,例如年龄、性别等等) ,
ε则为误差项。
如果ε与x1不相关,那么我们可以利用OLS 模型对方程进行无偏估计。
然而,如果一个重要变量x2被模型(1) 遗漏了,且x1和x2也相关,那么对β1的OLS 估计值就必然是有偏的。此时,x1被称作“内生”的解释变量,这就是 “内生性”问题。
遇到“内生性”问题怎么办?
有一个方法就是找工具变量Z。
如果存在内生性,则称解释变量为 “内生变量”(endogenous variable);反之,则称为 “外生变量”(exogenous variable)。
内生性的严重后果是使得 OLS估计量不一致(inconsistent),即无论样本容量多大,OLS 估计量也不会收敛至真实的参数值 。
在计量经济学中,把所有与扰动项相关的解释变量都称为“内生变量”。这与一般经济学理论中的定义有所不同。与误差项相关的变量称为内生变量(endogenous variable)。与误差项不相关的变量称为外生变量(exogenous variable)。
2、内生性的来源
2.1 联立性(逆向因果)
首先我们来看下反向因果关系的解释,例如根据凯恩斯的消费函数,首先模型的设定为C=a+bY+Ui,其中C为消费,Y为国民收入,Ui为随机误差扰动项。然而国民账户的恒等式又有Y=C+I+G+NX,即Y等于消费投资政府购买和净出口的和,很显然,消费是国民收入的重要组成部门,消费又是误差的函数,这样消费与国民收入的函数之间存在反向因果关系,主要因为消费函数里面的Y与Ui相关,本来应该是X与Ui不相关,扰动项的信息应该全部包括或者表现概括在已经有的X里面了。
2.2 遗漏变量偏差
遗漏变量主要值得是某些不可观测的解释变量没有纳入到回归模型中,如果北一楼的变量能够同时对因变量和自变量产生影响,那么会出现内生性的问题。一个比较经典的案例例如研究一个人受教育程度与他的收入之间的关系,其中收入作为被解释变量Y,然后样本中的隔热的教育程度作为解释变量,这个模型中例如能力、性别以及其他变量都有可能同时影响该模型变量受教育程度以及收入,例如个人能力比较高的人可能这个收入比较高,而个人能力有可能作为遗漏变量包含在随机误差扰动项中,因此会出现这个内生性的问题。
2.3 经典的测量误差问题
另外还有一种就是存在的度量误差现象,到时候也是主要表现在内生性的这个与X和Ui不相关,但是却相关了。
3、内生性的解决方法
解决内生性问题的常见方法,主要包括
工具变量( instrumental variable,简称IV) 固定效应模型( fixed effects model,简称FE) 倾向值匹配( propensity score matching,简称PSM) 实验以及准实验( experimentsand quasi-experiments) 处理效应模型 Heckman 广义矩估计 断点回归分析设计 等
3.1 工具变量法
3.1.1、内生性的选择标准
要解决这一内生性问题,我们需要引入更多信息来进行无偏估计。
工具变量的方法就是引入一个外生变量Z,且Z 必须满足以下两个条件:
与随机误差扰动项不相关,但与x1(与内生变量)相关。 或者说,Z 仅仅通过影响x1来影响y。 (总结为:与扰动项无关,与内生变量相关,能够替代或者表达原内生变量的信息) 工具变量IV应该尽量是外生的(如历史/自然/气候/地理之类),它应该在理论上对被解释变量(以下称Y)没有直接影响,但应该通过影响被工具的变量(以下称X)而间接影响被解释变量Y。
一个合理的工具变量应该同时主要满足两个条件:
(1)、强度条件,即工具变量应该与内生自变量具有较强的相关性,即该工具变量的应该能够代替或者表达原内生变量的信息,数学表达式为:COV(Z,X)=/0
(2)、排除限制条件,即工具变量应该与误差项不相关,也就是与因变量Y中不能被已有的自变量x所表达的部分无关(也是与误差项无关)COV(Z,u)=/0
如果第一个条件不满足,我们认为这个工具变量是若工具变量,如果第二个条件得到不满足,我们认为该工具变量不具备足够的外生性,所谓外生性就是Z与误差项不相关。这样将导致工具变量的估计值出现类似于OLS估计的回归偏误。
3.1.2、相关参考文章:
1、一文读懂内生性专题(上) 2、一文读懂内生性专题(中) 3、内生性理论与操作专题汇总 4、内生性与工具变量推荐书单(9本) 5、内生性与工具变量:面板数据的例子 6、一些有趣的工具变量——从阿西莫格鲁的论文说起 7、统计相关还是真实因果?——基于“因果推断”的新兴研究范式 8、内生性问题研究:4篇推荐与8点认识 9、一文读懂内生性问题之二阶段最小二乘法(TSLS)Eviews操作 10、哪只蝴蝶扇动了翅膀:寻找工具变量!工具变量是什么?能吃吗? 11、【学习记·第24期】古往今来,哪一个工具变量没有争议?关于工具变量的一些idea 12、名家新作 | 哥大姜纬教授:工具变量会让我们更接近真实吗? 13、陈云松:逻辑、想象和诠释:工具变量在社会科学因果推断中的应用 14、【陆铭】面板数据、工具变量选择和HAUSMAN检验的若干问题 15、【元旦特辑】最新内生性理论与操作学习手册(附简介、Hausman检验、过度识别检验、弱工具变量的检验、面板工具法等)
3.1.3、工具变量法命令
下面主要介绍一下二阶段最小二乘法Stata中的命令,ivregress,语法格式为
ivregress estimator depvar [varlist1] (varlist2 = varlist_iv) [if] [in] [weight] [, options]
选项介绍
estimator分为2sls两阶段最小二乘、liml有限的信息最大似然(liml) 、gmm广义矩方法(gmm)
depvardepvar 为被解释变量;
varlist1为外生解释变量;
varlist2 为所有的内生解释变量;
varlist_iv为所有的工具变量;
在选项 options 中,
vce(robust)表示稳健型标准误
可使用 firstfirst 选项报告 2SLS 中第一阶段的回归结果
small表示小样本下的自由度调整
案例应用
3.2 GMM估计
在面板模型中,如果解释变量包含被解释变量的滞后值,称为“动态面板数据”(Dynamic Panel Data,简记 DPD)。
AR(1)模型,其中
其中:
𝛼_i是个体效应_ _𝜀_it为随机扰动项,方差为0,均值为𝜎_𝜀^2,无序列自相关
对于个体固定效应动态面板模型,Nickel(1981)证明了组内估计量不一致;Anderson和Hsiao(1982)证明,当扰动项服从正态分布、Y初始值是给定的常数时,当T较小时,pho1的ML估计量是有偏的
先作一阶差分以消去个体效应
但
依然与
相关,因为yit-1与𝜀_(𝑖,𝑡−1)相关,故𝛥𝑦_(𝑖,𝑡−1)为内生变量。
Arellano-Bond估计量:使用所有可能的工具变量,作为工具变量(工具变量的个数大于内生变量个数),应用GMM估计。Arellano和Bond(1991)此法也称为差分GMM。
Arellano and Bond (1991)使用所有可能的滞后变量作为 IV (IV 个数多于内生变量个数),进行GMM 估计,称为“Arellano-Bond估计量”,或“差分 GMM”(Difference GMM)。
系统GMM
前提条件:原模型扰动项不存在自相关, Blundell和Bond(1998)将差分方程和水平方程视为一个系统进行GMM估计。称为“系统GMM”(System GMM)。
GMM估计命令
xtabond xtdpdsys xtdpd xtabond2 一文读懂动态面板数据操作及应用(DPD-Dynamic panel-data) 一文读懂动态面板数据xtabond、xtdpdsys、xtdpd
3.3 倾向匹配得分
3.3.1 倾向匹配得分简介
读北大有助于提高收入吗?
读文科有助于成功吗?
读大学究竟有什么用?
经济学中常希望评估某项目或政策实施后的效应,比如政府推出的就业培训项目(job training program)。此类研究称为“项目效应评估”(program evaluation),而项目效应也称为“处理效应”(treatment effect) ,项目参与者的全体构成“实验组”或“处理组”(treatment group,或 the treated),而未参与项目者则构成“控制组” (control group)或“对照组”
考虑就业培训的处理效应评估。一个天真的做法是直接对比实验组与控制组的未来收入或就业状况。但参加就业培训者的未来收入比未参加者通常更低。难道就业培训反而有害?-是否参加培训是参加者自我选择(self selection)的结果,岗位好收入。
在计量经济学分析中,由于种种原因,数据偏差(bias)和混杂变量(confounding variable)较多,倾向评分匹配的方法正是为了减少这些偏差和混杂变量的影响,以便对实验组和对照组进行更合理的比较。
倾向倾向匹配得分(Propensity Score Matching,简称PSM)是一种因果推断方法,用于处理观察研究(Observational Study)的数据。
3.3.2 倾向匹配得分文章、书籍汇总
1、《Propensity scores for the estimation of average treatment effects in observational studies》,Leonardo Grilli and Carla Rampichini,Training Sessions on Causal Inference Bristol - June 28-29, 2011 2、就业培训的处理效应评估文章,Cameron&Trived《微观计量经济学:方法与应用》(中译本,上海财经大学出版社,2010)pp794-800。陈强老师的《高级计量经济学及stata应用(第二版)》(高等教育出版社,2014)pp546-555。 3、《倾向值匹配法的概述与应用:从统计关联到因果推论》,作者:苏毓淞 4、《倾向值分析:统计方法与应用》 ,对倾向值分析的起源、原理、应用和示例做了详细的介绍,并提供了数据和软件代码(Stata)。该书为译文,英文著作已在2014年推出第版《Propensity Score Analysis: Statistical Methods and Applications 2nd Edition》,对新的方法进行了更新,内容也更丰富,应该是目前关于倾向值分析最详细的教材。第二版的数据和代码见:http://ssw.unc.edu/psa/home 5、 Randolph J J, Falbe K, Manuel A K, et al. A Step-by-StepGuide to Propensity Score Matching in R.[J]. Practical Assessment Research & Evaluation, 2014, 19. R软件MatchIt包的简易教程,对结果的讲解较详细,可实现常用倾向值分析的功能。 6、MatchIt: Nonparametric Preprocessing for Parametric Causal Inference R软件MatchIt包教程的详细版,对参数设置和原理进行了解释,并提供操作的语法示例。 7、 黄福强,杜春霖,孙梦辉,等. 倾向评分配比在SPSS软件上的实现[J]. 南方医科大学学报,2015,(11):1597-1601. 8、Card, D., Krueger, A.B., 1994. Minimum Wages and Employment: A Case Study of the FastFood Industry in New Jersey and Pennsylvania. American Economic Review 84, 772–93.
3.3.3 值得推荐的Stata倾向匹配得分安装包
在Stata中现在进行倾向匹配得分估计的主要命令为:
psmatch2、pstest、psgraph。
首先我们介绍一下psmatch2命令
http://ideas.repec.org/c/boc/bocode/s432001.html
psmatch2:由挪威奥斯陆大学( University of Oslo)经济学家Edwin Lueven博士和英国伦敦财政研究院( Institute of Fiscal Studies)资深研究员 Barbara Sianesi博士所共同撰写( Lueven and Sianesi,2015)。可以实现的匹配方法有1对1和1对多最近邻匹配法、半径匹配法、核匹配法、马氏距离匹配法等匹配方法,并可以实现匹配后平衡情况的检验,以及匹配后处理效用的估算。
pscore
http://www.lrz-muenchen.de/~sobecker/pscore.html
pscore:由英国华威大学(University of Warwick)经济学家Sascha O.Becker博士和意大利欧洲大学研究院经济学家Andrea Ichino博共同开发( Becker and Ichino,2002)。可以实现的匹配方法有1对1和1对多最近邻匹配法、半径匹配法、核匹配法、子分类匹配法等匹配方法,并可以实现匹配后处理效用的估算。
Becker, S.O. and Ichino, A. (2002). Estimation of average treatment effects based on propensity scores (2002) The Stata Journal - 2(4): 358-377.
k:1 matching, radius (caliper) matching, and stratification (subclassification)
For estimating the ATT
pstest以及psgraph为psmatch2估计后的相关检验命令,具体语法格式为:
psmatch2 treated age gender foreign exper, outcome(wage) ate
pstest
pstest, both
pstest, both atu
论文推荐:
r&d补贴政策激励机制的重新审视——基于外部融资激励机制的考察 智慧城市建设能否降低环境污染 社会保障与经济增长:基于拟自然实验的分析 产业政策与企业跨行业并购:市场导向还是政策套利 ceo复合型职业经历、企业风险承担与企业价值 国家级新区对区域经济增长的带动效应——基于70大中城市的经验证据 “营改增”促进了制造业与服务业融合发展吗 专利质押、融资约束与企业劳动雇佣 数字化转型是否促进了企业内共同富裕?
3.4 Heckman与处理效应模型
对于样本选择偏差导致的估计偏误,将使用样本选择模型(Sample Selection Model)来缓解。
样本选择偏差与样本选择模型(或称Heckman两步估计法、Heckit)由诺贝尔经济学奖获得者Heckman教授于1979年提出。
对于自选择偏差导致的估计偏误,将使用处理效应模型(Treatment Effects Model)来缓解
论文推荐:
推荐4篇《数量经济技术经济研究》2023年第10期论文_合成DID、培根分解、渐进DID、工具变量法、Heckman、PSM等 (qq.com)
《数量经济技术经济研究》上8月22日最新工具变量法、Heckman模型、多时期DID、PSM方法论文 (qq.com)
《数量经济技术经济研究》2023年第10期:共同机构所有权可以促进企业升级吗?
《中国工业经济》部分论文
数字化转型的客户传染效应——供应商创新视角,2022/08
数字化转型、融入全球创新网络与创新绩效,2022/10
企业持股金融机构如何服务实体经济——基于供应链溢出效应的视角,2021/11
3.5 面板数据模型(Panel Data)/固定效应
面板数据,简言之是时间序列和截面数据的混合。严格地讲是指对一组个体(如居民、国家、公司等)连续观察多期得到的资料。所以很多时候我们也称其为“追踪资料”。近年来,由于面板数据资料获得变得相对容易,使得其应用范围也不断扩大。
采用面板数据模型进行分析的主要目的在于两个方向:一是控制不可观测的个体异质性,包含两个方面:一是由于民族习惯、风俗文化而形成的、不随着时间移动而改变的个体效应。二是在特定年份而出现的时间效应;二是描述和分析动态调整过程,处理误差成分。使模型包含的信息量更大,降低了变量间共线性的可能性,增加了自由度和估计的有效性。
面板数据,即Panel Data,是截面数据与时间序列综合起来的一种数据资源。在分析时,多用PanelData模型,故也被称为面板数据模型。它可以用于分析各样本在时间序列上组成的数据的特征,它能够综合利用样本信息,通过模型中的参数,既可以分析个体之间的差异情况,又可以描述个体的动态变化特征。
面板数据基本上可以认为是同一个截面的观测样本在不同时间节点的重复测量和记录;或者同样也可以认为是若干个结构、记录时间、记录选项相同的时间序列数据的复合结构。因此,在针对面板数据进行分析时候,通常可以使用截面数据的一些方法,同样也可以使用时间序列的一些方法。方法之间的共通性在这一“混合”类型的数据中体现的还是十分明显的。
面板数据模型的一般形式如下:𝑦_𝑖𝑡=∑1_(𝑘=1)^𝐾▒𝛽_𝑘𝑖𝑡 𝑥_𝑘𝑖𝑡+𝑢_𝑖𝑡
其中,i=1,2,3....N,i 表示 N 个个体,t=1,2,3....T,t表示已知的 T 个时点。
yit是被解释变量对个体i 在 t 时的观测值;Xkit 是第k 个非随机解释变量对于个体 i 在 t 时的观测值;kitβ是待估计的参数;uit 是随机误差项
Stata命令为:xtreg
【Stata教程】面板数据之固定与随机效应汇总 (qq.com)
短面板数据学习手册(固定效应与随机效应等汇总) (qq.com)
长面板数据学习手册(组间同期相关、组间异方差、组内自相关) (qq.com)
3.6 自然实验--双重差分
现代计量经济学和统计学的发展为我们的研究提供了可行的工具。倍差法来源于计量经济学的综列数据模型,是政策分析和工程评估中广为使用的一种计量经济方法。主要是应用于在混合截面数据集中,评价某一事件或政策的影响程度。该方法的基本思路是将调查样本分为两组,一组是政策或工程作用对象即“作用组”,一组是非政策或工程作用对象即“对照组”。根据作用组和对照组在政策或工程实施前后的相关信息,可以计算作用组在政策或工程实施前后某个指标(如收入)的变化量(收入增长量),同时计算对照组在政策或工程实施前后同一指标的变化量。然后计算上述两个变化量的差值(即所谓的“倍差值”)。这就是所谓的双重差分估计量(Difference in Differences,简记DD或DID),因为它是处理组差分与控制组差分之差。该法最早由Ashenfelter(1978)引入经济学,而国内最早的应用或为周黎安、陈烨(2005)。
常用的倍差法主要包括双重倍差法和三重倍差法。双重差分法(Difference-in-difference,DID)有几种其他的称谓:倍差法、差分再差分等。该方法的原理非常简单,它要求数据期至少有两期,所有的样本被分为两类:实验组和控制组,其中实验组在第一期是没有受到政策影响,此后政策开始实施,第二期就是政策实施后的结果,控制组由于一直没有受政策干预,因此其第一期和第二期都是没有政策干预的结果。双重差分方法的测算也非常简单,两次差分的效应就是政策效应。
双重差分法的假定,为了使用OLS一致地估计方程,需要作以下两个假定。
假定1:此模型设定正确。特别地,无论处理组还是控制组,其时间趋势项都是。此假定即“平行趋势假定”(parallel trend assumption)。DID最为重要和关键的前提条件:共同趋势(Common Trends)
双重差分法并不要求实验组和控制组是完全一致的,两组之间可以存在一定的差异,但是双重差分方法要求这种差异不随着时间产生变化,也就是说,处理组和对照组在政策实施之前必须具有相同的发展趋势。
假定2:暂时性冲击与政策虚拟变量不相关。这是保证双向固定效应为一致估计量(consist estimator)的重要条件。在此,可以允许个体固定效应与政策虚拟变量相关(可通过双重差分或组内变换消去,或通过LSDV法控制)。
DID允许根据个体特征进行选择,只要此特征不随时间而变;这是DID的最大优点,即可以部分地缓解因 “选择偏差”(selection bias)而导致的内生性(endogeneity)。
命令大全
下载安装命令方法为:
ssc install diff, replace 下载安装方法(外部命令)
语法格式为:
diff outcome_var [if] [in] [weight] ,[ options] 模型必选项介绍:
其中“outcome_var”表示结果变量 “treat(varname) ”为必选项,用来指定处理变量 “period(varame)”用来指定实验期虚拟变量(1=实验期,0=非实验期) 可选项介绍: cov(varlist),协变量,加上kernel可以估计倾向得分 kernel, 执行双重差分倾向得分匹配 id(varname),kernel选项要求使用 bw(#) ,核函数的带宽,默认是0.06 ktype(kernel),核函数的类型 qdid(quantile),执行分位数双重差分 pscore(varname) 提供倾向得分 logit,进行倾向得分计算,默认probit回归 ddd(varname),三重差分 SE/Robust cluster(varname) 计算聚类标准误。 robust 稳健标准误
参考文献
2、双重差分案例2:最低工资法能否会降低对低技能工人的需求?
3.7 断点回归
断点回归由Thistlewaite and Campbell(1960)首次使用,但直到1990年代末才引起经济学家的重视。
Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应, 在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。由于奖学金由学习成绩决定,故成绩刚好达到获奖标准与差一点达到的学生具有可比性。如果考试分数大于获奖标准分数, 则进入处理组;如果考试分数小于获奖标准分数, 则进入控制组。因此处理变量在获奖标准分数处形成了一个断点, 该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应。
Angrist and Lavy(1999)在研究班级规模对成绩的影响时,利用以色列教育系统的一项制度进行断点回归;该制度限定班级规模的上限为40名学生,一旦超过40名学生(比如41名学生),则该班级被一分为二。
此后30年, 该方法并未引起学术界的重视,直到1990年以后, 断点回归设计开始被应用于各种领域,并且近年来成为因果分析和政策评估领域最重要的研究方法。
Hahn et al(2001)提供了断点回归在计量经济学理论基础。目前,断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。参见Imbens and Lemieux(2008),Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。
断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的,因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。一般将该连续变量X称为分组变量 (assignment variable) 。
命令大全
断点回归的基本命令是rd,另外,还有一些其他命令,例如rdrobust、rdlocrand、rddensity等等。
RDD: 断点回归命令rdrobust(附rdbwselect、rdplot)及Stata实现
R语言:断点回归(RD)学习手册(包含rdrobust命令详解、设计前提条件内生分组等显著性检验、全套标准动作)
论文推荐:
养老金对缓解农村居民医疗负担的作用——为何补贴收入的效果好于补贴医保,中国工业经济. 2021(04) 数字化转型是否降低企业研发操纵?数量经济技术经济研究. 2023,40(04) 梁文泉,钟瑞婷.城市内的“孟母”:子女随迁如何影响母亲就业决策和性别收入差距?[J].经济学(季刊),2023,23(05):2042-2060.