RDD-断点回归：实践指南

文摘教育 2024-09-13 10:01 山西

👇 连享会 · 推文导航 | www.lianxh.cn

🍎 Stata：Stata基础 | Stata绘图 | Stata程序 | Stata新命令
📘 论文：数据处理 | 结果输出 | 论文写作 | 数据分享
💹 计量：回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归
⛳ 专题：SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析
🔃 因果：DID | RDD | 因果推断 | 合成控制法 | PSM-Matching
🔨 工具：工具软件 | Markdown | Python-R-Stata
🎧 课程：最新专题 | 计量专题 | 关于连享会

🍓 课程推荐：2024 空间计量专题
主讲老师：范巧 (兰州大学)
课程时间：2024 年 10 月 2-4 日 (三天)
课程咨询：王老师 18903405450（微信）

课程特色 · 2024空间计量：

👉 一、从“零基础”到“高水平”的课程设计

兼顾基础知识、主流模型与前沿模型
既考虑软件安装、程序编写以及空间权重矩阵设计等 基础知识 讲授，更强调时空面板地理加权回归模型、贝叶斯空间计量模型、矩阵指数模型、空间计量交互模型与空间面板似不相关回归模型等 前沿模型 的传授。

👉 二、“保姆级”的空间计量代码

编写与校准所有模型的MATLAB代码，简化实操环节
模型的估计与检验等 仅按照提供的Excel数据版式 搜集与整理原始数据，即可一次性出结果并作图。

👉 三、“最多上新” 的内容体系

新增矩阵指数模型、短面板空间似不相关模型、空间计量交互模型、贝叶斯空间计量模型等
新增前沿应用案例，包括空间计量与索洛余值法、随机前沿分析与数据包络分析等的互嵌研究，阐释基于空间计量的产业空间结构优化评价方法。
新增 Dagum空间基尼系数、核密度估计、空间马尔科夫链与空间收敛性等内容，阐释现实研究中对空间收敛性的应用“谬误”。

作者：王曦池 (中山大学)
邮箱：649039475@qq.com

温馨提示： 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码，直达原文：

编者按：本文主要摘译自下文，特此致谢！
Source：Valentim V, Núñez A R, Dinas E. Regression discontinuity designs: a hands-on guide for practice[J]. Italian Political Science Review/Rivista Italiana di Scienza Politica, 2021, 51(2): 250-268. -PDF-

1. 背景介绍
2. 我们为什么需要 RDD？
3. RDD 该怎么做？

3.1 识别 (Identification)
3.2 估计 (Estimation)

4. 实证指南

4.1 测试清单
4.2 软件工具

5. 灵感

5.1 选举胜利的门槛
5.2 固定的议会门槛
5.3 人口阈值
5.4 年龄不连续
5.5 空间上的不连续性

6. 总结
7. 相关推文

1. 背景介绍

Valentim 等 (2021) 为学术界在应用研究中使用 RDD 提供了一个基于直觉、面向实践的指南。本文介绍了 RDD 基本的工作原理，提供了帮助进行稳健性检验的检查表，并简要介绍了一些应用 RDD 的阅读清单，帮助你激发灵感。该指南技术性较低，目的在于为 RDD 初学者提供垫脚石，很适合初学者的快速入门。

2. 我们为什么需要 RDD？

当我们想考察任期对之后的选举结果的影响时，我们该如何做？

直接回归：你首先可能会想到将之后的选举结果设定为一个虚拟变量，1 表示选举胜利，0 表示选举失败。这样的设定会产生一些问题：那些能获得选举成功的人，可能在能力方面和未获得成功的人有差别，而这些能力方面的差别将同样影响之后的选举结果。

加入控制变量：接下来，我们很容易想到通过加入控制变量，来解决直接回归导致的问题。但是，现实中总有因素无法度量或观测，我们永远无法自信地说出：自己已观测和控制了所有可能影响选举结果的因素。

将结果随机分配给样本：从理论上讲，一种可行的方法是抽取政治家的样本，随机赋予其中一半人赢得选举，另一半人输掉选举，然后测量他们在选举中的表现。这种方法可以将所有混杂变量的中心趋势在预期中跨组收敛到相同的值。但在现实中，就像是我们无法对实验对象随机施加暴力一样，这样的做法是不道德、不可行的。

RDD：前面三种方法都各有缺点，那么面对这类问题，我们该如何研究呢？RDD 或许是一个不错的选择。RDD 是被认为最接近随机实验的检验方法，能够缓解参数估计的内生性问题。

Lee (2001) 使用 RDD 的思路估计在任对连任的影响。进入 21 世纪以来，RDD 在社会科学中越来越常见，每当存在有一个固定的 门槛/分界点 能够划定实验组与对照组时，RDD 就会被考虑使用。和其它方法相比，它具有以下优势：

RDD 的排除性约束更可能成立；
在恢复实验基准性方面表现得很好。

3. RDD 该怎么做？

RDD 的底层逻辑是：在分界点上，除了我们关心的处理效应 (treatment) 外，没有其他因素 (个人能力、资金等) 会导致结果跳跃。这意味着在分界点两侧，即接近胜选 (但落选) 和恰好胜选的实验对象，是良好的反事实估计。

接下来的例子使用 Dinas 等 (2015) 的原始数据，本例和第一部分提出的问题相似，试图解决在多党制下，小党的议会代表权是否使他们更有可能在随后的选举中取得成功。下图为该例子的图形结果：

下面我们主要从 RDD 的识别和估计两个步骤展示 RDD 过程，最后再简要介绍模糊 RDD 的两阶段。

3.1 识别 (Identification)

3.1.1 基本概念

RDD 所需的唯一假设，要求潜在结果在 treatment 附近连续平滑移动。根据这一假设，发生在不连续点的唯一变化是治疗状态的转变

横轴：运行变量/配置变量 (running variable)，在本例中为政党在届选举中的得票率。如下图，其中分界线 (cutoff) /门槛 (threshold) 决定了属于实验组/处理组 (treatment group) 还是对照组 (control group) ，变量值取决于实际得票率与门槛间的距离

纵轴：结果 (outcome) ，在本例中为政党在届选举中的得票率。大写字母 () 为随机变量，小写字母()为实际值。

因果效应：为两个潜在结果间的差异，是我们在研究中真正关注的效应。。

我们最多观察到两个潜在结果中的一个。故为了解决这个问题，我们常观察群体层面的影响，即估计和观察以下效果：

平均控制效果 (ATE) =。
实验组的平均控制效果 (ATT) =。
对照组的平均控制效果 (ATC) =。

3.1.2 识别效应

现在我们知道了 RDD 的一些基本设定，那么，我们如何识别我们期望得到的效应 τ 呢？

由RDD的连续性假设知，潜在结果会在分界点 (c) 区域平稳移动。
回到例子中，我们通过比较刚刚超过选举门槛的政党和刚刚低于门槛的政党，便可以确定进入议会对随后的选举成功的影响:

又因为当时，我们不能同时观察和，故实践中，我们可以实际得出的效应是：

3.2 估计 (Estimation)

当我们识别完成这个效应后，我们又该如何估计这个效应的大小呢？下面我们将从参数估计、非参数估计两个角度估算效应。虽然参数化方法更加直观，但我们更建议大家关注非参数估计。

3.2.1 参数估计 (Parametric estimation)

逻辑：估计当运行变量收敛为零时，函数右极限和左极限之间的差异。下表为式 1-3，我们将逐步改进函数形式，放松潜在假设，得出更完善、通用的 X 与 Y 间的函数关系。

注意：对于参数估计，我们真正感兴趣的是，它提供了时，对的影响。

3.2.2 非参数估计 (Non-parametric estimation)

逻辑：对于非线性问题，不用多项式去逼近，而是通过关注分界点左右的小区域，消除非线性的可能性。是一种局部线性回归。对于本文的例子而言，即仅关注在届选举中，得票率接近分界点 () 政党——例如 ±1%。

带宽 (bandwidth)：选择观测的范围。对带宽的选择，涉及偏差—方差权衡 (bias-variance tradeoff)。

3.3 模糊 RDD (fuzzy RDD)

到目前为止，我们只考虑了以下情况：用给定的分界点决定实验组和对照组的划分。但在实际情况中，分界点不总是能确定的分配 treatment or control。例如，在分界点左侧的政党可能属于同一个联盟，而联盟作为整体达到了分界线。故这类政党尽管未能达到分界线 (选举门槛)，但还是得到了待遇 (进入议会)。

逻辑：分界点不是确定地分配组别，仅改变成为实验组的概率。高于临界点的进入实验组的概率较高，低于临界点的进入对照组的概率较高。

模糊 RDD 假设：

连续性假设；
第一阶段中
在分界点影响的唯一因素是 treatment 的概率变化。

模糊 RDD 的两阶段步骤：

4. 实证指南

4.1 测试清单

接下来，我们将提供一个检查表，并简要介绍其原因、方法和注意事项，帮助使用者们了解他们应该在使用 RDD 中进行的主要稳健性检查。

绘制出与阈值距离有关的分布条件：绘制原始数据已逐渐成为 RDD 中的标准做法。帮助直观的感觉到分界点周围的不连续性。

方法：在轴上画出因变量的局部平均数与轴上的运行变量的对比图，同时在轴的分界点两侧画出拟合线。Calonico 等 (2015) 开发的 rdrobust 软件包，可以轻松绘制上述图像。
注意：(1) 采用灵活的回归模型 (多项式)，(2) 注意选择统计堆 (bin) 的大小。

注重非参数模型：参数估计使用全样本，对远离分界点的观测值给予了过多的权重，可能使估计结果产生较大噪声(Gelman 和 Imbens，2019)。

显示使用不同带宽的结果：理想情况下，估计系数值不会受带宽的影响 (但可能损失统计精度)。报告一个有大量带宽的图(集中在最佳带宽附近的 0.5-2 倍)。具体来说，可以在轴上报告带宽，在轴上报告 LATE，以及置信区间。

进行操纵测试：由于发生了自我选择，使存在操纵行为 (manipulation)。导致不能再假设围绕阈值“跳跃”的唯一东西是概率。这会混淆人们感兴趣的估计关系。方法包括 (1) 对分类的初步检验 (McCrary，2008)；(2) 使用 RDD 包实现 (推荐)。

使用安慰剂结果进行重复分析：RDD 要满足连续性假设，研究者应使用安慰剂检验证明 (至少) 重要观察变量不会出现不连续。方法是用这些观察变量取代结果变量。

使用安慰剂分界点进行重复分析：根据连续性假设，除了阈值附近的变量外，结果变量不应出现跳跃。进行多次安慰剂阈值测试，可增强结果的可信度。方法使用实际阈值以外分界点来重复分析。

效果的异质性需要谨慎对待：通常面对异质性，会使用交互项解决问题。但是在 RDD 中，这种方法不再奏效，甚至会导致严重的过度预测问题。方法包括：(1) 依照 Abadie (2005) 中的倾向得分加权法；(2) Gerardino 等 (2017)、Hsu 和 Shen (2019) 提供了一个 Stata 软件包 rddsga。

4.2 软件工具

对于参数化估计，不需要使用特定的软件包，其研究思路沿袭 OLS 回归。

对于非参数化估计，常使用软件包 rdrobust 实现。

主要命令为 rdrobust，可输出常规 (conventional)、偏差校正 (bias-corrected)、稳健 (robust) 这三种结果；
命令 rdplot，可绘制图表；
命令 rdensity，估计断点附近样本单位的密度；
选项 fuzzy，可将默认的清晰 RDD 调节为模糊 RDD。

5. 灵感

这一部分将提供了 5 个使用 RDD 的经典场景，每个场景中又将分为不同的研究方向。我们将简要分析每种场景中使用 RDD 设计的背后逻辑，并介绍一些使用这种设计来回答不同研究问题的论文。

5.1 选举胜利的门槛

逻辑：政治学中最常用的 RD 设计之一是由选举结果产生的不连续性。某一政党的得票率是连续的，研究人员可以利用选举胜利门槛 (通常是 50% 的选票) 附近的跳跃来估计这种胜利对感兴趣结果的影响。

研究方向1：在职优势的影响

Lee (2001) 研究了在职优势的影响，由于选举胜利可能受到其他因素的影响，故本文使用 RDD，通过利用狭义选举胜利产生的不连续性克服内服内生性问题。
Trounstine (2011) 表明，在职优势也延伸到了美国地方政治。
Butler (2009) 表明，在职优势对于非新生代的在职者比新生代的在职者更明显。
Hainmueller 和 Kern (2008) 研究了全球其他地区的效果，表明在职者在混合制度中具有溢出效应——具体来说就是德国的制度。
Uppal (2009) 在印度国家立法选举中发现了相反的效果。在职者在保证其连任时，似乎实际上处于不利地位。

研究方向2：选举胜利对政治精英行为的影响

Thompson (2020) 研究了地方一级的执法是否因执政党的不同而不同。在特朗普政府下，作者在包含 3200 多个党派治安官选举和治安官行为行政数据的新数据集中使用 RDD，研究了遵守联邦要求拘留未经授权的移民的效果，没有发现证据表明民主党的警长比共和党的警长更不可能遵守。
Ruipérez Núñez 和 Dinas (2020) 公共记忆场所在后威权主义西班牙的政治用途。使用 RDD 在 16 年内分析了 5500 个城市后发现，右派以微弱优势获胜的城市更有可能保留暗指右翼独裁者佛朗哥的街道名称，而左派以微弱优势获胜的城市则更有可能删除这些名称。
Huidobro和Falcó-Gimenez (2020) 利用这一设计表明，在西班牙的市政选举中，女性和年轻领导人以微弱优势获胜，被任命为市长的可能性明显低于男性和年长的同行。

研究方向3：担任职务的货币和非货币回报

Eggers 和 Hainmueller (2009) 表明担任公职会对财富产生重大影响。应用匹配和 RDD 将国会议员 (MP) 与以微弱优势失败的议会候选人进行比较，发现在选举中险胜成为英国国会议员的保守党国会议员的财富几乎翻倍，但工党国会议员没有发现这种影响。进一步的研究表明，担任公职也有非金钱上的好处。
Barfort 和 Klemmensen (2017) 分析了政治职位对候选人健康的影响。使用 RDD 利用战后美国州长竞选的数据，表明担任公职会使人的预期寿命增加约 5 年。
Lee 等 (2004) 发现没有证据表明对候选人的选举支持力度会影响其政策的温和性。
Benedictis-Kessner 和 Warshaw (2016) 发现，狭义的民主选举市长会增加该市的支出。
按照类似的思路，Benedictis Kessner 和 Warshaw (2020) 发现，狭义的民主党立法者当选为美国总统，会增加该市的支出。县级政府的公共开支增加 5%。

5.2 固定的议会门槛

逻辑：世界上许多国家都有法律规定的选举门槛，只有跨过这些门槛的政党才能获得议会代表权。这些门槛带来了一个政党进入议会的概率的“跳跃”，研究人员可以利用它来估计议会代表制对一些感兴趣的结果的影响。

研究方向1：跨过选举门槛对之后政治成功的影响

Dinas 等 (2015) 研究了议会代表制对小党生存的影响。利用全球所有包含选举门槛的国家的数据，作者发现，以微弱优势跨过选举门槛会增加特定政党在接下来的选举中的得票率--这种影响大小为作者估计约为两个百分点。
Dinas 和 Foos (2017) 使用类似的设计来研究地方政治对国家层面成功的影响。他们的分析表明，在州选举中越过选举门槛会增加一个政党随后在国家层面的成功。

研究方向2：一个政党在议会中的代表权如何影响其余政党

Abou-Chadi 和 Krause (2018) 研究了激进右翼政党的议会代表对其余政党的政策立场的影响。他们发现，这种代表权使其余政党采取更多的反移民政策立场——这种影响延伸到主流右翼和主流左翼的政党。
Bischof 和 Wagner (2019) 利用这一设计表明，激进右翼政党的基本存在——而不是激进左翼政党的存在——使选民两极化。
Valentim (2021) 使用选举后调查中报告的一个政党的官方投票比例作为结果变量，使用类似的设计来表明，激进右翼的议会代表使激进右翼的支持表达正常化。
Valentim和Dinas (2020) 将这一逻辑从政党层面延伸到了政党体系层面，将选举门槛造成的变化作为特定选举中政党体系分裂的总体水平的工具。在这样做的过程中，他们发现没有证据表明政党制度的分裂会影响大量的民主结果。

5.3 人口阈值

逻辑：许多国家的规则只适用于人口高于某一特定门槛的地区。可以通过比较人口刚刚超过阈值的地区和人口刚刚低于阈值的地区，来确定某种制度的影响。

研究方向1：不同选举规则和民主规则的影响

Fujiwara (2011) 使用这样的设计来实证检验 Duverger 法则，根据该法则，比例制会增加竞选的政党数量。在巴西，登记选民超过 20 万的城市的选举采用双票制，而较小的城市采用单票制，作者利用这一事实发现，双票制减少了对两个更好的候选人的投票。
Eggers (2015) 确定了法国的一项类似法律对投票率的影响，作者估计为 1-1.5 个百分点。
Pellicer 和 Wegner (2013) 在研究选举制度和顾客至上主义时，利用了摩洛哥的一个类似门槛。他们发现，在 PR 制度下，庇护主义模式政党的表现比在多元制度下更差 (赢得约一半的席位)。
Campa (2011) 研究了居民人数超过 5000 人的西班牙城市的强制性性别配额。这种配额使当选的女性政治家的比例增加了 4-6 个百分点，但似乎对市政当局采取的政策没有影响。
Hopkins (2011) 研究了在美国选举中引入西班牙语选票的效果。文章比较了高于和低于法律规定的门槛的县，其中高于门槛的县中，应该提供不同语言的选票。作者发现，西班牙语选票提高了英语水平低的公民的投票率，并减少了对结束双语教育的支持。
Sanz (2019) 利用西班牙居民少于 100 人的城市采用直接民主的事实，研究这种形式的政府对公共部门规模的影响。作者的研究结果表明，直接民主制大大减少了支出和收入。

研究方向2：政治家工资和资源转移的影响

Gagliarducci 和 Nannicini (2013) 利用决定意大利市政府中政治家工资的人口不连续性，来估计工资对政治家表现的影响。他们发现，增加工资会使候选人更有教养，并减少关税、税收、人事和其他支出。
按照同样的推理，De Benedetto 和 De Paola (2014) 将这些不连续因素作为政治家质量的工具，并发现质量较高的政治家会使投票率增加约 2 个百分点。
反过来，Brollo 等 (2013) 研究了收入对政治腐败的影响，使用人口阈值决定了联邦对巴西市政府的转移金额。他们发现，增加 10% 的转移支付会使腐败的衡量标准增加 5-7 个百分点。它还降低了挑战者候选人的质量，这是由他们的教育水平所代表的。

5.4 年龄不连续

逻辑：民主国家的公民在达到法定年龄时获得投票资格，这使年龄略小者和刚刚达到年龄者间产生不连续性。

研究方向：投票的习惯养成的影响

Meredith (2009) 发现，过去的资格显著影响了投票和党派认同的下游概率，这种影响在未来几次选举中持续存在。
Coppock 和 Green (2016) 研究选民投票的习惯形成性质。他们发现，与不符合投票条件的人相比，在时间t有资格投票的个人更有可能在时间投票。
Schulte-Cloos (2019) 首次有资格参与欧洲议会选举对随后的政治兴趣的影响。
Dahlgaard (2018) 将研究扩展到选民家庭的其他成员，发现子女是新获得选举权选民的家庭，投票可能性会增加近 3 个百分点。

5.5 空间上的不连续性

逻辑：一些地理分界线的划分决定了两侧的地区受到不同的历史、政策等的影响，存在不连续性。

研究方向1：冲突地区战争线的影响

Tur-Prats 和 Valencia Caicedo(2020) 沿西班牙内战中的阿拉贡前线 (Aragon front) 设计断点范围，发现战争期间的政治暴力大大降低普遍信任 (generalized trust)。
Fontana 等 (2018) 关注二战中的哥特防线 (Gothic line)，发现受纳粹暴力统治的地区在战后更倾向于对意大利共产党投票。

研究方向2：技术可及性限制的影响

Gonzalez (2021) 研究手机覆盖范围对选举欺诈的影响，发现覆盖率增加将会减少欺诈。
Adena 等 (2020) 使用二战期间美国轰炸机有效范围产生的不连续性分析发现，轰炸大大增加了抵抗活动。

研究方向3：边界和行政区划的影响

Holbein 等 (2019) 发现生活时区线东部 (接近时区线) 的个人的睡眠明显少于西部，同时睡眠不足会减少亲社会行为。
Ferwerda 和 Miller (2014) 关注二战期间法国的维希线 (Vichy line) 发现在边界附近的城市，享有政治权力下放 (自治) 者表现出较低的抵抗水平。

6. 总结

随着 RDD 在学术界变得愈加普遍，我们可查询到的相关资料也往往变得更加高深、更具技术性。而这对于新入门者而言，无疑是筑高了学习门槛。

就像是本文的作者 Vicente Valentim 等一直强调的那样，本文意在抵制这种趋势，提供一个基于直觉的 RDD 介绍。对于新手而言，这篇文章是一个敲门砖，帮助研究者由简入深。对于老手而言，本文更像是一个综合指南，提供测试清单并激发灵感。

总而言之，本文从应用角度入手，指导实践。希望无论你是 RDD 新手还是老手，这篇文章都能帮助到你。

7. 相关推文

Note：产生如下推文列表的 Stata 命令为：
lianxh rdd, m
安装最新版 lianxh 命令：
ssc install lianxh, replace

专题：断点回归RDD

Stata：RDD与RKD的最优模型选择-pzms
Stata论文复现：适用于小样本的RDD
rddensity-RDD中的平滑性检验和操纵检验
倒U型+RDD：利用断点回归检验 U 形关系
Stata：RDD-DID-断点回归与倍分法完美结合
RDD断点回归：多个断点多个分配变量如何处理
当PSM遇上RDD：rddsga命令详解
Stata+R：一文读懂精确断点回归-RDD
RDD：离散变量可以作为断点回归的分配变量吗？
rddensity, lpdensity无法安装？那就手动安装
RDD：断点回归可以加入控制变量吗？
断点回归RDD：样本少时如何做？
Stata：断点回归分析-RDD-文献和命令
Stata：RDD-中可以加入控制变量
Stata：两本断点回归分析-RDD-易懂教程
Stata：时间断点回归RDD的几个要点
Stata：断点回归分析-(RDD)-文献和命令
Stata：断点回归RDD简明教程
RDD：断点回归的非参数估计及Stata实现
Stata: 两本断点回归分析 (RDD) 易懂教程
Stata: 断点回归 (RDD) 中的平滑性检验
Stata 新命令：多断点 RDD 分析 - rdmc
RDD 最新进展：多断点 RDD、多分配变量 RDD

🍓 课程推荐：2024 空间计量专题
主讲老师：范巧 (兰州大学)
课程时间：2024 年 10 月 2-4 日 (三天)
课程咨询：王老师 18903405450（微信）

尊敬的老师 / 亲爱的同学们：

连享会致力于不断优化和丰富课程内容，以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求，我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中，分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源，将直接影响到我们课程的改进和创新。我们期待您的反馈，因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间，与我们共同塑造更加精彩的学习旅程！https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见！

New！ Stata 搜索神器：lianxh 和 songbl GIF 动图介绍
搜：推文、数据分享、期刊论文、重现代码 ……
👉 安装：
. ssc install lianxh
. ssc install songbl
👉 使用：
. lianxh DID 倍分法
. songbl all

🍏 关于我们

连享会 ( www.lianxh.cn，推文列表) 由中山大学连玉君老师团队创办，定期分享实证分析经验。
直通车： 👉【百度一下：连享会】即可直达连享会主页。亦可进一步添加「知乎」,「b 站」,「面板数据」,「公开课」等关键词细化搜索。

http://mp.weixin.qq.com/s?__biz=Mzk0MDI1NTgyOQ==&mid=2247577723&idx=3&sn=cfd0616638f3f020560409d0f670d5fd

连享会

连玉君老师团队分享，主页：lianxh.cn。白话计量，代码实操；学术路上，与君同行。