RDD：离散变量可以作为断点回归的分配变量吗？

文摘教育 2024-11-17 22:01 中国

👇 连享会 · 推文导航 | www.lianxh.cn

🍎 Stata：Stata基础 | Stata绘图 | Stata程序 | Stata新命令
📘 论文：数据处理 | 结果输出 | 论文写作 | 数据分享
💹 计量：回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归
⛳ 专题：SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析
🔃 因果：DID | RDD | 因果推断 | 合成控制法 | PSM-Matching
🔨 工具：工具软件 | Markdown | Python-R-Stata
🎧 课程：最新专题 | 计量专题 | 关于连享会

🍓 课程推荐：2024 机器学习与因果推断专题
主讲老师：司继春 (上海对外经贸大学) ；张宏亮（浙江大学）
课程时间：2024 年 11 月 9-10 日；16-17日
课程咨询：王老师 18903405450（微信）

课程特色 · 2024机器学习与因果推断：

懂原理、会应用。本次课程邀请了两位老师合作讲授，目的在于最大限度地实现理论与应用的有机结合。为期四天的课程，分成两个部分：第一部分讲解常用的机器学习算法和适用条件，以及文本分析和大语言模型；第二部分通过精讲 4-6 篇发表于 Top 期刊的论文，帮助大家理解各类机器学习算法的应用场景，以及它们与传统因果推断方法的巧妙结合。
以 Top 期刊论文为范例。目前多数人的困惑是不清楚如何将传统因果推断方法与机器学习结合起来。事实上，即便是 MIT 和 Harvard 的大牛们也都在「摸着石头过河」。为此，通过论文精讲和复现来学习这部分内容或许是目前最有效的方式了。张宏亮老师此前在浙江大学按照这一模式教授了「因果推断和机器学习」课程，效果甚佳：学生们能够逐渐建立起研究设计的理念，并在构造识别策略时适当地嵌入机器学习方法。

作者：邱紫烨（中山大学）
邮箱：qiuzy@mail2.sysu.edu.cn

编者按：本文主要参考自下文，特此致谢！
Source: Kolesár M, Rothe C. Inference in regression discontinuity designs with a discrete running variable[J]. American Economic Review, 2018, 108(8): 2277-2304. -PDF- R-Data-Prog

1. 背景介绍
2. RDD 理论回顾以及存在问题
3. 数理证明
4. 置信区间的性质
5. 真实置信区间
6. RDHonest 命令介绍及 R 语言使用示例
7. 参考资料
8. 相关推文

温馨提示： 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码，直达原文：

1. 背景介绍

谢谦等 (2019) 对目前学术界断点回归 (regression-discontinuity designs) 的应用进行了综述，但他们侧重于经济学的五大顶级期刊上已使用的 RD 方法，对于未出现的多配置变量 RDD、分位数 RDD、拐点回归设计、多断点 ED、以及离散型配置变量 RDD 等方法并未作详细介绍。为补充相关内容，我们将在本文中简要介绍 RDD 的最新进展——离散型变量配置 RDD。

2. RDD 理论回顾以及存在问题

断点回归是一种随机试验，其接受处置的概率是一个或者几个变量的间断函数。断点回归可以分为两类：

一是拥有确定的临界值 (Sharp RDD)，即在临界值一侧的所有观测点都接受了处置，反之，在临界值另一侧的所有观测点都没有接受处置；
二是临界点是模糊的 (Fuzzy RDD)，即在临界值附近，接受处置的概率是单调变化的。

Hahn 等 (2001) 证明了在一定的假设下，无论是哪一类型的断点回归，都可以利用临界值附近样本的系统性变化来研究处置与否和经济变量变动的因果关系，并提出了相应的估计方法。由此，断点回归在经济学中的应用逐渐普及开来。

估计 ATE (Average Treatment Effect) 的经典方法是多项式回归，即选取一定的带宽，并对临界值两边窗口内的经济变量进行线性回归，根据临界值附近经济变量值的跳跃估计平均处置效应。然而，由于真实的条件期望函数往往不是线性的，因而估计出的 ATE 往往是有偏误的。如果选取的带宽足够小，这种估计偏误可以忽略不计，从而可以使用基于 EHW 异方差稳健标准误的置信区间进行因果推断。

反之，由于变量间的数值差距过大，研究者就需要选择一个大的带宽以获得足够多的观察值，此时估计偏误就不能忽略不计了。例如学生的分数、学校的入学率、公司的员工数量以及个人出生年份等。现有研究主要通过对变量进行聚类来解决这个问题，即将值相同的变量聚类，并通过构造类稳健的标准误来估计处置效应的方差。

但是，在离散型变量的情形中，这种聚类的方法可能无法解决 ATE 的估计偏误问题，具体来看：

根据 2003 年至 2005 年人口普查数据，以 40 岁为临界值，绘制年龄 (横轴) 与时薪取对数 (纵轴) 之间的关系。可以发现，在临界值两端的时薪取值并没有明显的跳跃，说明平均处置效应不存在。接着，对人口普查数据进行小样本随机抽样 (样本量分别取 100、500、2000、10000)，并且每个子样本都按下式进行 OLS 估计：

通过估计上式，可以得出临界值附近的处置效应。又由上图可知，临界值两端的经济变量并不是完全的线性的，故 OLS 估计必然存在一定的偏误，且随着带宽的变动而发生改变。

为了进一步评估系数估计的准确性，原文还计算了每一个子样本的 CRV 和 EHW 标准误。由于模型存在估计偏误的问题，因此 EHW 标准误构造的置信区间只能在小于 95% 的概率下捕捉到这种零值效应，而当方差足够大时，这种估计偏误可以忽略不计。此外，如果将变量聚类是合适的修正偏误的办法，那么 CRV 标准误应当大于 EHW 标准误，并且由 CRV 标准误构造的置信区间应该在大约 95% 的概率水平上捕捉到零值效应。

下表给出了估计的结果，在一次项回归中，保持样本量不变，系数估计存在向下偏误，且 CRV 标准误会随着带宽的增加而逐渐扩大。同时，尽管 CRV 标准误均大于 EHW 标准误，其所构造的置信区间在大样本情况下效果不佳。而在二次项回归中的情形中，保持样本量不变，无论选取的带宽大小如何，CRV标准误均较小，由其构造的置信区间都在 95% 的显著水平之下。

当所估计的模型拥有较小的估计偏误时，标准误也往往较小，但会导致其构造的置信区间相应的缩小，而当聚类数量较小时，这种问题尤为严重。另一方面，当样本量的选取不确定时，往往存在比较严重的估计偏误现象，但此时的置信区间依然很狭窄。

3. 数理证明

在清晰断点回归 (Sharp RDD) 中，从大样本中随机抽取个观察值，和分别为接受和没有接受处置的观察值因变量，为观察值是否接受处置的指示变量，且只有当变量达到经过正态化处理的临界值才会被标记为受到处置，即

若用表示期望值，平均处置效应 (ATE) 的表达式如下：

用来估计 ATE 的方法主要是局部多项式回归。其步骤为先确定带宽和项数，其中，一般取 1 或者 2。然后剔除带宽之外的所有样本，对内的样本进行对的OLS 回归，各个系数的数学表达式如下所示：

在系数估计的基础上，得出的异方差稳健标准误。为了解决离散型断点回归中 EHW 标准误可能存在的问题，引入了 CRV 标准误，并将拥有相同结果的经济变量归为同一类，具体表达式为：

基于 EHW 标准误和 CRV 标准误分别构建出置信区间：

那么，在离散型变量的情况下，基于 EHW 标准误构造的置信区间会产生什么问题呢？在有限样本中，是的渐近无偏估计：

然而，往往是的有偏估计，估计偏误的大小取决于次多项式能够对于的拟合程度。在大样本情形下，EHW 服从标准正态分布，即：

因此，基于 EHW 标准误构造的统计量和置信区间能够用来估计，如果估计偏误能够依样本趋近于 0，即：

那么就能够用这个方法估计，且无论在连续型还是离散型变量的情况下都适用。通过选取一个合适的带宽使得上式成立的过程就是欠光滑过程。但是，如果临界值两端的变量值差距过大，为了拥有足够的样本，研究者不得不选取较大的带宽，使得最后的估计值出现偏误。

为了解决 EHW 标准误在离散型 RDD 中的估计偏误问题，引入了 CRV 标准误，并在随后被广泛使用。首先，令代表次多项式对条件期望的估计偏误，并且令。接着，对于估计窗口内的变量，有：

其中，为真实值与期望值之差，且所有实现值相同的变量有相同的。此时，就变成了一个随机效应，而不是根据误差而发生改变的具体值，即：

其中，是一列独立同分布的零均值随机向量。

4. 置信区间的性质

通过讨论的性质，我们能够了解其对应的置信区间的性质。在第 3 部分讨论基础上，存在常数和，使得当样本逐渐增加时，对每一个在窗口内的变量，有：

在大样本情形下，服从均值为零的正态分布，渐近方差为。其中，。EHW 方差估计值是的一致估计。

正如第 3 部分中所讨论的，在不为 0 的情况下，利用 EHW 标准误构造的置信区间往往会低估，而利用 CRV 标准误构造的置信区间也有相同的点估计，因此，为了让CRV置信区间有正确的覆盖范围，理论上 CRV 标准误平均值应该比 EHW 标准误平均值更大一些。

然而，事实也并非如此。在正确识别的情况下，利用 CRV 标准误构造的置信区间往往会低估平均处置效应，而在错误识别的情况下，存在低估和高估两种可能。的渐近性质取决于估计矩内支持点数量是固定不变的还是会随着样本大小而发生改变。

原文检验了在样本增加情况下保持估计窗口不变的性质，并以此来模拟估计窗口内样本数量较少的情形。实证结果表明，并没有收敛到一个常数，而是收敛到一个非退化极限，这意味着即使在大样本情形下它依然是随机值。根据定理 1，我们能够将与之间的期望差异分解为如下形式：

等式右边第一项是正值，大小取决于错误识别的程度。第二项与错误识别的程度无关，当将估计残差用真实残差值替代时会使第二项变为 0。第二项的符号往往难以判断，因此，需要假设条件方差服从渐近同分布，即，从而使得，将化简后的结果除以，可以得到期望差值的变化率：

由于 EHW 方差估计量是的一致估计，根据上式，可以推断出的值大致是的倍。为了使 CI 置信区间能够很好地反映错误识别的程度，应该为正数，但事实往往并非如此。

首先，项确实是正值，且会随着估计偏误程度的增大而增加。而项在同方差假设下是负值，因为和都是正值，这一假设在轻微异方差的情况下同样成立。而的大小只与连续变量的边缘分布有关，因此，如果误差项的方差非常大的话，就会成为整个式子正负符号的决定项。

此外，还与最高次项系数有关。根据下式可知，项是对的再次加权平均，次项数越高也会随之增加，这也就意味着的增加会增大与之间的期望差异。

最后，与小样本估计下的衰减偏误有一致的趋势。尽管理论上这种估计偏误非常普遍，但它对于小样本估计有很大影响。

总之，理论结果显示，如果错误识别的程度和聚类个数都可以忽略不计的话，CRV 标准误的值会比 EHW 标准误的值更小些。因此，使用连续变量聚类会加剧而不是解决估计偏误的问题，这种情况在正确识别的情形下尤为严重。

接着，原文考察了随着带宽和样本量的增加，的性质会发生什么样的变化，并以此来模拟估计窗口内有大量样本点的情形。随着和的无限增大，会逐渐趋 0，由此我们得出：

这意味着在样本量足够大的情况下，CRV 标准误确实比 EHW 标准误更大些，此时对连续变量进行聚类有更好的估计效果。但这并不意味着 CRV 置信区间能够对所有的期望误差都有正确的估计，只是表明在估计窗口内存在这样一个期望函数集能够得出一致的估计。

但这一函数集包含的内容要远远不止多项式方程，所以这并不能成为使用 CRV 标准误的理由。事实上，任何使得 CRV 置信区间宽于 EHW 置信区间的函数形式 (包括加入一个随机的常数项) 都能带来更好的估计效果。所以，判断基于 CRV 标准误的估计结果是否稳健要看中是否有清晰易解释的条件期望函数，以帮助对做出合理的假设。

然而，的范围受到和的影响，而这取决于连续变量的分布情况。因此，当断点附近的样本量不同时，就算是相同的断点设计可能也会得到不同的结果。

基于这些原因，当样本点数量足够多并且存在估计偏误的可能时，一个科学的对策是选择更小的带宽。此外，原文还提出了利用 “真实置信区间(Honest Confidence Interval)” 推断的方法，以获得良好的估计效果。

5. 真实置信区间

如果的条件期望函数在临界值两端能够随意变动的话，任何一条拟合的直线都能给出一个的预测值，此时难以对 ATE 进行有效且正确的推断。因此，需要对作出进一步限制。假设，其中是一个函数集，并且构造出满足如下条件的置信区间：

其中，表明置信区间的覆盖效果很大程度上受期望函数形式的影响，将其称作真实地反映了的形式，一般来说，置信区间最好能够反映清晰易解释、有意义的函数形式。RDHonest是 R 中的一个包，能够构造出真实置信区间，并通过加入两条约束条件证明能用次多项式进行良好的拟合。

首先对的二阶导形式进行限制，也就是对函数形式的平滑程度进行限制。假设临界值两端的二阶可微，且两端期望函数二阶导的差值为常数。通过假设趋近于 0，可以将函数形式限定较为光滑的线性函数，而大的值则代表着更不光滑的函数形式。只需要假设处处二阶可导，得到如下定义：

基于连续变量的真实置信区间更好构造，用指代处置效应估计系数的条件期望，指代的条件方差的最近邻估计，则估计系数可以表达为如下形式：

其中，是满足的观察值的个数，是条件方差的无偏估计，且。由此，统计量可以由下式得出：

中心极限定理使得上式第一部分在大样本情形下服从标准正态分布，而第二项拥有一个上界值。由于上界值是由决定的，当时为，当时为，可以将第二项的上界值表示为如下形式：

这种对二阶导设定上界值方式可以构造出如下置信区间：

Proposition 1

令指代分布的分位数，那么所构造的置信区间，即下式，是反映的真实置信区间。这一置信区间适用于离散型和连续型两种情形，并且由于考虑进了有限样本情形下估计偏误问题，因此能够适用于不同的带宽。

第二是对临界值的设定误差进行限制，即所选择的临界值在给定带宽内能够得出拟合效果最好的模型，并且临界值的左极限不能大于所有临界值以下的变量的预测误差，临界值的右极限同理。

Proposition 2

利用能够构造出的真实置信区间。

6. RDHonest 命令介绍及 R 语言使用示例

RDHonest 是 R 语言内置的包，能够通过参数设定估计出真实置信区间，下面将对它的具体用法做一个简单的说明。

Stata 用户可以考虑使用 rcall 命令，在 Stata 中调用并执行 R 代码，参见 Rcall：Stata 与 R 的无缝对接。

RDHonest 命令下载

install.packages("remotes") # if not installed
remotes::install_github("kolesarm/RDHonest")
help("RDHonest") #下载后可以进一步阅读帮助文档

语法结构与可选项

RDHonest(
  formula, ## 拟合方程
  data,    ## 数据集
  subset,  ## 可选项，选择子数据集进行拟合
  weights, ## 可选项，各个观察变量的权重
  cutoff = 0,  ## 临界值
  M, ## 条件均值函数二阶导的界限
  kern = "triangular", ## 局部回归中使用的核函数形式，主要包括triangular, uniform和epanechnikov
  na.action,  ## 数据存在缺失值时的常规操作，通常使用na.omit进行清理
  opt.criterion,  ##带宽需要最大化的判断准则，包括MSE、FLCI和OCI
  bw.equal = TRUE, ## 逻辑值，表示临界值两端的带宽是否要相等
  h, ## 带宽的参数
  se.method = "nn",  ## 标准误的估计方法，如果这一项缺失，结果将不予报告
                     ## 常见的方法有nn（近邻法）、EHW、demeaned、plugin和supplied.var等
  alpha = 0.05,  ## 置信水平，1-alpha用以构造置信区间
  J = 3,  ## 使用nn法进行标准误估计时，近邻的数量
  sclass = "H",  ## 平滑类别，T for Taylor， H for Hölder 
  order = 1,  ## 局部回归的项数，1代表线性回归，2代表二次项回归
  se.initial = "EHW" ## 估计原始方差的方法，包括EHW、demeaned、Silverman、SilvermanNN和nn等
)

在清晰断点回归模型中的运用

Oreopoulos (2006) 的文章考察了最小离校年龄的变动对学校参与率和工人收入的影响。其中，最小离校年龄的变动分别发生在 1947 年的大不列颠 (包括英格兰、苏格兰和威尔士) 和 1957 年在北爱尔兰。数据样本为 1935 年-1965 年间年龄在 14 岁的英国工人。

Oreopoulos (2006) 使用了清晰断点回归来估计最低离校年龄的提高对英国工人日后收入的影响，解释变量是工人到达 14 岁的年份，临界值为 1947 年，被解释变量为收入对数，作者基于此构建了如下识别方程：

下面将利用这一数据集和识别方程对 RDHonest 的使用做一个简要介绍。

首先，加载需要的包，并对数据进行预处理和可视化，由于数据集中解释变量为离散型，因此需要计算每个变量的均值，这一操作将通过设定 avg = Inf 来实现，并利用 plot_RDscatter 进行绘图，有时需要对点的大小进行调整。可视化结果如下：

library("RDHonest")
## 数据预处理
#假设第一列是结果，第二列是变量
#Oreopoulos06的数据
# 对收入变量取对数
do <- RDData(data.frame(logearn = log(cghs$earnings),year14 = cghs$yearat14),
             cutoff = 1947)
## 可视化
## Figure 1 : Oreopoulos(2006) data
f2 <- plot_RDscatter(do,avg = Inf, xlab = "Year aged 14",
                     ylab = "Log earnings", propdotsize =  TRUE)
## 根据点的个数调整图像大小
f2 + ggplot2::scale_size_area(max_size = 4)

接着，使用包内置的 RDHonest 和 RDHonestBME 命令对真实置信区间进行估计，并对文章结果进行复现，此处以第 (11) 列为例，其他列的结果可以通过调整参数得到，具体调整方法见下代码：

## Replicate Table2 Column(2)~(7),run local linear 
## 通过调整h的参数为Inf/6/3，调整order的参数为1/2/4，以得到(2)~(7)列的结果
RDHonestBME(log(earnings) ~ yearat14,cutoff = 1947, data = cghs, h = 3, order = 2)
## 结果与Table 2 Column (5) 相一致
Call:
RDHonestBME(formula = log(earnings) ~ yearat14, data = cghs,     cutoff = 1947, h = 3, order = 1)
Confidence intervals:
(-0.06965587, 0.2019889)
## Replicate Table2 Column(8)~(11), run local linear
## 调整M的参数为0.004/0.002/0.04/0.2以得到(8)~(11)列的结果，此处以第(11)列为例
RDHonest(log(earnings)~yearat14,cutoff = 1947, data = cghs,
         kern = "uniform", M = 0.2, opt.criterion = "FLCI",
         sclass = "H")
## 结果与Table 2 Column (11) 相一致
Call:
RDHonest(formula = log(earnings) ~ yearat14, data = cghs, cutoff = 1947, 
    M = 0.2, kern = "uniform", opt.criterion = "FLCI", sclass = "H")
Inference by se.method:
     Estimate Maximum Bias Std. Error
nn 0.07909463    0.2368293 0.06784089

Confidence intervals:
nn    (-0.269323, 0.4275122), (-0.269323, Inf), (-Inf, 0.4275122)
Bandwidth: 2
Number of effective observations: 2017.075 
## 选取triangular作为kernel往往会比选取uniform作为kernel得到更范围更窄的置信区间
RDHonest(log(earnings)~yearat14,cutoff = 1947, data = cghs,
         kern = "triangular", M = 0.2, opt.criterion = "FLCI",
         sclass = "H")
Call:
RDHonest(formula = log(earnings) ~ yearat14, data = cghs, cutoff = 1947, 
    M = 0.2, kern = "triangular", opt.criterion = "FLCI", sclass = "H")
Inference by se.method:
     Estimate Maximum Bias Std. Error
nn 0.08367602          0.2 0.06873519

Confidence intervals:
nn    (-0.2293833, 0.3967354), (-0.2293833, Inf), (-Inf, 0.3967354)

Bandwidth: 2
Number of effective observations: 1696.793

有时，解释变量是作为一个个箱体进入解释方程的，可以通过确定箱体的数量，并对数据集进行处理，具体操作如下:

## 加权回归
d <- cghs
## 生成一个新变量mod取值为0-19
d$mod <- seq_along(d$yearat14)%%20
## 让箱体作为组别和年份的交乘项
d$cell <- d$mod/100 + d$yearat14
## 计算出每个箱体内的平均值
dd <- data.frame()
for (j in unique(d$cell)){
  dd <- rbind(dd,data.frame(y=mean(log(d$earnings)[d$cell == j]),
                            x = mean(d$yearat14[d$cell == j]), weights = length(d$yearat14[d$cell == j])))
}

在模糊断点回归模型中的运用

在 Battistin 等 (2009) 的文章中，解释变量是达到法定退休年龄的时间，处置变量为是否退休的指示变量，临界值取 0。此时，与 RDData 命令类似，FRDData 能够将数据转换为方便进行断点回归的形式：

dr <- FRDData(cbind(logf=log(rcp[,6]),rcp[,c(3,2)]),cutoff = 0)

使用FRDHonest命令，能够构造出真实置信区间，带宽既可以自己设定，也可以让命令自行计算最优带宽。

## 初始带宽,处置效应的初始估计值为0
r <- FRDHonest(log(cn)~retired | elig_year,data = rcp,kern = "triangular", M = c(0.001,0.002),opt.criterion = "MSE",
               sclass = "H",T0=0)
## 初始的处置效应和带宽的估计值如下
Call:
FRDHonest(formula = log(cn) ~ retired | elig_year, data = rcp, 
    M = c(0.001, 0.002), kern = "triangular", opt.criterion = "MSE",     sclass = "H", T0 = 0)
Inference by se.method:
      Estimate Maximum Bias Std. Error
nn -0.08669925   0.04751076 0.06665954

Confidence intervals:
nn    (-0.2445288, 0.07113025), (-0.2438552, Inf), (-Inf, 0.07045669)

Bandwidth: 10.19201
Number of effective observations: 1620.518 
## 自动计算最优带宽（需要提供初始带宽，即将T0=0更换为T0=r$estimate）
r <- FRDHonest(log(cn)~retired | elig_year,data = rcp,kern = "triangular", M = c(0.001,0.002),opt.criterion = "MSE",
               sclass = "H",T0=r$estimate)
## 最优带宽的计算结果如下
Call:
FRDHonest(formula = log(cn) ~ retired | elig_year, data = rcp, 
    M = c(0.001, 0.002), kern = "triangular", opt.criterion = "MSE",     sclass = "H", T0 = r$estimate)
Inference by se.method:
      Estimate Maximum Bias Std. Error
nn -0.09062174   0.04374351 0.07162249
Confidence intervals:
nn    (-0.2535519, 0.07230846), (-0.2521738, Inf), (-Inf, 0.07093029)
Bandwidth: 9.551739
Number of effective observations: 1485.949 
## 自动计算最优带宽（直接使用RDOptBW命令计算）
FRDOptBW(log(cn)~retired | elig_year,data = rcp,kern = "triangular", M = c(0.001,0.002),opt.criterion = "MSE",
         sclass = "H",T0=r$estimate)
## 可以发现两种方法得出的最优带宽是一致的
Call:
FRDOptBW(formula = log(cn) ~ retired | elig_year, data = rcp, 
    M = c(0.001, 0.002), kern = "triangular", opt.criterion = "MSE",     sclass = "H", T0 = r$estimate)
Bandwidth: 9.551739

7. 参考资料

谢谦, 薛仙玲, 付明卫. 断点回归设计方法应用的研究综述[J]. 经济与管理评论, 2019, 35(02):69-79. -PDF-
Kolesár M, Rothe C. Inference in regression discontinuity designs with a discrete running variable[J]. American Economic Review, 2018, 108(8): 2277-2304. -PDF-
Lee D S. Randomized experiments from non-random selection in US House elections[J]. Journal of Econometrics, 2008, 142(2): 675-697. -PDF-
Oreopoulos P. Estimating average and local average treatment effects of education when compulsory schooling laws really matter[J]. American Economic Review, 2006, 96(1): 152-175. -PDF-
Battistin E, Brugiavini A, Rettore E, et al. The retirement consumption puzzle: evidence from a regression discontinuity approach[J]. American Economic Review, 2009, 99(5): 2209-26. -PDF-

8. 相关推文

Note：产生如下推文列表的命令为：
lianxh 断点 RDD
安装最新版 lianxh 命令：
ssc install lianxh, replace

专题：Stata绘图

Stata绘图：世行可视化案例-条形图-密度函数图-地图-断点回归图-散点图

专题：断点回归RDD

rddensity, lpdensity无法安装？那就手动安装
RDD：断点回归可以加入控制变量吗？
断点回归RDD：样本少时如何做？
Stata：断点回归分析-RDD-文献和命令
Stata：两本断点回归分析-RDD-易懂教程
Stata：RDD-中可以加入控制变量
Stata：时间断点回归RDD的几个要点
Stata：断点回归分析-(RDD)-文献和命令
Stata：断点回归RDD简明教程
RDD：断点回归的非参数估计及Stata实现
Stata: 两本断点回归分析 (RDD) 易懂教程
Stata: 断点回归 (RDD) 中的平滑性检验
Stata 新命令：多断点 RDD 分析 - rdmc
RDD 最新进展：多断点 RDD、多分配变量 RDD

🍓 课程推荐：2024 机器学习与因果推断专题
主讲老师：司继春 (上海对外经贸大学) ；张宏亮（浙江大学）
课程时间：2024 年 11 月 9-10 日；16-17日
课程咨询：王老师 18903405450（微信）

尊敬的老师 / 亲爱的同学们：

连享会致力于不断优化和丰富课程内容，以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求，我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中，分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源，将直接影响到我们课程的改进和创新。我们期待您的反馈，因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间，与我们共同塑造更加精彩的学习旅程！https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见！

New！ Stata 搜索神器：lianxh 和 songbl GIF 动图介绍
搜：推文、数据分享、期刊论文、重现代码 ……
👉 安装：
. ssc install lianxh
. ssc install songbl
👉 使用：
. lianxh DID 倍分法
. songbl all

🍏 关于我们

连享会 ( www.lianxh.cn，推文列表) 由中山大学连玉君老师团队创办，定期分享实证分析经验。
直通车： 👉【百度一下：连享会】即可直达连享会主页。亦可进一步添加「知乎」,「b 站」,「面板数据」,「公开课」等关键词细化搜索。

http://mp.weixin.qq.com/s?__biz=Mzk0MDI1NTgyOQ==&mid=2247581703&idx=3&sn=fbba804eb25765d9f12421d5134fe226

连享会

连玉君老师团队分享，主页：lianxh.cn。白话计量，代码实操；学术路上，与君同行。