Stata:系数稳定性分析 - psacalc

文摘   教育   2024-11-13 22:00   山西  


👇 连享会 · 推文导航 | www.lianxh.cn

🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)

 课程特色 · 2024机器学习与因果推断

  • 懂原理、会应用。本次课程邀请了两位老师合作讲授,目的在于最大限度地实现理论与应用的有机结合。为期四天的课程,分成两个部分:第一部分讲解常用的机器学习算法和适用条件,以及文本分析和大语言模型;第二部分通过精讲 4-6 篇发表于 Top 期刊的论文,帮助大家理解各类机器学习算法的应用场景,以及它们与传统因果推断方法的巧妙结合。
  • 以 Top 期刊论文为范例。目前多数人的困惑是不清楚如何将传统因果推断方法与机器学习结合起来。事实上,即便是 MIT 和 Harvard 的大牛们也都在「摸着石头过河」。为此,通过论文精讲和复现来学习这部分内容或许是目前最有效的方式了。张宏亮老师此前在浙江大学按照这一模式教授了「因果推断和机器学习」课程,效果甚佳:学生们能够逐渐建立起研究设计的理念,并在构造识别策略时适当地嵌入机器学习方法。

作者:宋慧慧 (格拉斯哥大学)
邮箱:huihui.song@gla.ac.uk

编者按:本文部分内容摘译自下文,特此致谢!
Source:Oster E. Unobservable selection and coefficient stability: Theory and evidence[J]. Journal of Business & Economic Statistics, 2019, 37(2): 187-204. -PDF-

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


目录

  • 1. 引言

  • 2. 理论介绍

  • 3. 命令介绍

  • 4. 文献案例

    • 4.1 根据 进行稳健性检验

    • 4.2 根据 进行稳健性检验

    • 4.3 根据 进行检验

  • 5. 相关推文



1. 引言

在实证分析中,我们总是无法将全部控制变量加入到回归方程中,进而不可避免的会面临遗漏变量导致的内生性问题。一个常用的解决方法是系数敏感性分析,即加入新的可观测变量,如果处理效应系数仍然稳定,那么就认为遗漏变量造成的偏差较小。不过,以往文献对系数敏感性的分析,大都忽略了 所反映的信息。

为此,Oster (2019) 基于处理效应与不可观测变量的关系可以由处理效应与可观测的变量的关系推出这一假设,完善了遗漏变量偏差的稳健性检验方法。

2. 理论介绍

其中, 是因变量, 是处理变量, 为可观测变量的线性组合, 为不可观测变量的线性组合, 是误差项。Oster 方法使用可观测变量与 之间相关性信息来计算不可观测变量与 之间的相关性,以估计遗漏变量导致的偏误大小。具体来看,处理效应的无偏估计为:

其中, 由方程 得到,即只包含处理效应。 由方程 得到,即同时包含处理效应和可观测变量。 由方程 得到,即同时包含处理效应、可观测控制变量、以及不可观测控制变量。

从式 (2) 中可以看出,偏差的大小 不仅取决于可观测变量对 的影响( 的差值),还取决于可观测变量对 的解释能力 ( 之间的差值) 相对于不可观测变量对 的解释能力 ( )。因此,即使在 相对稳定的情况下,如果 远大于 ,那么也会造成很大的偏差。当然,在 不稳定的情况下,如果 很小,偏差也会很小。

使用 Oster 方法,需要设定两个关键参数,分别是可观测变量与不可观测变量的比例 ,以及模型最大的 。第一个参数 是方程的选择比例系数,即 定义了不可观测变量相对于可观测变量的重要性。当 时,可观测变量和不可观测变量同等重要,且对 的影响方向相同;当 时,不可观测变量不如可观测变量重要 (当 时相反)。

第二个参数 ,即式 (1) 的 度量了可观测变量和不可观测变量对 的解释能力。如果 没有测量误差, 可以接近 1,但不会小于

对于未知参数 ,Oster 认为 ,因为可观测变量的选择是基于他们是最重要的控制这一事实。换句话说,不可观测变量对结果的影响不太可能比可观测变量的影响还大。类似地,基于模拟分析,Oster 给出了 的有效边界,即 。当然,由于 的变化中可能存在一些测量误差,并且这些误差不能完全由可观测和不可观测变量来解释,故

3. 命令介绍

psacalc 命令安装:

ssc install psacalc, replace 

psacalc 命令语法:

psacalc estimate varname [, options]

其中,estimate 对应如下选项:

  • beta:计算处理效应,默认值为 0;
  • delta:计算选择比例系数 ,默认值为 1。

options 如下:

  • mcontrols(varlist):不相关的控制变量包含在所有回归中;
  • rmax(#) 的值,默认值为 1;
  • model(command)regressaregxtreg 等;
  • delta(#):计算 值;
  • beta(#):计算 值。

具体的用法如下:

. sysuse auto.dta, clear
. regress price foreign mpg weight headroom trunk

. * 获得 beta, 假设 delta 等于 1, 因此认为可观测变量与不可观测变量重要性相同
. psacalc beta weight

. * 获得 beta, 假设 delta 等于0.5, 因此认为不可观测变量的重要性小于可观测变量
. psacalc beta weight, delta(0.5)

. * 获得 delta, 假设处理效应为 0
. psacalc delta weight

. * 获得 delta, 假设处理效应为 5
. psacalc delta weight, beta(5)

. * 获得 delta,假设处理效应为 5, 假设 rmax 为 0.7, 将 foreign 视为不相关的控制变量。
. psacalc delta weight, beta(5) rmax(0.7) mcontrol(foreign)

. * 通过 bootstrap 方法获得模型的标准误
. bs r(delta), rep(100): psacalc delta weight, model(regress price foreign mpg weight headroom trunk)

4. 文献案例

在实际应用中,有三种方法可以进行稳健性检验:

  • 检验 的取值范围。给定 的值,并计算在 的情况下 的值。例如,,表明不可观测变量的重要性需要是可观测变量的两倍时,才会产生零处理效果,这是很难成立的。因此,我们一般认为 的值大于等于 1 时,系数是稳定的;
  • 检验 的取值范围。给定 的值,并计算 的取值范围。然后,将   的取值范围与 0 进行比较。如果区域中不包含 0 值,则表明系数是稳定的;
  • 检验 的取值范围。给定 ,计算 的值,来讨论不可观测变量的解释能力。

在实际应用中,文献大多采取一种方式进行稳健性检验。

4.1 根据 进行稳健性检验

Satyanath S, Voigtländer N, Voth H J. Bowling for fascism: Social capital and the rise of the Nazi Party[J]. Journal of Political Economy, 2017, 125(2): 478-526. -PDF-

. reg pcNSentry_std clubs_all_pc lnpop25 share_cath25 bcollar25
. psacalc clubs_all_pc delta // 在处理效应为 0 时, delta 的值

Source | SS df MS Number of obs = 227
-------------+------------------------------ F( 4, 222) = 16.39
Model | 51.5480308 4 12.8870077 Prob > F = 0.0000
Residual | 174.566142 222 .786333974 R-squared = 0.2280
-------------+------------------------------ Adj R-squared = 0.2141
Total | 226.114173 226 1.00050519 Root MSE = .88675
------------------------------------------------------------------------------
pcNSe~ry_std | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
clubs_all_pc | .1602746 .0461211 3.48 0.001 .0693834 .2511657
lnpop25 | .1754246 .0602341 2.91 0.004 .0567208 .2941284
share_cath25 | -.93368 .1858638 -5.02 0.000 -1.299963 -.5673968
bcollar25 | -2.774246 .5570941 -4.98 0.000 -3.872115 -1.676376
_cons | -.6848404 .7248382 -0.94 0.346 -2.113284 .7436037
------------------------------------------------------------------------------

---- Bound Estimate ----
-------------+----------------------------------------------------------------
delta | -1.07120
-------------+----------------------------------------------------------------

---- Inputs from Regressions ----
| Coeff. R-Squared
-------------+----------------------------------------------------------------
Uncontrolled | 0.12588 0.039
Controlled | 0.16027 0.228
-------------+----------------------------------------------------------------

---- Other Inputs ----
-------------+----------------------------------------------------------------
R_max | 1.000
Beta | 0.000000
M Controls |
-------------+----------------------------------------------------------------

从结果中可以看到,控制可观测变量后, 从 0.04 增加到 0.23,表明可观测变量对于解释结果变量的重要性。同时, 的值小于 0。Satayanath 等 (2017) 证明如果 的值小于 0,则偏差调整后的系数应大于之前回归得到的系数,证明了结果的稳健性。

4.2 根据 进行稳健性检验

Bryan M, Roberts J, Sechel C. The Effect of Mental Health on Employment: Accounting for Selection Bias[R]. HEDG, c/o Department of Economics, University of York, 2019. -PDF-

从表中可以看出,作者先对含有可观测变量的方程进行回归,进而得到 。然后检验在 的情况下,给定不同的 ,观察处理效应的系数是否发生了变化。

4.3 根据 进行检验

马双, 赵文博. 方言多样性与流动人口收入——基于 CHFS 的实证研究[J]. 经济学 (季刊), 2019, 1. -Link-

Oster 证明,当模型可能存在不可观测的遗漏变量时,可采用估计量 获得真实系数的一致估计。该估计量需要设定两个参数:。其中, 为选择比例 (selection proportionality),它衡量可观测变量与关注变量的相关关系相较于不可观测遗漏变量与关注变量的相关关系的强弱。

的含义是,若不可观测的遗漏变量能够被观测,回归方程的最大拟合优度。Oster 进行了随机模拟并整理、检验了现有文献结果,采用 Oster 的建议,本文将采取以下方法对实证结果进行稳健性检验:(1) 倍当前回归拟合优度或参考同类文献确定适宜的 ,如果 ) 落在了估计参数的 置信区间内,则结果通过稳健性检验;(2) 取值方法与 (1) 相同,计算使 的取值,若 取值大于 1,则结果通过了稳健性检验。

本文首先取 ,即取 倍当前回归拟合优度,并将稳健性检验的结果汇报在表 4。结果显示,本文的结果通过了稳健性检验。除此之外,本文还整理了国内发表于 2013-2015 年的相关文献的 129 个回归结果,取 为其中最大的拟合优度 0.410,结果依然稳健。

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 敏感性 稳健性, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:回归分析
    • 稳健性检验!稳健性检验!
    • Stata:敏感性分析-rcr
    • acreg:允许干扰项随意相关的稳健性标准误
    • 遗漏变量?敏感性分析!新命令sensemakr-T310
  • 专题:内生性-因果推断
    • 因果推断:未测量混杂因素的敏感性分析-T249
    • Stata新命令:konfound - 因果推断的稳健性检验


🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)


尊敬的老师 / 亲爱的同学们:

连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!




New! Stata 搜索神器:lianxh 和 songbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
  . ssc install lianxh
  . ssc install songbl
👉  使用:
  . lianxh DID 倍分法
  . songbl all



🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。


连享会
连玉君老师团队分享,主页:lianxh.cn。白话计量,代码实操;学术路上,与君同行。
 最新文章