内生性之应对(上):原理篇--遗漏变量-反向因果-测量误差-自选择

文摘   教育   2025-01-20 22:01   山西  

👇 连享会 · 推文导航 | www.lianxh.cn

🍓 课程推荐:连享会:2025 寒假前沿班
嘉宾:杨海生,中山大学
时间:2025 年 1 月 13-24 日
咨询:王老师 18903405450(微信)


作者:郭佳佳 (中山大学)
E-Mail:guojj37@mail2.sysu.edu.cn

Source: Hill, A. D., S. G. Johnson, L. M. Greco, E. H. O’Boyle,S. L. Walter, 2021, Endogeneity: A review and agenda for the methodology-practice divide affecting micro and macro research, Journal of Management, 47 (1): 105-143. -Link-, -PDF-, PDF2, Appendix, -cited-

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


目录

  • 1. 内生性的来源

  • 2. 内生性的因果图DAG解读

    • 2.1. Endogeneity (General)

    • 2.2. Omitted Variable - 遗漏变量

    • 2.3. Simultaneity - 互为因果

    • 2.4. Measurement Error - 测量误差

    • 2.5. Selection: Selection into Sample - 样本选择

    • 2.6. Selection: Selection of Treatment - 自选择偏差

  • 3. 总结

  • 4. 参考文献

  • 5. 相关推文



   

1. 内生性的来源

“什么是内生性、如何解决内生性”是个老生常谈的问题。为了帮助理解,我们先来聊聊外生性。为了得到OLS估计量的良好性质,古典线性回归模型存在几大假设条件:

假定1: 线性关系假定,被解释变量与解释变量存在线性随机函数关系。

假定2: 严格外生假定(随机扰动项与解释变量不相关)。

假定3: 球形扰动假定(扰动项满足“同方差”、“无自相关”的性质)。

假定4:无完全共线性假定,解释变量之间无完全共线性。

使用具有一个结果 和一个预测值 的示例方程,其中 是模型中的常数(截距), 是估计系数, 是干扰项:


假定2出现了严格外生假定,指:当所有时期的解释变量给定时,每一期的随机干扰项均值都为0。通俗来说,要求解释变量和与过去、现在、未来的扰动项不相关,则为严格外生。表现形式为:

但严格外生通常难以实现,也就是严格外生困难。所以学者们通常退而求其次,只要求同期外生,这便是弱外生性假定。这个假定的条件均值形式为

满足假定1、3、4以及弱严格外生假定后,OLS估计量一致、渐进正态分布,T检验,F检验以及Wald检验等常用检验都近似有效。但扰动项与解释变量同期不相关,在现实中经常不能被满足,即

外生性假定不满足,便产生了内生性问题。内生性被正式定义为观察到的预测因子 与未观察到的干扰项相关。

当扰动项与解释变量不满足若外生性假定时,我们便可说模型存在内生性问题,与扰动项相关的解释变量称为内生变量。

Wooldridge(2010)称解决是任何分析中最重要的组成部分,因为包含无数可能影响 的不可观察因素。捕捉和定义这种关系的困难在于,理解本质上是一种理论练习,因为是由 没有捕捉到的所有信息定义的。

2. 内生性的因果图DAG解读

作者按照 Wooldridge(2010)的分类标准,列出了4种主要的内生性来源,并采用因果图 (DAG) 进行了直观展示和解读,其中图5样本选择和图6处理组选择问题都属于selection引起的内生问题。

Note: Solid lines represent modeled paths, dotted lines represent unmodeled paths. While we present just a single and variable, the subscript denotes that the same considerations hold for multiple predictors and outcomes . *See Dodge (2006) for a full glossary of similar and related terms.

2.1. Endogeneity (General)

干扰项的出现是因为影响的因素没有完全包括在我们的回归函数模型中。当预测值与干扰项相关时,即就会导致估计值的偏差。偏差可以向上或向下,具体取决于与相关并预测的未建模因子。

2.2. Omitted Variable - 遗漏变量

产生内生性原因:真实模型为

但我们设定的模型为

忽略了,此时该遗漏变量会跑到扰动项中。遗漏变量有可能与解释变量相关,本来应该加以控制,但是没有控制,造成扰动项与解释变量存在一定关系,则不满足外生性假定。



识别方法:1、干扰项中还可以包括哪些其他影响因子? 2、这些因素有无可能与预测变量相关?

微观实例: =工作满意度,=工作绩效,负面影响可能会影响工作满意度和工作绩效,导致相关,如果建模时忽略该因素,则会造成遗漏变量问题。

宏观实例: =广告强度,=销售,公司所处的行业可能会影响该公司的广告强度和销售情况,导致相关,如果忽略该因素,则会造成遗漏变量问题。

2.3. Simultaneity - 互为因果

产生内生性原因:除了影响反过来可能也影响(图3中虚线)。因为影响,所以都与相关。时间分离不能解决问题,除非具有零自相关(即,在不同的时间段上与其自身没有相关性)。时间0时的不是由时间1时的引起的,因为它不能引起过去的某件事;但是时刻1的经常与时刻0的相关,并且如上所述,时刻0的与时刻0的相关

识别方法: 会不会对 也有影响?即这种关系是相互的吗?

微观实例: =酒精消费 =工作状态,酒精消费可能影响工作状态,并受工作状态的影响。

宏观实例: =研发支出  =公司业绩,研发支出可能会影响公司业绩,也会受到公司业绩的影响。

2.4. Measurement Error - 测量误差

测量误差是指被解释变量存在度量误差或解释变量存在度量误差。以解释变量有测量误差为例,我们只能观察到而不是真实值,则会造成的测量误差,测量误差。则方程变成

中的测量误差也影响时,就会成为干扰项的一部分,且还会与相关,则不满足外生性假定。


识别方法:是否存在系统误差?这个系统误差有无可能与其他变量相关。

微观实例: =工作满意度 =工作绩效,如果两个变量同时被同一个人评级,易造成误差,导致它们可能高度相关。

宏观实例: =公司声誉  =股票价格,对公司声誉的调查可能会系统地高估高股价的公司,导致对解释变量的测量存在误差。

2.5. Selection: Selection into Sample - 样本选择

产生内生性原因:样本选择偏差的实质是参与回归的样本不能代表总体从而产生估计偏误,且主要是由于对样本的选择不随机。在样本数据的采集过程中,只对某部分群体进行调查,但这部分群体与其他群体在某些方面的特征差异较大,因此根据这样的样本做回归得到的普适性结论并不可信。 体现在具体的数据上则是只有特定群体的样本,或者,虽然有全部群体的所有解释变量数据,但除特定群体之外的其他群体的被解释变量数据缺失,在这两种情况下进行的回归,都将直接忽视其他群体的样本信息(缺失的样本在参与回归时将被drop掉)。

识别方法:分析数据是否存在选择样本的问题?

该模型捕获的观测值()之间的关系。受选择过程的影响,该选择过程通过从样本中排除观测来限制的范围。受真实和其他未观察到的原因的影响。影响的过程是干扰项的一部分。如果相关,则的值与相关。

例如,Heckman(1976)对女性工人与男性工人的工作时间和工资的比较。在这项研究中的内生性问题是,选择是否工作不是随机的,许多因素可能导致妇女选择工作,这意味着观察到的数据并不完全代表妇女,只有选择工作的妇女。如果未测量的因素(例如,工人的家庭或个人因素)影响行动的二元选择并且还影响结果,则存在内生性问题,不能简单地通过纳入未计量的因素来解决(没有关于选择不工作的妇女的工资数据,因为这些变量对于一部分人口来说是不可观察的)。

2.6. Selection: Selection of Treatment - 自选择偏差

产生内生性原因:

解释变量的大小非随机生成,而是内生处理的结果。自选择偏差的实质是处理组与对照组的某些先验条件存在较大差异从而导致估计偏误。

识别方法:

分析哪些属性可能会“选择”的水平,这些属性中是否有可能与相关?

的水平通过选择过程受到的影响。选择过程是参与的特定实体(个人、公司)被处理的程度。如果相关,那么它就成为的一部分,导致相关。

微观实例:  =个人与工作的匹配度   =工作绩效,个人会寻找合适的工作(选择处理组),不适合的可能在工作绩效被测量之前已经辞职(样本选择)

宏观实例: =收购  =股票增值,收购的公司可能比不收购的公司处于更强的竞争地位(选择处理组,处理组与对照组在未被处理之前就存在差异),但我们只能收集收购报告所公布的公司数据(选择样本)。

3. 总结

实证文献往往都会主动指出内生性的存在,在提及内生性的文献中,有58.2%提供了解决方法,30.1%使用了稳健性检验,其中只有1.5%的文献在处理内生性后结果与基准回归不同。 下一篇推文将会详细论述上述内生性的解决方法。

4. 参考文献

Hill A D, Johnson S G, Greco L M, et al. Endogeneity: A review and agenda for the methodology-practice divide affecting micro and macro research[J]. Journal of Management, 2021, 47(1): 105-143. -PDF-

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:论文写作
    • 论文中因果推断的经典图形
  • 专题:计量专题
    • 因果推断:哪本教材适合我?
    • 因果推断新书在线读:Causal Inference-The Mixtape
  • 专题:IV-GMM
    • IV专题- 内生性检验与过度识别检验
    • IV专题: 内生性检验与过度识别检验
  • 专题:内生性-因果推断
    • 内生性!内生性!解决方法大集合
    • IV-面板内生性:严格外生性如何检验?
    • 因果推断:双重机器学习-ddml
    • Stata:内生性随机边界模型-xtsfkk
    • 一组动图读懂因果推断
    • 第三种内生性:衡量偏误(测量误差)如何解决?-eivreg-sem
    • 因果推断:混杂因素敏感性分析实操(下)-tesensitivity
    • 因果推断:混杂因素敏感性分析理论(上)
    • Stata因果推断:hettreatreg-用OLS估计异质性处理效应
    • Stata:因果推断方法综述和Stata操作
    • fect:基于面板数据的因果推断(上)-T218a
    • fect:基于面板数据的因果推断(下)-T218b
    • 因果推断:未测量混杂因素的敏感性分析-T249
    • 内生性:来源及处理方法-幻灯片下载
    • 用FE-固定效应模型能做因果推断吗?
    • locmtest:非线性模型的内生性检验
    • 经典文献回顾:政策评价-因果推断的计量方法
    • 因果推断好书:Causal-Inference-Measuring-the-Effect-of-X-on-y
    • Stata因果推断新书:The-SAGE-Handbook-of-Regression-Analysis-and-Causal-Inference
    • 第三种内生性:衡量偏误(测量误差)如何检验-dgmtest?
    • Stata新命令:konfound - 因果推断的稳健性检验
  • 专题:其它
    • 50问-T2:面板数据因果推断常见问题-对话徐轶青老师
  • 专题:分位数回归
    • Stata:面板分位数模型估计及内生性初探

   

尊敬的老师 / 亲爱的同学们:

连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!

New! Stata 搜索神器:lianxh 和 songbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
  . ssc install lianxh
  . ssc install songbl
👉  使用:
  . lianxh DID 倍分法
  . songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。

连享会
连玉君老师团队分享,主页:lianxh.cn。白话计量,代码实操;学术路上,与君同行。
 最新文章