Stata:控制变量与核心解释变量地位对等吗?

文摘   教育   2024-09-03 22:04   山西  


👇 连享会 · 推文导航 | www.lianxh.cn

🍓 课程推荐:2024 空间计量专题
主讲老师:范巧 (兰州大学)
课程时间:2024 年 10 月 2-4 日 (三天)
课程咨询:王老师 18903405450(微信)

 课程特色 · 2024空间计量

👉 一、从“零基础”到“高水平”的课程设计

  • 兼顾基础知识、主流模型与前沿模型
  • 既考虑软件安装、程序编写以及空间权重矩阵设计等 基础知识 讲授,更强调时空面板地理加权回归模型、贝叶斯空间计量模型、矩阵指数模型、空间计量交互模型与空间面板似不相关回归模型等 前沿模型 的传授。

👉 二、“保姆级”的空间计量代码

  • 编写与校准所有模型的MATLAB代码,简化实操环节
  • 模型的估计与检验等 仅按照提供的Excel数据版式 搜集与整理原始数据,即可一次性出结果并作图

👉 三、“最多上新” 的内容体系

  • 新增 矩阵指数模型、短面板空间似不相关模型、空间计量交互模型、贝叶斯空间计量模型等
  • 新增 前沿应用案例,包括空间计量与索洛余值法、随机前沿分析与数据包络分析等的互嵌研究,阐释基于空间计量的产业空间结构优化评价方法。
  • 新增 Dagum空间基尼系数、核密度估计、空间马尔科夫链与空间收敛性等内容,阐释现实研究中对空间收敛性的应用“谬误”。

作者:付一帆 (天津大学)
邮箱:yifanfu_0912@tju.edu.cn

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


目录

  • 1. 相关关系

  • 2. 因果关系

  • 3. 条件均值独立

  • 4. 理论证明

  • 5. 实证应用

  • 6. 参考文献

  • 7. 相关推文



FWL 定理 (详见连享会推文 Frisch-Waugh定理与部分回归图) 使我们能在多元线性回归模型中,得到各解释变量排除 (partialled out) 其他解释变量影响后的净效应。这引出一个问题:我们将核心解释变量和控制变量一起回归,似乎对二者并没有做任何区分,仅是在主观上更关注自变量。

那么,控制变量与核心解释变量的地位是对等的吗?对二者回归系数的解释是一致的吗?

1. 相关关系

回答这一问题的关键在于,是否在因果框架下进行讨论。在仅探讨相关关系时,控制变量和核心变量的地位平等。在因果研究的框架下,条件均值独立假设导致控制变量和核心变量地位不平等。例如,研究子女上学年限对工资的影响,线性回归模型为:



其中 是年工资 (元),核心解释变量 是子女上学年限 (年),控制变量 是母亲上学年限 (年), 分别表示 的回归系数。在未构建因果模型时,自变量 和控制变量 在 OLS 算法的眼里确实是一样的,所以回归系数的机械解释也是一样的。具体来看:

  • 的解释是:如果母亲上学年限一样,平均来讲,多上一年学的小明比少上一年学的小红每年多赚 元;
  • 的解释是:如果小明和小红的上学年限一样,但小明的妈妈比小红的妈妈多上一年学,平均来讲,小明的年工资比小红多 元。

此时,自变量和控制变量只不过是在主观上有所区分,实际地位对等。但是,一旦涉及到因果模型, 仍然可以作为因果解释,而 就只能作为相关解释了。

2. 因果关系

假设真实的因果模型如下图所示:


在回归模型 中:


  • 可以作为因果解释:给定母亲的上学年限相同,平均每多上一年学能增加工资 。这是因为母亲上学年限 作为控制变量之后, 就不再相关, 无偏;
  • 只能作为相关解释:不能说母亲每多上一年学,就能增加子女的工资 ,只能说母亲的教育水平和子女的工资是正相关的。这是由于母亲上学年限在 里面导致 相关, 有偏。

到这里,大家可能发现一个问题:控制变量 与扰动项 相关,这不符合 OLS 的解释变量与随机误差项不相关假定。这一假定要求所有解释变量都外生,即所有解释变量均与扰动项不相关。进一步,只要某一解释变量与扰动项相关,则将 “污染” 所有参数估计量,导致它们的估计值都不一致。

为何在因果框架下可以放松这一假定,而允许控制变量 和扰动项 相关呢?

在因果框架下,我们通常只对回归方程中的一个核心解释变量感兴趣,特别希望得到对其系数的一致估计,并将其解释为核心变量对被解释变量的因果效应。另一方面,对于方程中的其他变量本身又无太大兴趣,之所以把它们也放入回归方程,只是为了 “控制” 那些对被解释变量有影响的遗漏因素来避免 “遗漏变量偏差”。即使对控制变量系数估计不一致,我们也尚可接受。

既然我们可以容忍对于控制变量系数的不一致估计,就不必要求控制变量外生。此时,可以放松所有解释变量和扰动项均不相关的过强假定,只要求在给定控制变量的条件下,核心变量与扰动项不相关即可。

这又引出下面的问题:如何从理论上证明,核心变量与扰动项条件不相关时,可以得到核心变量的一致估计?

3. 条件均值独立

首先,了解独立、均值独立、不相关这三个度量随机变量不相关程度的概念对回答这一问题有所帮助。最强的概念为独立,表明两个随机变量一点关系也没有。较弱的概念为 (线性) 不相关,表明还可能存在点非线性的相关关系。二者之间还有一个中间层次的表示随机变量不相关的概念,即均值独立

均值独立的定义是:如果 不依赖于 ,则称 均值独立于 。使用迭代期望定律,容易证明均值独立的充分必要条件为 ,即条件期望等于无条件期望。而 “条件均值独立” 则在 “均值独立” 的基础上加了一个 “条件”。

假设研究子女上学年限对工资的影响: 满足条件均值独立,也就意味着,在给定母亲上学年限 的条件下,扰动项 均值独立于子女上学年限 。那么,条件均值独立对于一致地估计核心解释变量有何帮助?

4. 理论证明

第一,我们并不要求扰动项 与母亲上学年限 不相关,故 也不会均值独立于 。因此,条件期望仍然是 的函数,不妨设为线性函数 (非线性函数也不影响结论):



第二,条件均值独立使得在给定控制变量 的条件下,扰动项 均值独立于



第三,将扰动项 做一个分解,即从中分离出条件期望 ,并将其余部分定义为:



第四,将此式代入原模型可得:



第五,代入 可得:



第六,对等式 两边取期望,得到:



由于 的条件期望为 0,说明方程的扰动项 均值独立于 ,因此 均不相关, OLS 为一致估计。

具体而言,核心变量 的系数估计量 为真实参数 的一致估计。然而,控制变量 的系数估计量 将收敛至 ,并不是原模型中真实参数 的一致估计。类似地,对于常数项的估计也不一致。

综合上面的分析:在相关关系中,核心解释变量和控制变量地位平等。在因果框架下,由于放松了解释变量与随机误差项不相关假定,导致二者地位不平等。

具体而言,因果框架下引入条件均值独立假设,允许控制变量与扰动项相关,而只要求在给定控制变量条件下核心解释变量与扰动项不相关即可。这样,核心解释变量系数是一致估计,可以解释因果关系,而控制变量的系数只有相关性的意义,不能作为因果关系解释。

5. 实证应用

案例来源于 stock 和 watson《lntroduction to Econometrics》,这一控制变量经典案例表明:控制变量的回归系数不能作为因果关系的解释。因果关系图如下所示:

该案例考察班级规模 str 对于测试成绩 testscr 的影响。除班级规模外,测试成绩还可能受到校外学习机会 meal_pct 的影响,比如补习班等。较差的学区通常班级规模大,而校外学习机会少。为避免遗漏这一变量可能导致的遗漏变量偏差问题 (如下图),需要将其作为控制变量纳入模型。

根据美国的政策,只有家庭收入低于某个临界值 (大约为贫困线的 150%) 才能享受免费或补助午餐,因此选用有资格享受折扣午餐的学生百分率度量校外学习机会,记为 meal_pct。变量含义如下表所示:


变量变量表示变量名称变量含义
被解释变量testscr测试成绩阅读和数学的平均成绩
核心解释变量str班级规模学生/教师人数比
控制变量meal_pct校外学习机会有资格享受折扣午餐的学生百分率


所用数据来源于加利福尼亚 420 个学区 1998 年和 1999 年的数据,这一数据集可以在《lntroduction to Econometrics》的 California Test Score Data 数据集中获取。相关实证分析如下:


. lxhuse caschool.dta, clear
. set linesize 80
. set cformat %4.3f
. set sformat %4.2f
. set pformat %4.3f
. sum testscr str meal_pct

Variable | Obs Mean Std. dev. Min Max
-------------+---------------------------------------------------------
testscr | 420 654.1565 19.05335 605.55 706.75
str | 420 19.64043 1.891812 14 25.8
meal_pct | 420 44.70524 27.12338 0 100

. reg testscr str meal_pct

Source | SS df MS Number of obs = 420
-------------+---------------------------------- F(2, 417) = 685.76
Model | 116644.521 2 58322.2607 Prob > F = 0.0000
Residual | 35465.0723 417 85.0481351 R-squared = 0.7668
-------------+---------------------------------- Adj R-squared = 0.7657
Total | 152109.594 419 363.030056 Root MSE = 9.2222
------------------------------------------------------------------------------
testscr | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
str | -1.117 0.240 -4.65 0.000 -1.590 -0.645
meal_pct | -0.600 0.017 -35.78 0.000 -0.633 -0.567
_cons | 702.911 4.700 149.55 0.000 693.672 712.150
------------------------------------------------------------------------------


结果表明,我们所关注的核心解释变量 str 的系数显著为负,表明班级规模越大,则测试成绩越低。由于我们将 meal_pct 从扰动项中分离出来,核心解释变量 str 与扰动项不相关。同时,FWL 定理表明核心解释变量 str 的回归系数已经剔除了控制变量 meal_pct 对被解释变量 testscr 影响, 因此 str 的系数 -1.117 是一致的估计。

控制变量 meal_pct 的系数估计值是 -0.600,不能将其解释为有资格享受折扣午餐的学生占学区总人数的百分比每降低 1%,测试成绩增加 0.600,只能解释为有资格享受折扣午餐的学生占学区总人数的百分比与测试成绩有显著的负相关关系。

实际上,即使取消免费与补助午餐的项目,使得所有学区的 meal_pct 都降为 0%,也不能提高测试成绩,甚至有些学生可能因为饥饿或营养不良导致学习成绩下降。显然,meal_pct 的系数不能解释因果关系。

之所以还要将 meal_pct 纳入模型,是为了避免遗漏校外学习机会变量,使得 str 与扰动项条件均值独立,从而得到对于核心变量 str 系数的一致估计。而对控制变量 meal_pct 本身系数的估计,我们并不看重。即使 meal_pct 很可能与扰动项相关,导致对其系数的估计并不一致,我们也可以接受,只要求得到相关性解释即可。

6. 参考文献

  • Stock, James H.and Mark M. Watson. Introduction to Econometrics[M]. PearsonEducation Limited, 2012. -Dataset-
  • Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome. The Elements of Statistical Learning : Data Mining, Inference, and Prediction[M]. Springer New York, 2017. -PDF-
  • 孙嘉瑞. 再论OLS:核心变量与控制变量的区别 -Link-
  • 知乎. 控制变量是如何被“控制”的?-Link-

7. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 控制变量 回归系数, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:论文写作
    • 控制变量如何选?大牛们的10条建议
  • 专题:Stata命令
    • 敏感性分析B-Stata实操:控制变量内生时的系数敏感性分析-regsensitivity
    • 敏感性分析A-理论基础:控制变量内生时的系数敏感性分析-regsensitivity
    • Stata:控制变量组合的筛选-tuples
    • Stata新命令-pdslasso:众多控制变量和工具变量如何挑选?
  • 专题:Stata绘图
    • Stata绘图:回归系数可视化-multicoefplot
    • forest-森林图:分组回归系数可视化
    • Stata绘图:回归系数可视化-论文更出彩
  • 专题:回归分析
    • 调节效应是否需要考虑对控制变量交乘?
    • Stata:分组回归系数比较的新思路
    • 控制变量!控制变量!
    • 正确姿势:回归系数的解释与评估
    • 不用太关心控制变量,真的!
    • 多元回归系数:我们都解释错了?
    • 加入控制变量后结果悲催了!
    • 图示线性回归系数:Frisch-Waugh定理与部分回归图
    • Stata: 获取分组回归系数的三种方式

🍓 课程推荐:2024 空间计量专题
主讲老师:范巧 (兰州大学)
课程时间:2024 年 10 月 2-4 日 (三天)
课程咨询:王老师 18903405450(微信)



New! Stata 搜索神器:lianxh 和 songbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
  . ssc install lianxh
  . ssc install songbl
👉  使用:
  . lianxh DID 倍分法
  . songbl all



🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。



连享会
连玉君老师团队分享,主页:lianxh.cn。白话计量,代码实操;学术路上,与君同行。
 最新文章