连玉君Stata33讲:面板数据模型简介-FE和RE有何区别?

文摘   教育   2024-11-07 22:00   中国  

👇 连享会 · 推文导航 | www.lianxh.cn

🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)

 课程特色 · 2024机器学习与因果推断

  • 懂原理、会应用。本次课程邀请了两位老师合作讲授,目的在于最大限度地实现理论与应用的有机结合。为期四天的课程,分成两个部分:第一部分讲解常用的机器学习算法和适用条件,以及文本分析和大语言模型;第二部分通过精讲 4-6 篇发表于 Top 期刊的论文,帮助大家理解各类机器学习算法的应用场景,以及它们与传统因果推断方法的巧妙结合。
  • 以 Top 期刊论文为范例。目前多数人的困惑是不清楚如何将传统因果推断方法与机器学习结合起来。事实上,即便是 MIT 和 Harvard 的大牛们也都在「摸着石头过河」。为此,通过论文精讲和复现来学习这部分内容或许是目前最有效的方式了。张宏亮老师此前在浙江大学按照这一模式教授了「因果推断和机器学习」课程,效果甚佳:学生们能够逐渐建立起研究设计的理念,并在构造识别策略时适当地嵌入机器学习方法。

Note:本文为连享会 B 站视频课 连玉君公开课 Stata 33 讲中 「XT2:FE 和 RE 模型」的文字版。课程 dofile 和复现文档可以前往 https://gitee.com/arlionn/stata101 下载。

文字整理:冯超楠 (北京航空航天大学)
E-mail:  fengcnhpy@126.com

内容提要:

本节学习最为常用的两个面板数据模型:固定效应模型 (Fixed Effects model,简称:FE) 和随机效应模型 (Random Effects model,简称:RE)

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


目录

  • 1. 基本原理

    • 1.1 混合 OLS 估计 (POLS)

    • 1.2  固定效应模型和随机效应模型

  • 2.模型的 Stata 实现

    • 2.1 估计命令

    • 2.2 重点解读 Stata 中固定效应估计的具体思路

  • 3. 混合 OLS 与固定效应模型估计之间的差异

    • 3.1 举例说明

  • 3.2 在 Stata 中的实例

    • 3.2.1 不同模型估计: Stata 代码



1. 基本原理

1.1 混合 OLS 估计 (POLS)

首先回顾混合 OLS 模型,对于截面数据而言有以下线性表达式,其中 i 代表个体维度 (例如公司),公式如下:


对于 Panel Data 而言有以下表达式,其中 i 代表个体维度,t 代表时间维度


若直接用 OLS 方法应用于 Panel Data,则被称为混合 OLS 估计 (POLS)。在 Stata 中直接输入 reg y x 就可以实现对该模型的混合 OLS 估计。其缺陷在于忽视了实际中个体效应对被解释变量的影响,如面试官的特征会对面试结果产生影响,公司不可观测的公司文化、CEO 的特征等会影响公司的业绩表现及财务决策,因此,将不变的截距项 替换成随个体变化的截距项 后, 在经济意义上反映了每家公司不可观测的个体特征 (公司文化、CEO 特征等等)。

接下来就转入考虑个体特征的模型。

1.2  固定效应模型和随机效应模型

1.2.1 固定效应模型

首先看一下固定效应模型,模型右边所有的解释变量为 ,其中 为随机扰动项,前两项中 项既随个体 i (公司),又随时间 t 发生变化,而 项仅随个体 i 变化,不随时间 t 变化,被称为 “个体效应”。可以看到,固定效应模型在混合 OLS 模型基础上作了改进,允许个体之间有不同的截距项,这种截距项用来反映不同个体间不可观测的 “个体效应”。


1.2.2 随机效应模型

再来看一下随机效应模型,与固定效应表达式相同,不同的是此时 被认为是模型的 (复合) 扰动项,第一项 只随个体i发生变化,在时序维度上维持稳定 (即上述提及的 (“个体效应”)),第二项 同时随个体和时间发生变化,即随机效应模型是在干扰项的设定上反映 “个体效应”


1.2.3 固定效应模型与随机效应模型不同之处

固定效应模型和随机效应模型的表达式完全相同,但背后的含义完全不同。固定效应模型假定“个体效应” 为模型解释变量的一部分,可与其他解释变量 相关;随机效应模型将“个体效应”将 放入干扰项 (作为随机变量),与解释变量 不相关,这是两个模型假设方面的主要差别。

在估计方法上,固定效应模型只需要在OLS基础上加入一系列 firm dummies,用来反映不同公司间截距项的差别,即“个体效应“;随机效应模型的干扰项相对复杂,由 (不随时间变化) 和 (随时间变化) 两部分构成,导致异方差问题出现,此时需要采用广义最小二乘估计 (GLS) 方法。

2.模型的 Stata 实现

2.1 估计命令

2.1.1 固定效应模型在Stata中的估计命令

xtreg y x, fe                

reg y x i.id

areg y x, absorb(id)

2.1.2 固定效应模型在Stata中的估计命令

xtreg y x, re

2.2 重点解读 Stata 中固定效应估计的具体思路

2.2.1 原理


(5) 式为固定效应模型的表述


(6) 式为每家公司内部进行了“压缩“处理,对每家公司时序上的作了平均处理 (计算组内平均值):


(7) 式为整个样本的“压缩“处理,得到:,被解释变量在整个样本内的平均处理:


(5) - (6) 去除了不可观测的 “个体效应”, (8) 式通过 (5) - (6) + (7) 得到,该变换称为组内去心,据此得到的估计量称为 Within-group Estimator (组内估计量) 或 De-meaned Estimator (去心估计量)

2.2.2 Stata 中的操作

先用数据处理方式计算 (5) - (6) + (7),随后采取 OLS 方式:,可得到固定效应模型估计值

3. 混合 OLS 与固定效应模型估计之间的差异

3.1 举例说明

3.1.1 Case I

如下散点图,若直接进行 OLS 估计,得到红色的拟合线,反映 yx 之间的负相关关系。

若了解数据背后的特征:每个红圈内样本点对应三家公司,假设三家公司有相同的斜率,对应截距不同三条拟合平行线 (更好反映数据拟合的结果) 为我们通过固定效应模型估计得到的结果。

同样的数据,POLS 和 FE 估计结果可能完全不同 (Case I 中 POLS 估计结果显著为负,而 FE 估计结果显著为正)。

3.1.2 Case II

散点图:三家公司在不同年份的样本点 (Panel Data),整体拟合,可得到一条紫色的拟合线,即 xy 存在正相关关系。

考虑到个体特征,使用固定效应模型估计,得到三条平行蓝色拟合线 (斜率相同),每家公司有其特定的截距项

该种情形下,两种估计方法得到的估计值 (斜率) 都为正,但在数值上有所差异。

3.2 在 Stata 中的实例

3.2.1 不同模型估计: Stata 代码

我们使用 invest2.dta 作为研究数据,invest2.dta 包含 100 个观察值:5 家公司,每家公司有 20 年资料,涉及公司 id、时间 t、投资支出 invest、市场价值 market、资本存量 stock 五个变量。有多种方法估计投资支出 invest、市场价值 market、资本存量 stock 三个变量之间的关系,假设我们想研究投资支出、资本存量对市场价值的影响,则在回归模型中被解释变量为市场价值 market,解释变量为投资支出 invest、资本存量 stock,不同模型和估计方法 Stata 命令如下:

webuse "invest2.dta", clear 

xtset company time
global y "market"
global x "invest stock"

regress $y $x //POLS
est store POLS

tab company, gen(dum)
regress $y $x dum2-dum5 //OLS+Dummies(id)
est store OLSdum1

regress $y $x dum1-dum5, nocons //OLS+Dummies(id)
est store OLSdum2

xtreg $y $x, fe //FE
est store FE

xtreg $y $x, re //RE
est store RE

local m "POLS OLSdum1 OLSdum2 FE RE"
esttab `m', mtitle(`m') nogap compress ///
scalar(N r2 r2_w r2_b r2_o) ///
star(* 0.1 ** 0.05 *** 0.01)

3.2.2 不同模型估计和解释

---------------------------------------------------------------
(1) (2) (3) (4) (5)
POLS OLSdum1 OLSdum2 FE RE
---------------------------------------------------------------
invest 4.453*** 3.053*** 3.053*** 3.053*** 3.847***
(9.24) (6.67) (6.67) (6.67) (7.96)
stock -0.115 -0.676*** -0.676*** -0.676*** -0.798***
(-0.33) (-3.05) (-3.05) (-3.05) (-3.11)
dum2 -2404.0*** 512.3***
(-12.40) (5.96)
dum3 -1016.6*** 1899.7***
(-4.59) (19.03)
dum4 -2318.4*** 597.9***
(-11.30) (7.15)
dum5 -1979.4*** 936.9***
(-15.50) (5.92)
dum1 2916.3***
(14.99)
_cons 849.6*** 2916.3*** 1372.6*** 1212.8***
(7.42) (14.99) (17.83) (7.84)
---------------------------------------------------------------
N 100 100 100 100 100
r2 0.667 0.936 0.978 0.417
r2_w 0.417 0.416
r2_b 0.696 0.705
r2_o 0.632 0.638
---------------------------------------------------------------
t statistics in parentheses
* p<0.1, ** p<0.05, *** p<0.01

结果解读如下:

  • 列 (1) - (5) 分别是 POLS、OLS+Dummies(id) 有常数项、OLS+Dummies(id) 无常数项、FE、RE 模型估计结果。
  • (2) - (4) 估计系数以及 t 值完全一样,即无论是 OLS+Dummies(id) 还是 reg,fe 进行固定效应的估计,估计系数及标准误完全相同。
  • 唯一的差别在于 R2,固定效应 reg,fe 组内去心方式在计算 R 平方的时候已经去除了 “个体效应” 的贡献,及列 (2) R 平方 (0.936) 与列 (4) R 平方 (0.417) 的差异在于 Dummies(id) 对 R 平方的贡献。
  • 列 (5) 是随机效应模型估计结果,从系数值及方向上比较而言,与列 (4) 固定效应模型估计结果更相似。


🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)

尊敬的老师 / 亲爱的同学们:

连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!

New! Stata 搜索神器:lianxh 和 songbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
  . ssc install lianxh
  . ssc install songbl
👉  使用:
  . lianxh DID 倍分法
  . songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。


连享会
连玉君老师团队分享,主页:lianxh.cn。白话计量,代码实操;学术路上,与君同行。
 最新文章