👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:最新专题 | 计量专题 | 关于连享会
🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)
课程特色 · 2024机器学习与因果推断:
懂原理、会应用。本次课程邀请了两位老师合作讲授,目的在于最大限度地实现理论与应用的有机结合。为期四天的课程,分成两个部分:第一部分讲解常用的机器学习算法和适用条件,以及文本分析和大语言模型;第二部分通过精讲 4-6 篇发表于 Top 期刊的论文,帮助大家理解各类机器学习算法的应用场景,以及它们与传统因果推断方法的巧妙结合。 以 Top 期刊论文为范例。目前多数人的困惑是不清楚如何将传统因果推断方法与机器学习结合起来。事实上,即便是 MIT 和 Harvard 的大牛们也都在「摸着石头过河」。为此,通过论文精讲和复现来学习这部分内容或许是目前最有效的方式了。张宏亮老师此前在浙江大学按照这一模式教授了「因果推断和机器学习」课程,效果甚佳:学生们能够逐渐建立起研究设计的理念,并在构造识别策略时适当地嵌入机器学习方法。
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
作者: 黄晨晨(厦门大学)
邮箱: huangcc@stu.xmu.edu.cn
Source: Kejriwal, M., Li, X., Nguyen, L., & Totty, E. (2023). The efficacy of ability proxies for estimating the returns to schooling: A factor model‐based evaluation. Journal of Applied Econometrics, 39(1), 3–21. Portico. Link , PDF, Replication, Google.
1. 研究概要
如何估算学校教育的回报一直是劳动经济学和教育经济学长期关注的问题。获得教育回报无偏估计的挑战来自于不可观察的能力与收入和教育都是相关的,因此普通最小二乘估计量的估计结果是有偏的。
解决偏差的一个常见方法是用认知和非认知能力的代理变量来增强 “ 收入-学校教育 ” 的回归。这篇文章使用因子模型框架来评估这种方法,该框架允许在不依赖代理变量的情况下对教育回报进行一致的估计。因子模型估计量可以有效解决代理变量测量误差和能力遗漏变量问题。所有结果都证实了代理变量在捕获潜在能力变量方面的不足。
2. 基本原理
2.1 因子模型构建
非平衡面板数据因子模型如下:
其中, 表示第 个人在第 时期完成的学校教育年数, 代表每小时工资的对数。 是一个 的能力代理变量的向量,其潜在收益为 。 表示工作经验。 是第 个人的非缺失观测值的时间指标的集合。对于第 个人可以有 个观测值。
误差项 具有交互固定效应结构,由一个共同分量 和 特殊分量 组成。 代表一个 的未测量的能力因子载荷向量,例如天赋。 是一个 未观测的随时间变化的能力的价格向量。二者均被允许与学校教育相关。
因此,所关注的参数是在总体均值下估计的上学边际收益 (MRTS):
2.2 估计偏差来源
假设数据生成过程如下:
假定 , 其中, 是一个 的向量,代表代理变量试图测量的能力。 为未测量或遗漏的能力向量。假设被观测的代理变量生成过程为:
其中, 是一个 的系数矩阵, 表示代理变量的真实值 (但是未被观测到) , 表示可能与 相关的测量误差。假设 是满秩的, 设 ,经过代数运算可得:
因此,估计方程转化为:
此时,通过最小二乘法估计将导致回归系数存在潜在偏差:
由于 和测量误差 相关导致的 测量误差偏误。 由于与学校教育相关但被遗漏的能力变量 导致的遗漏变量偏误。
2.3 因子模型原理
对于因子模型来说,不仅可以估计能力 的全向量空间,还可以通过有效地用因子载荷估计 替换 从而隐形地估计代理变量中固有的测量误差。因子模型的估计方程为:
其中 , 因子结构的抽样误差包含在 中。随着截面和时间的维度增大,该误差可以忽略不计,从而保证了 (, ) 的估计一致性。
2.4 因子模型估计量
交互固定效应 (IFE) 估计量
最初由 Bai (2009) 提出,适用于平衡面板。该方法采用迭代主成分算法对回归系数和因子结构进行联合估计。后由 Bai (2015) 将该估计器扩展至非平衡面板。想要使用 IFE 识别和一致估计回归系数需考虑以下假设:
误差 中的共同因子结构的每个因子对 的方差都有重要贡献 (“ 强因素 ” 假设) 。 特殊分量 允许两个维度的弱相关和异方差。 回归量、因子和载荷的有限第四阶矩。 两个维度的样本量都很大。请注意,只要误差序列不相关并且不存在时间序列异方差,IFE 估计量就保持与小时间维度一致。在不影响一致性的情况下,仍然可以允许误差中的截面相关性和异方差。
共同相关效应 (CCE) 估计量
CCE 由 Pesaran (2006) 提出,随后被 Zhou and Zhang (2016) 推广至非平衡面板 (CCEP)。此外,文中还使用 Pesaran (2006) 在平衡面板案例中提出的两步估计器 (CCEP-2) 进行了对比。CCE 识别所需的假设与 IFE 相似, 但是不需要 “ 强因素 ” 假设也不要求时间维度很大。
3. 研究设计
使用全国青年纵向调查 (NLSY79) 进行实证分析。构建了一个1981年至2016年的非平衡面板数据集,最终样本包含 1190 个个体,总共有 24046 个人-年的观察结果。
利用军队职业倾向测验 (ASVAB) 的所有十个智力测试,借助主成分分析法提取第一个主成分作为认知能力的代理变量。使用 Rotter 心理控制源量表和 Rosenberg 自尊量表,提取了前三个主成分作为非认知因子。
实验设计如下:
4. 软件实现
4.1 数据准备
在期刊网站中可下载相关文件,其中 replication_files.zip 中包含复现所需要的程序与数据。
解压后将出现3个文件夹 (mydata、output 和 programs) 以及 readme.txt。打开 programs 文件夹,依次运行 p1_data_prep.do
和 p2_sample_selection.do
对数据进行预处理,最后得到 NLSYrep_doa.dta
。
4.2 运行前设定
由于 OLS 部分使用 Stata 软件,而因子模型计算部分使用 Matlab,因此在进行回归前还需进行以下操作才能保证结果的成功的复现:
打开 programs 文件夹中的 regressions_minti15.do
,找到 197 行的命令:
shell /apps/matlab/R2016a/bin/matlab -nosplash -nodisplay -nodesktop -r "try; run('FMestimation_ss2aa2sa_iFE_unbal.m'); catch ME; disp(ME); end; quit" > FMestimation_ss2aa2sa_iFE_unbal.log
将其中的 /apps/matlab/R2016a/bin/matlab
更换为本机 Matlab 软件的路径。同样需要更改的还有 257 行、312 行、369 行、429 行、485 行。其他命令中所有需要填写 Matlab 软件路径的地方均需要修改。
在 Matlab 软件中安装 Parrallel Computing Toolbox。可以依次打开主页-环境-附加功能-获取附加功能,在搜索框中输入 Parrallel Computing Toolbox,然后点击安装。
4.3 运行主回归
随后打开 p3_regressions.do
,将41行的 Matlab 路径修改为本机 Matlab 软件的路径。运行以下命令将计算主回归:
global dopath "./"
*main sample from the paper
do ${dopath}/regressions_minti15.do
此时将在 output 文件夹中生成 returns_minti15.xlsx ,其中将包含 OLS 的估计结果。
运行以下命令将输出因子模型结果:
*output FM results
do ${dopath}/regressions_exportpartial.do
shell D:/software/matlab2022a/bin/matlab -nosplash -nodisplay -nodesktop -r "try; run('regressions_fmtables.m'); catch ME; disp(ME); end; quit" > regressions_fmtables.log
其余命令为稳健性检验。此外,文件夹中的 p4_decomposition.do
是对偏差进行分解的命令, p5_proxytests.do
是进行代理验证检验的命令,可以按需运行。
4.4 运行结果
最终获得的结果如下:
通过结果可以发现:
将第 (4) -第 (12) 列的估计值与第 (1) 列的 OLS 估价值进行比较,结果表明,包含交互效应使得 MRTS 估计值明显变小,相应的 OLS 偏差估计值在 OLS 估计值的49% - 63%之间。 在交互固定效应的条件下,代理变量的解释力相当有限,这一点可以从 IFE 方法的第 (4) - (6) 列和 CCE 方法的第 (7) - (12) 列中非常相似的估计中得到证明。 IFE 和 CCE 方法得出的估计值相似,介于 3.2% 和 4.4% 之间。因此,与使用代理变量相比,选择哪一种因子结构的重要性要小得多。
4.5 报错原因
根据作者在 readme.txt 中的提示,该程序需要访问多达 13 个 cpu 和 104 GB RAM,因此,电脑配置不足的话将会面临报错。
5. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 交互固定 因子模型 遗漏变量 主成分, md0 nocat
安装最新版lianxh
命令:
ssc install lianxh, replace
任缘, 2024, xtnumfac:估计面板数据中共同因子的个数, 连享会 No.1438. 刘欣妍, 史柯, 2022, Stata:双向固定效应模型中是否要控制公司年龄?, 连享会 No.942. 刘潍嘉, 2024, 辛普森悖论及模拟分析, 连享会 No.1406. 吴煜铭, 郑浩文, 2021, 内生性!内生性!解决方法大集合, 连享会 No.579. 周翔宇, 2022, 主成分分析-交互固定效应基础:协方差矩阵的几何意义, 连享会 No.845. 姚和平, 2022, Stata:特征值、特征向量与主成分分析-pca, 连享会 No.886. 左祥太, 2021, Stata可视化:biplot一图看尽方差、相关性和主成分, 连享会 No.814. 李沣航, 2024, 敏感性分析在社会学研究中的应用, 连享会 No.1472. 王晓娟, 甘徐沁, 2021, regife:面板交互固定效应模型-Interactive Fixed Effect, 连享会 No.42. 邹恬华, 2021, 遗漏变量?敏感性分析!新命令sensemakr-T310, 连享会 No.621. 郑宇, 2021, Stata:平行趋势不满足?主成分DID来帮你!- pcdid, 连享会 No.760. 郭佳佳, 2023, 内生性之应对(上):原理篇--遗漏变量-反向因果-测量误差-自选择, 连享会 No.1264. 郭佳佳, 2023, 内生性之应对(下):方法篇--遗漏变量-反向因果-测量误差-自选择, 连享会 No.1266. 郭思媛, 2024, FE vs POLS:聊聊固定效应-优点和缺点, 连享会 No.1381. 郭楚玉, 2020, Selection Ratio:帮你解决头疼的遗漏变量偏误, 连享会 No.234. 闫钊鹏, 2024, 因果推断必备:有向无环图DAG的解读和绘制-R 语言之ggdag包, 连享会 No.1380. 黄锦兰, 2024, 论文推介-用auto.dta发SSCI:如何正确使用控制变量?, 连享会 No.1397.
🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)
尊敬的老师 / 亲爱的同学们:
连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。