Lasso机器学习&工具变量VS 伍德里奇经典案例--工具变量操作

学术 2024-12-18 12:32 陕西

Lasso筛选工具变量VS 伍德里奇经典案例--工具变量操作

1、xpoivregress -- Cross-fit partialing-out lassoinstrumental-variables regression--Lasso筛选工具变量

我们将复制一个众所周知的模型，该模型用于说明处理内生协变量的两阶段最小二乘估计器；参见Wooldridge(2010, ex.5.3)。

伍尔德里奇将已婚妇女的工资对数（lwage）建模为她们的经验（exper）、经验的平方和她们的教育年数（educ）的函数。总的来说，这些被称为外生协变量。

教育通常被视为内生变量。原因是我们无法测量天生的能力，而能力很可能同时影响教育水平和收入。一些学科将此称为未观测到的混杂因素，而不是内生性。无论如何，你不能仅仅对工资进行回归分析，就了解教育对工资的真实影响。

你需要从你认为不受女性未测量能力影响的变量中获取更多信息——让我们称它们为工具变量。它们也必须是外生的，但我们只会称它们为工具变量。

伍尔德里奇使用了她们母亲的教育水平（motheduc）、她们父亲的教育水平（fatheduc）和她们丈夫的教育水平（huseduc）作为女性教育的工具变量。工具变量还需要是外生的，但我们只会称它们为工具变量。

数据来自Mroz(1987)。

xpoivregress和poivregress使用lasso选择潜在外生协变量列表中的外生协变量。它们使用lasso从一组潜在工具变量中选择工具变量。这意味着我们不必担心通过可能包括不相关的外生协变量或工具变量引入噪声或弱工具变量。Lasso将确保足够数量的不相关协变量被忽略。我们可以随意添加。

让我们添加一些伍尔德里奇排除的变量。他需要考虑引入不相关协变量的问题。我们不需要。在潜在外生协变量列表中，我们添加了6岁以下儿童的数量（kidslt6）、6岁或以上儿童的数量（kidsge6）、女性的年龄段（age）、她们丈夫的年龄（husage）以及居住在城市地区的指标（citt）。我们不需要向工具变量中添加任何内容。好的工具变量很难找到。

为了确保水槽装满，让我们取所有外生变量，而不是只以线性形式输入它们，而是以线性项、二次项和所有可能的交互项输入它们。对我们的三个工具变量列表也做同样的处理。这通常被称为级数展开，或泰勒级数展开。它允许外生协变量以非线性方式影响结果，以及工具变量控制内生性。我们刚刚做了二阶展开；你可以走得更远。

我们将继续使用变量管理工具vl来管理我们的外生协变量列表和工具变量列表。

首先，我们使用Mroz数据集，然后创建我们的外生协变量基础列表和工具变量基础列表。

. use https://www.stata-press.com/data/r18/mroz, clear
. vl create exogbase = (exper age husage kidslt6 kidsge6 city)

. vl create instbase = (motheduc fatheduc huseduc)

外生协变量列表现在在全局宏instbase中。

有了这些基础列表，我们可以进行展开，创建灵活的非线性形式：

. vl substitute exog= c.exogbase c.exogbase#c.exogbase

. vl substitute inst= c.instbase c.instbase#c.instbase

#是因子变量运算符，用于交互。它可以交互分类变量、连续变量或两者。我们可以直接在估计命令行上使用它，但那些行已经够长了。我们还必须通过键入$exogbase等来处理宏扩展。v1已经知道exogbase和instbase，并且知道将它们作为列表处理。c前缀告诉#运算符将列表视为连续变量。#假设分类变量，除非另有说明。

把所有的内容放在一起，c.exogbase意味着以它们自己（线性地）输入所有潜在的外生协变量。c.exogbase#c.exogbase意味着输入变量的所有可能的交互。因为一个变量与自身的交互是二次项，所以二次（平方）项作为展开的一部分被创建。

让我们看看这两个列表中较小的一个，以便我们可以看到我们创建了什么：

. macro list inst

inst:
motheduc fatheduc huseduc c.motheduc#c.motheduc
c.motheduc#c.fatheduc c.motheduc#c.huseduc
c.fatheduc#c.fatheduc c.fatheduc#c.huseduc c.huseduc#c.huseduc

这还不错。我们数了九项——三项线性项和六项交互（包括二次项）。

宏exog有27项。

想象一下三阶展开会是什么样子。你很快就会有成千上万的项。

现在我们可以使用xpoivregress估计内生变量educ的系数。我们从plugin方法开始选择协变量。我们不需要指定plugin，因为它是默认的。由于我们创建的宏，指定模型的其余部分很容易：

. xpoivregress lwage(educ=$inst), controls($exog) rseed(12345)

注意：卡方检验是Wald检验，检验变量的系数是否联合等于零。Lasso选择模型估计的控制变量。键入lassoinfo查看每个lasso中选定变量的数量。

结果为：

*结果为：

*-----------------------------------result.begin--------------------------------
. xpoivregress lwage (educ=$inst), controls($exog) rseed(12345)  selection(plugin)   

Cross-fit fold 1 of 10 ...
Estimating lasso for lwage using plugin
Estimating lasso for educ using plugin

Cross-fit fold 2 of 10 ...
Estimating lasso for lwage using plugin
Estimating lasso for educ using plugin

Cross-fit fold 3 of 10 ...
Estimating lasso for lwage using plugin
Estimating lasso for educ using plugin

Cross-fit fold 4 of 10 ...
Estimating lasso for lwage using plugin
Estimating lasso for educ using plugin

Cross-fit fold 5 of 10 ...
Estimating lasso for lwage using plugin
Estimating lasso for educ using plugin

Cross-fit fold 6 of 10 ...
Estimating lasso for lwage using plugin
Estimating lasso for educ using plugin

Cross-fit fold 7 of 10 ...
Estimating lasso for lwage using plugin
Estimating lasso for educ using plugin

Cross-fit fold 8 of 10 ...
Estimating lasso for lwage using plugin
Estimating lasso for educ using plugin

Cross-fit fold 9 of 10 ...
Estimating lasso for lwage using plugin
Estimating lasso for educ using plugin

Cross-fit fold 10 of 10 ...
Estimating lasso for lwage using plugin
Estimating lasso for educ using plugin

Cross-fit fold 1 of 10 ...
Estimating lasso for pred(educ) using plugin

Cross-fit fold 2 of 10 ...
Estimating lasso for pred(educ) using plugin

Cross-fit fold 3 of 10 ...
Estimating lasso for pred(educ) using plugin

Cross-fit fold 4 of 10 ...
Estimating lasso for pred(educ) using plugin

Cross-fit fold 5 of 10 ...
Estimating lasso for pred(educ) using plugin

Cross-fit fold 6 of 10 ...
Estimating lasso for pred(educ) using plugin

Cross-fit fold 7 of 10 ...
Estimating lasso for pred(educ) using plugin

Cross-fit fold 8 of 10 ...
Estimating lasso for pred(educ) using plugin

Cross-fit fold 9 of 10 ...
Estimating lasso for pred(educ) using plugin

Cross-fit fold 10 of 10 ...
Estimating lasso for pred(educ) using plugin

Cross-fit partialing-out           Number of obs                  =        428
IV linear model                    Number of controls             =         27
                                   Number of instruments          =          9
                                   Number of selected controls    =          4
                                   Number of selected instruments =          3
                                   Number of folds in cross-fit   =         10
                                   Number of resamples            =          1
                                   Wald chi2(1)                   =      10.84
                                   Prob > chi2                    =     0.0010

------------------------------------------------------------------------------
             |               Robust
       lwage | Coefficient  std. err.      z    P>|z|     [95% conf. interval]
-------------+----------------------------------------------------------------
        educ |   .0727853   .0221045     3.29   0.001     .0294612    .1161094
------------------------------------------------------------------------------
Endogenous: educ
Note: Chi-squared test is a Wald test of the coefficients of the variables
      of interest jointly equal to zero. Lassos select controls for model
      estimation. Type lassoinfo to see number of selected variables in each
      lasso.

. 
end of do-file

.

在标题中，我们看到27个控制变量中有4个被选中，9个可能的工具变量中有3个被选中。这是模型的稀疏表示。

我们估计每增加一年的教育，工资的对数就增加0.073。因为工资是对数化的，我们将其解释为变化率，所以每增加一年的教育，工资就增加7.3%。这接近伍尔德里奇估计的8%，他的估计在我们的95% CI 2.8%到11.6%之内。

让我们看看如果我们使用交叉验证进行选择，结果会如何比较：

. xpoivregress lwage(educ=$inst), controls($exog) selection(cv) rseed(12345)

结果为：

xpoivregress lwage (educ=$inst), controls($exog) selection(cv) rseed(12345)


*结果为：

*-----------------------------------result.begin--------------------------------

 xpoivregress lwage (educ=$inst), controls($exog) selection(cv) rseed(12345)



Cross-fit partialing-out           Number of obs                  =        428
IV linear model                    Number of controls             =         27
                                   Number of instruments          =          9
                                   Number of selected controls    =         20
                                   Number of selected instruments =          7
                                   Number of folds in cross-fit   =         10
                                   Number of resamples            =          1
                                   Wald chi2(1)                   =       7.68
                                   Prob > chi2                    =     0.0056

------------------------------------------------------------------------------
             |               Robust
       lwage |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        educ |   .0645424   .0232832     2.77   0.006     .0189082    .1101765
------------------------------------------------------------------------------
Endogenous:   educ
Note: Chi-squared test is a Wald test of the coefficients of the variables
      of interest jointly equal to zero. Lassos select controls for model
      estimation. Type lassoinfo to see number of selected variables in each
      lasso.

. 
end of do-file

. 



*-----------------------------------result.over--------------------------------

与plugin选择的4个控制变量相比，交叉验证选择了20个控制变量。与plugin选择的3个工具变量相比，它选择了7个工具变量。我们对每增加一年的教育对工资变化的点估计为6.5%，置信区间为1.9%至11.0%。交叉验证和plugin的系数估计在5%的水平上都是显著的。尽管系数估计略有不同，plugin和交叉验证得出了相同的推断。

已婚妇女的教育回报

本文以伍德里奇第十五章数据mroz.dta为例，研究已婚妇女的教育回报，相关数据介绍如下：

use morz.dta
edit
desc
*被解释变量
label var lwage 已婚妇女工资的对数值
*解释变量
label var educ 受教育年数 
label var exper    工作年限
label var expersq    工作年限平方

*工具变量
label var fatheduc  已婚妇女的父亲的受教育年数
label var motheduc 已婚妇女的母亲的受教育年限

其中研究问题为：

建立lnwage与educ、exper 、expersq的方程，但是包括了影响已婚妇女工资的遗漏变量，可能存在内生性问题，其中能力会对工资产生影响，但是却与解释变量X中的educ相关，内生性存在。

因此需要寻找与能力相关，但是与误差项不相关的工具变量，认为已婚妇女的父亲和母亲的受教育年数跟已婚妇女的 educ相关的，而这两个变量与已婚妇女的能力相关，可以替代原来内生变量的信息。因此，可以作为 educ的工具变量。

断点回归方法，来自《经济研究》、《经济学（季刊）》等的操作规范（附代码复刻）

2025年Stata寒假班--AI赋能机器学习与因果推断前沿

韦恩图与FWL定理

2025年Stata初高级寒假班--AI赋能+原理+操作+论文+前沿应用

Stata+R：交叠DID命令清单

DDML主页--双重机器学习入门必备手册

Marp 和 Markdown 快速制作幻灯片

AI赋能科研：2025Stata机器学习与因果推断前沿

《中国工业经济》2024年第11期目录和主要命令集合

合成控制法进展：机器学习中随机森林+SCM！分位数控制法

AI+Stata：2025机器学习与因果推断前沿专题

2025新目标，掌握Hansen 教授提到的最先进的估计方法

Stata+R：异质性DID稳健估计量命令清单

Lasso机器学习&工具变量VS 伍德里奇经典案例--工具变量操作

2025年Stata初高级寒假班--AI赋能+原理+操作+论文+前沿应用

内生性问题：方法、进展与Stata实现（附命令+示例+论文）

Stata：一文读懂help、findit、search、ssc、net、hsearch的具体应用

AI赋能科研：Stata学术研究中的智能应用

Stata：一文搞懂熵权法

Stata：多期DID动态处理效应稳健估计-DIDm估计量—did_multiplegt（附4篇论文应用）

2025Stata寒假班--双重机器学习&因果推断前沿应用

2025Stata寒假班，赠送AI+Stata学术应用阅读讲义

交叠DID操作指南--培根分解、事件研究和安慰剂检验代码+操作手册

htmltab2stata：将 html 表格加载到 Stata 中

Stata18.0因果中介分析新进展（Stata大会）+软件实现+论文推荐

推荐2篇《数量经济技术经济研究》上含Bartik 工具变量法论文（附代码复现)

因果推断经验研究-中介效应论文方法/应用+8大命令资源推荐

DDML：双重机器学习（Stata中Python相关设置）

Stata：Lasso必备速查手册

论文应用+事件研究的平行趋势可信性检验及stata操作：pretrends

2024年第1期--第12期《数量经济技术经济研究》命令、方法汇总

推荐8篇应用 honestdid 进行DID平行趋势/置信区间敏感性检验论文

复现AER大运河_交叠DID及合成控制法应用

机器学习基本术语及其与计量经济学的区别与联系

Stata+R：合成控制双重差分法（SDID）及安慰剂检验

机器学习基本原理笔记

15篇安慰剂检验permute命令应用论文汇总--《中国工业经济》+《数量经济技术经济研究》

AI赋能科研&Stata机器学习与因果推断前沿

24篇bdiff组间系数差异检验等方法论文-《数量经济技术经济研究》+《中国工业经济》

5天30小时进阶AI辅助的机器学习与因果推断前沿方法（双重机器学习+交叠DID+SCM+SDID+HCW+RDD+PSM等前沿）

【精彩回顾】往期Stata初高级专题课--板书截图

一次性搞定DID、SCM、SDID结果输出

户口价值文章提出的断点检验新方法--rdbalance命令操作结果复刻

5篇双重机器学习DDML论文《数量经济技术经济研究》+《中国工业经济》论文推荐

ChatGPT辅助Stata：合成控制法synth操作

2024新的平行趋势检验方法，推荐这8篇最新应用论文

SSC外部命令操作与JDE期刊_户口价值文章 VS 《数量经济技术经济研究》上7月27日论文_研究房价与家庭消费

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉