Stata：双重机器学习-多维聚类标准误的估计方法-crhdreg

文摘教育 2024-09-04 22:03 山西

👇 连享会 · 推文导航 | www.lianxh.cn

🍎 Stata：Stata基础 | Stata绘图 | Stata程序 | Stata新命令
📘 论文：数据处理 | 结果输出 | 论文写作 | 数据分享
💹 计量：回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归
⛳ 专题：SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析
🔃 因果：DID | RDD | 因果推断 | 合成控制法 | PSM-Matching
🔨 工具：工具软件 | Markdown | Python-R-Stata
🎧 课程：最新专题 | 计量专题 | 关于连享会

🍓 课程推荐：2024 空间计量专题
主讲老师：范巧 (兰州大学)
课程时间：2024 年 10 月 2-4 日 (三天)
课程咨询：王老师 18903405450（微信）

课程特色 · 2024空间计量：

👉 一、从“零基础”到“高水平”的课程设计

兼顾基础知识、主流模型与前沿模型
既考虑软件安装、程序编写以及空间权重矩阵设计等 基础知识 讲授，更强调时空面板地理加权回归模型、贝叶斯空间计量模型、矩阵指数模型、空间计量交互模型与空间面板似不相关回归模型等 前沿模型 的传授。

👉 二、“保姆级”的空间计量代码

编写与校准所有模型的MATLAB代码，简化实操环节
模型的估计与检验等 仅按照提供的Excel数据版式 搜集与整理原始数据，即可一次性出结果并作图。

👉 三、“最多上新” 的内容体系

新增矩阵指数模型、短面板空间似不相关模型、空间计量交互模型、贝叶斯空间计量模型等
新增前沿应用案例，包括空间计量与索洛余值法、随机前沿分析与数据包络分析等的互嵌研究，阐释基于空间计量的产业空间结构优化评价方法。
新增 Dagum空间基尼系数、核密度估计、空间马尔科夫链与空间收敛性等内容，阐释现实研究中对空间收敛性的应用“谬误”。

作者： 董洁妙 (暨南大学)
邮箱：graceveio@163.com

温馨提示： 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码，直达原文：

1. 背景简介
2. crhdreg 命令

2.1 命令安装
2.1 命令语法

3. Stata 实操
4. 结语
5. 参考资料
6. 相关推文

编者按：本文的是如下论文的 Stata 实操版本
Chiang, H.D., K. Kato, Y. Ma, and Y. Sasaki, 2022, Multiway Cluster Robust Double/Debiased Machine Learning. Journal of Business & Economic Statistics, 40(3), pp. 1046-1056. -Link-, -PDF-

1. 背景简介

近年来，研究人员在实证研究中经常使用多通道聚类的抽样数据展开分析：如匹配后的雇主-雇员数据、匹配后的学生-教师数据、观察结果按商店和产品双重索引的匹配数据、以及观察结果按市场和产品双重索引的市场份额数据等。

这些数据通常会面临着多维相关性的问题，并不符合独立同分布的性质。并且，如果只在单一层面估计聚类标准误，就会难以兼顾另一层面相关性对结果所造成的偏误。

因此，Chiang et al.（2022）利用 Chernozhukov et al.（2018）开发的 DML工具箱（Double Machine Learning：用于估算和推断具有高维和/或无限维干扰参数的结构参数），提出了一种改进的多向交叉拟合DML估计方法，使之适应多向聚类采样数据，提升估计结果的有效性。

为了推广这一估计方法的使用，Chiang et al.（2022）编写了 crhdreg 命令，用于估计双重聚类稳健的标准误、以及估计使用偏置机器学习（DML）方法的高维回归结果。

下文将详细介绍 crhdreg 命令的使用方法。

2. crhdreg 命令

2.1 命令安装

这一命令的安装如下：

ssc install crhdreg, replace

2.1 命令语法

安装好命令之后，可以输入 help crhdreg，查看 crhdreg 的帮助文档。

help crhdreg

如帮助文档所示，crhdreg 的语法结构如下：

crhdreg depvar indepvarlist1 indepvarlist2 [if] [in] [, cluster1(varname) cluster2(varname) iv(varname) dimension(real) folds(real) resample(real) median alpha(real) tol(real) maxiter(real)]

depvar：指定回归的被解释变量。
indepvarlist1：指定回归的内生解释变量。
indepvarlist2 ：指定回归的外生解释变量；通常是控制变量。
cluster1(varname)：设置聚类变量；在单向或双向聚类中构建第一个聚类维度。不调用这个选项会自动导致执行更高维的LS回归或无聚类的高维IV回归。
cluster2(varname)：设置聚类变量；在单向或双向聚类中构建第二个聚类维度。如果调用了cluster1而没有调用cluster2，那么命令会执行的只有一种聚类方式（以cluster1选项设置的变量为主）的高维LS回归或高维IV回归。
iv(varname)：设置indepvarlist1的工具变量；当这一选项不被调动时，该命令将执行高维LS回归。
dimension(real)：设置 indepvarlist1 中变量的数量，这些变量的系数将显示在输出表中。默认值是 dimension(1) 。它必须是一个正整数，不大于包含在 indepvarlist1 和 indepvarlist2 中的变量总数。
folds(real)：设置双重/偏置机器学习中交叉拟合的折叠次数K。在无聚类或单向聚类的情况下，默认值为folds(5)。在双向聚类的情况下，默认值是folds(3)。它必须是一个大于1的正整数。
resample(real) ：设置双重/偏倚机器学习的精细样本调整的重采样次数。默认值是resample(10)。它必须是一个正整数。
median ：设置指示器，表示有限样本调整使用重新抽样的估计值的中位数。不调用这个选项会导致使用重新抽样的估计值的平均值。
alpha(real) ：设置弹性网络算法（Elastic Net 是一种使用L1和L2先验作为正则化矩阵的线性回归模型；这种组合用于只有很少的权重非零的稀疏模型）中的惩罚权重。默认值是alpha(1)，弹性网络算法是LASSO（最小绝对收缩和选择操作）。如果这个选项被设置为alpha(0)，那么弹性网络算法就变成了岭回归模型。此外，这个参数必须是一个介于0和1之间的实数。
tol(real)：设置公差作为弹性网络算法的数值解的停止标准。默认值是tol(0.000001)。这个参数必须是严格的正实数。
maxiter(real)：设置弹性网数值解的最大迭代次数。默认值是maxiter(1000)。这个参数必须是一个自然数。

3. Stata 实操

为了更好地理解 crhdreg 在实际分析中的应用，不妨以 Calvi et al. (2021) 使用是否加入美国退休金401k计划对个人净固定资产的影响进行举例。

401k计划是指美国1978年《国内税收法》新增的第401条k项条款的规定，具体指代一种由雇员、雇主共同缴费建立起来的完全基金式的养老保险制度。但是，个人选择养老保险会与家庭、年龄相关；相似家庭规模的人群更容易同时选择是否参与养老保险制度，同一年龄层的个体也更容易同时选择是否加入养老保险计划。那么，如果只使用稳健性标准误，就有可能忽视个体之间的相关性，而导致结果有偏；而如果只针对单一层面的相关性进行聚类，又有可能未能完全考虑个体相关对回归结果所造成的偏误。

因此，针对这种情况，Chiang et al.（2022）提出了双向稳健性标准误的估算方式，通过 crhdreg 命令估计加入401计划对个人净固定资产所造成的影响。

首先，调用数据进行回归分析：

 · bcuse 401ksubs, clear

接着，假定被解释变量是个人净固定资产（nettfa），解释变量是是否加入401计划（p401k），控制变量是个人年度收入，本文使用 crhdreg 命令估计加入401计划对个人净固定资产所造成的影响。

 · crhdreg nettfa p401k inc
 · est store eq_LS

第三，由于相似家庭规模的人群更容易同时选择是否参与养老保险制度，引入聚类在家庭规模变量（grf）的标准误，修正回归结果。

 · xtile grf = fsize, nq(10) 
 //此处是为了举例所做的简化，实际操作时并不必要这一步

 · crhdreg nettfa p401k inc, cluster1(grf)
 · est store eq_c1

类似地，由于同一年龄层的个体也更容易同时选择是否加入养老保险计划，引入聚类在年龄层面（age）的标准误，修正回归结果。

 · xtile gra = age, nq(10) 
 //此处是为了举例所做的简化，实际操作时并不必要这一步

 · crhdreg nettfa p401k inc, cluster2(gra)
 · est store eq_c2

第四，考虑到同时存在两个维度的相关性，同时引入聚类在家庭规模层面（fsize）的标准误、以及聚类在年龄层面（age）的标准误，修正回归结果。

 · crhdreg nettfa p401k inc, cluster1(grf) 
   cluster2(gra)
 · est store eq_c1c2

第六，考虑到p401k可能存在内生性，假设e401k是合适的工具变量，修正的回归结果如下所示。

 · crhdreg nettfa p401k inc, iv(e401k)  
   cluster1(grf) cluster2(gra)
 · est store eq_iv

下表汇总了前五种情况的回归结果。直观可见，加入更多维度的聚类会使核心变量的显著程度明显下降；但尽管如此，Chiang et al.（2020）仍然建议使用双向聚类的结果作为基准，以更好地展示真实一致的估计结果。

. esttab eq_*

------------------------------------------------------------
         (1)         (2)         (3)        (4)       (5)   
                                                      
------------------------------------------------------------
p401k  13.20***    11.22***    13.20***   12.01*    9.253   
      (6.98)      (5.63)      (6.98)     (2.09)    (1.61)   
------------------------------------------------------------
N       9275        9275        9275       9275      9275   
------------------------------------------------------------
t statistics in parentheses
* p<0.05, ** p<0.01, *** p<0.001

4. 结语

相信大家在阅读本推文后，对何时使用双向聚类估计，以及如何使用 crhdreg 命令获取双向聚类的估计结果有了更深入的理解。不过，它也存在一些不足，比如只能够考虑双重偏误冲击所造成的影响。未来，几个可能性的优化方向包括：

目前，作者所使用的聚类估计是以线性模型的设定出发，未来可以适当放松至非线性模型的设定得到相关结果；
尽管文章关注的是无条件时刻限制（unconditional moment restrictions）的情况，但为条件时刻限制（conditional moment restrictions）开发一种方法和理论可能是可能的，也是重要的。

5. 参考资料

Chiang, H.D., K. Kato, Y. Ma, and Y. Sasaki, 2022, Multiway Cluster Robust Double/Debiased Machine Learning. Journal of Business & Economic Statistics, 40(3), pp. 1046-1056. -Link-, -PDF-
Calvi, R., A. Lewbel, and D. Tommasi, 2021, LATE With Missing or Mismeasured Treatment. Journal of Business & Economic Statistics, forthcoming. -Link-, -PDF-
Chernozhukov, V., Chetverikov, D., Demirer, M., Duflo, E., Hansen, C., Newey, W., and J. Robins, 2018, Double/debiased machine learning for treatment and structural parameters. -Link-, -PDF-

6. 相关推文

Note：产生如下推文列表的 Stata 命令为：
lianxh 标准误
安装最新版 lianxh 命令：
ssc install lianxh, replace

专题：回归分析

Stata：标准误！标准误！
Stata：聚类标准误的纠结
acreg：允许干扰项随意相关的稳健性标准误
Stata：聚类调整标准误笔记
Stata：聚类调整后的标准误-Cluster-SE
小样本下OLS估计的纠偏聚类标准误

专题：面板数据

Stata：面板聚类标准误-自动确定最优聚类层级和数量-xtregcluster
wcbregress：面板聚类标准误

专题：倍分法DID

倍分法(DID)的标准误：不能忽略空间相关性

🍓 课程推荐：2024 空间计量专题
主讲老师：范巧 (兰州大学)
课程时间：2024 年 10 月 2-4 日 (三天)
课程咨询：王老师 18903405450（微信）

New！ Stata 搜索神器：lianxh 和 songbl GIF 动图介绍
搜：推文、数据分享、期刊论文、重现代码 ……
👉 安装：
. ssc install lianxh
. ssc install songbl
👉 使用：
. lianxh DID 倍分法
. songbl all

🍏 关于我们

连享会 ( www.lianxh.cn，推文列表) 由中山大学连玉君老师团队创办，定期分享实证分析经验。
直通车： 👉【百度一下：连享会】即可直达连享会主页。亦可进一步添加「知乎」,「b 站」,「面板数据」,「公开课」等关键词细化搜索。

http://mp.weixin.qq.com/s?__biz=Mzk0MDI1NTgyOQ==&mid=2247577257&idx=3&sn=9ff42e50322b1e6aaa0519db12911291

连享会

连玉君老师团队分享，主页：lianxh.cn。白话计量，代码实操；学术路上，与君同行。

最新文章

Stata2R：那些 R 中的 _N 和 _n 替代技巧

距离开课仅余3天！机器学习与因果推断

Stata：自己动手做组间系数差异检验-bootstrap-bdiff

Stata：导入年度、季度、月度等频数面板数据-xtimportu

R数据处理-多条件判断：ifelse() 和 case_when()

三重差分--碳减排政策的真实效应：财务约束与溢出效应

论文复现：装模做样的IV

Top期刊论文精讲与复现：机器学习与因果推断

interflex：交乘项值得信任吗？陷进及应对方法

计量经济学论文的写作方法——基于实证研究的视角

知乎热议：发顶刊是什么感觉？

如何撰写理论模型类论文？

距离开课仅余6天！机器学习与因果推断

知乎高赞：各大行业报告的数据都是从哪里找的？

金融数据哪里找——Akshare数据平台

VScode插件：安装、配置和使用

Stata：数据包络分析 (DEA) 简明教程

Stata-DEA：数据包络分析一文读懂

从基础到 AI 助手：Python 用户最爱的 VScode 插件清单

距离开课仅余8天！机器学习与因果推断

Stata：面板分位数模型估计及内生性初探

Matlab：数据包络分析 (DEA) 入门教程

TeXStudio：无法正常显示中文字符怎么办？

图解Lasso系列A：Lasso的变量筛选能力

Stata：交叉验证之LOOCV方法-looclass命令详解

jregex：用正则表达式快速实现匹配和替换

图解Lasso系列A：Lasso的变量筛选能力

Stata：交叉验证之LOOCV方法-looclass命令详解

eventbaseline：事件研究的估算与可视化

知乎热议：发 Top 5 和 Field Top 是什么感觉？

知乎热议：穷人出身的孩子能不能靠读博士搞科研稍微改变命运？

机器学习与因果推断

新书推荐：可复现数据科学及 Python 应用

Zotero：常用功能梳理

如何搭建个人主页-GitHub / Gitee

残差能做因变量吗？两步估计法实操指南

Markdown笔记利器：Typora主题-最美的模板

Stata+Markdown：输出幻灯片+PDF+Word-markstat

扒一扒！拒一篇稿子需要理由吗？

Python：爬取动态网站

Python爬虫1：小白系列之requests和json

sdid_event命令：合成DID事件研究法

Stata-Python交互：Stata17 新特性之PyStata的配置与应用

R语言绘制社会网络图

RStudio常用的快捷键一览

机器学习与因果推断

Stata：正则表达式教程

Stata文本分析：lsemantica-潜在语义分析的文本相似性判别

Rcall：Stata 与 R 的无缝对接

哇！Stata参考书和经典教材！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉