倍分法(DID)的标准误：不能忽略空间相关性

文摘教育 2024-09-09 22:03 山西

👇 连享会 · 推文导航 | www.lianxh.cn

🍎 Stata：Stata基础 | Stata绘图 | Stata程序 | Stata新命令
📘 论文：数据处理 | 结果输出 | 论文写作 | 数据分享
💹 计量：回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归
⛳ 专题：SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析
🔃 因果：DID | RDD | 因果推断 | 合成控制法 | PSM-Matching
🔨 工具：工具软件 | Markdown | Python-R-Stata
🎧 课程：最新专题 | 计量专题 | 关于连享会

🍓 课程推荐：2024 空间计量专题
主讲老师：范巧 (兰州大学)
课程时间：2024 年 10 月 2-4 日 (三天)
课程咨询：王老师 18903405450（微信）

课程特色 · 2024空间计量：

👉 一、从“零基础”到“高水平”的课程设计

兼顾基础知识、主流模型与前沿模型
既考虑软件安装、程序编写以及空间权重矩阵设计等 基础知识 讲授，更强调时空面板地理加权回归模型、贝叶斯空间计量模型、矩阵指数模型、空间计量交互模型与空间面板似不相关回归模型等 前沿模型 的传授。

👉 二、“保姆级”的空间计量代码

编写与校准所有模型的MATLAB代码，简化实操环节
模型的估计与检验等 仅按照提供的Excel数据版式 搜集与整理原始数据，即可一次性出结果并作图。

👉 三、“最多上新” 的内容体系

新增矩阵指数模型、短面板空间似不相关模型、空间计量交互模型、贝叶斯空间计量模型等
新增前沿应用案例，包括空间计量与索洛余值法、随机前沿分析与数据包络分析等的互嵌研究，阐释基于空间计量的产业空间结构优化评价方法。
新增 Dagum空间基尼系数、核密度估计、空间马尔科夫链与空间收敛性等内容，阐释现实研究中对空间收敛性的应用“谬误”。

作者： 伊凌雪（中央财经大学）
邮箱： yilingxue99@163.com

1. 简介
2. 文章的主要思想和核心结论
3. 使用真实数据集进行模拟

3.1 ACS模拟
3.2 CPS模拟
3.3 蒙特卡洛模拟-双向聚类

4. 可能的解决方案和建议

4.1 可能的解决方案
4.2 作者的建议

5. 结论

温馨提示： 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码，直达原文：

本文主要编译自如下论文：
Source：- Ferman, Bruno. 2019. “Inference in Differences-in-Differences: How Much Should We Trust in Independent Clusters?” MPRA Paper. [PDF]

👉 本文来自专辑：连享会专题 - 倍分法 DID
👉 最新链接：https://www.lianxh.cn/blogs/39.html

1. 简介

倍差法 (DID) 是识别应用经济学中因果关系使用最广泛的方法之一。然而，在 DID 模型中存在序列和空间相关性会导致推理变得复杂。Bertrand 等 (2004) 表明如果不考虑序列相关性，在 DID 模型应用中会导致过度拒绝，之后，大多数应用DID模型的论文采取了假设对任意形式的序列相关性都稳健的推理方法，但是这些论文大多都没有考虑空间相关性。Barrios et al. (2012) 表明，在聚类中进行随机分配处理时，忽略空间相关性并不会产生推理的问题。在本文中，作者考虑了在处理非随机分配问题中， DID 模型忽略空间相关性的后果。

2. 文章的主要思想和核心结论

本文的核心观点是 DID 模型中空间相关性问题主要取决于该组未吸收的分组和时间固定效应，代表 DID 模型中未观察到的变量，该变量在控制了分组和时间固定效应后仍然存在。因此， DID 模型中的推理只有在假设误差项的序列和时间相关性时才可能成立，而在多数研究中的是DID模型推理没有对的时间相关性进行限制。标准的DID模型如下：

其中为组在时间的结果变量，是指示变量，如果在时间对第组进行处理，则该变量等于 1 ，否则为 0 。参数定义为对于的因果效应，而和分别是分组和时间固定效应。误差项代表在控制了分组和时间固定效应后仍然存在的未观察到的变量。

规定为处理组、为控制组和为时间段。我们假设从日期开始，所有处理组的均为 1 。设 ( ) 是处理 (控制) 组的指数集合，而 ( )是处理后 ( 前 ) 时期的指数集合。在 Ferman 和 Pinto (2019) 的基础上，我们考虑每组的平均误差的前后差异，其计算公式如下：

在DID模型中，只有在假设误差项序列或空间相关性时，才能进行推理。最常见的是，DID模型的推理方法没有对时间相关性进行限制，可以由误差的线性组合得到，假设在组中是独立的。

当假设独立时，最常见的选择是依据聚类稳健方差估计 (CRVE) 进行群体层面的集群，直到自由度修正， CRVE 由下式给出：

是 DID 回归残差的线性组合。假设跨独立，当， → 时， CRVE 提供渐近有效的推论。然而，如果在之间存在相关性，那么不考虑这种空间相关性会导致对真实标准误差的严重低估，则会导致过度拒绝。

为了证明这个想法，我们列出一个遵循潜在结果的线性因子的模型，并推导出当考虑这样的基础模型时所隐含的。令为组在时间时未处理 (处理) 的结果。

其中是共同冲击的向量，而是因子载荷的向量，决定了组受到共同冲击的影响。我们假设所有空间相关性都被线性因子结构吸收，在上是独立的，但是和任意序列相关。通过参考DID估计量的分布，并基于 , , 和的重复抽样框架分布推断参数。

本节给出的结果强调了以下情况：当空间相关性被忽略时，线性因子模型结构会使空间相关冲击导致推理问题，忽略该空间相关性的估计标准误将被低估，会导致过度拒绝。当处理前和处理后公因子的平均值相近时，与空间相关的冲击变得无关紧要。重要的是，无论的序列相关性如何，该结果都是有效的。相比之下，处理组和控制组的因子载荷平均值相似，对空间相关冲击会减弱。

3. 使用真实数据集进行模拟

本文通过两个真实的数据集，美国社区调查 (ACS) 和当前人口调查 (CPS) ，对前面提出的结论进行模拟。遵循Bertrand (2004) 等使用的策略，随机生成安慰剂干预措施，然后评估基于忽略空间相关性的推断而拒绝零值的模拟比例。

3.1 ACS模拟

本文通过对2005年到2017年的美国社区调查 (ACS) 数据进行模拟，并选择两个状态和两个时期，然后在第二个时期在公用微数据区 (PUMA) 级别分配处理。由于预期状态级别存在未观测到的协变量，因此公用微数据区存在潜在的空间相关性。作者考虑了两种不同的处理分配，一种是公用微数据区与其状态无关的随机分配治疗，另一种是在状态级别分配的处理。

将样本限制为25至50岁之间的女性，并将工资和就业状况作为结果变量。通过 DID 回归，使用 PUMA 级别聚集的标准误来检验零假设。因此，推理方法允许同一公用微数据区中个体之间存在任意相关性，但限制在不同公用微数据区中个体的误差项是独立的。由于处理都是随机分配的，如果推理顺利进行，则应在 5% 的时间内拒绝零假设。

图 1 显示了使用 ACS 数据的模拟的拒绝率。处理前后之间的距离 () 从 1 到 10 年不等，预处理期间为 2005 年至 2017 年。结果显示的是 25 至 50 岁妇女的工资 (图1 A) 和就业状况 (图1 B) 。这些结果与第 2 节中的结论相吻合，即当处理前和处理后时间段之间的距离很短，则分组固定效应会吸收大部分空间相关性。然后，处理前后时期之间的距离较大，分组固定效应将吸收较少的空间相关性，会产生严重的过度拒绝。双向集群可能会低估标准误差，因为没有考虑对于和 , 和之间的相关性。

3.2 CPS模拟

通过对 1979 年到 2018 年的 CPS 数据进行模拟，选择两年和两个年龄组。在这些模拟中，我们将一对 (状态 × 年龄) 视为组，并使用包含时间固定效应和状态 × 年龄固定效应的DID模型估计处理效应。基于聚集在状态级别标准误来检验无效的零假设。因此，我们假设处于不同状态的个体的误差项是独立的。

在这些模拟中，我们现在可以测量前期和后期 () 之间以及处理组和控制组 () 之间的接近度。因此，在本示例中，可以验证第 2 节中的结论，即当 (i) 处理组和控制组更为相似，或者 (ii) 处理前时期接近处理后时期时，相关冲击应该会减轻。

图 2 显示了使用 CPS 数据的模拟的拒绝率，我们考虑了所有成对年份和年龄的组合。初始时间段为 1979 年至 2018 年。初始年龄为 25 至 50。对于每个模拟，我们运行 DID 回归并使用在状态级别上聚集的标准误来检验原假设。结果变量是工资 (图2 A) 和就业状况 (图2 B) ，分别考虑了每个模拟中年龄相同的女性。

总体而言，这些模拟结果与第2节中针对线性因子模型得出的结果一致，只有在处理后和处理前期间 ( 较大) 以及处理组和控制组 ( 较大) 之间存在显著差异时，会产生严重过拒绝。

3.3 蒙特卡洛模拟-双向聚类

本文通过展示一个小型的蒙特卡洛 (MC) 模拟，以分析DID设置中的双向集群的属性。这里给出一个简单的例子，其中有100个小组，一半是处理组，一半是控制组，其中，当时，，当时，。这些结果证实了前文提出的观点，即双向集群可能会低估标准误差，因为没有考虑对于和，和之间的相关性。

表1给出了模拟的拒绝率。第 1 列显示基于稳健标准误差的拒绝率 (没有聚类) 。第 2 列显示了基于分组聚类的标准误差的拒绝率。第 3 列显示了基于分组和时间水平上的双向聚类标准错误的拒绝率。

4. 可能的解决方案和建议

4.1 可能的解决方案

结果表明，如果不对误差的时间序列或横截面相关性附加其他假设，DID估计量则不可能得出有效的推论。为了说明这一点，如果我们不对误差的结构施加任何限制，那么误差项方程在公式 (2) 中可能是这样的：

问题的核心是，如果我们想让误差在两个维度之间相互关联，那么至少需要在一个维度上测量距离。在时间序列或横截面中对至少一维的误差结构施加限制，当假设误差在上是独立的时，即使不对时间序列相关性施加任何限制，也可以提供有效的推论 ( 例如 Arellano ( 1987 ) 和 Bertrand 等 ( 2004 ) ) 。这些方法大多数将依据渐近理论，使其组数达到无穷大。尽管测量距离在时间序列维度上是自然的，但在横截面上却不明显，所以当周期数小时，就很难进行推理。

4.2 作者的建议

结果显示，当 (i) 公因子在处理前后的平均值之差的二阶矩很大时，并且 (ii) 因子载荷在处理组和控制组的分布有很大差异，或因子载荷表现出空间相关性时，可能导致严重的过度拒绝。因此，在这种情况下，应确保以上两种情况中至少有一个条件不满足。一个可能的建议是将样本限制在处理前和处理后的几个时期。群体固定效应将吸收未观察到的常见冲击，从而使得假设独立群体的推断更加可靠。

另一方面，如果实证工作的重点是估计政策变化的长期影响，那么就不可能通过将样本限制在政策变化前后的时期内来最小化。因此，应确保处理组和控制组尽可能相似，这样可以使得空间相关性的更大部分被年份固定效应所吸收。

在多个预处理期的情况下，也可以进行安慰剂检验，以测试空间相关性是否存在问题。这些结果表明，空间相关性的预测试可以提供有关基于 CRVE 推断是否可靠的信息，预测试也可以测试空间相关的冲击，这样不会增加额外的问题。

5. 结论

本文分析了在倍差法 (DID) 模型推理中忽略空间相关性的问题。如果空间相关性结构遵循线性因子模型，当存在以下两种情况时我们将说明忽略这种相关性的推理仍然是可靠的：(i) 公因子在处理前后的平均值之差的二阶矩很低；或者 (ii) 处理组和控制组的因子载荷分布具有相同的期望值，并且没有表现出显著的空间相关性。本文通过真实数据集进行的模拟证实了这些结论。在此基础上，提供了有关如何最大程度地减少由于空间自相关性引起的推理问题的方案，并分析了空间相关性预测试属性的建议。

🍓 课程推荐：2024 空间计量专题
主讲老师：范巧 (兰州大学)
课程时间：2024 年 10 月 2-4 日 (三天)
课程咨询：王老师 18903405450（微信）

New！ Stata 搜索神器：lianxh 和 songbl GIF 动图介绍
搜：推文、数据分享、期刊论文、重现代码 ……
👉 安装：
. ssc install lianxh
. ssc install songbl
👉 使用：
. lianxh DID 倍分法
. songbl all

🍏 关于我们

连享会 ( www.lianxh.cn，推文列表) 由中山大学连玉君老师团队创办，定期分享实证分析经验。
直通车： 👉【百度一下：连享会】即可直达连享会主页。亦可进一步添加「知乎」,「b 站」,「面板数据」,「公开课」等关键词细化搜索。

http://mp.weixin.qq.com/s?__biz=Mzk0MDI1NTgyOQ==&mid=2247577503&idx=3&sn=36e52623838a4df01d19ef0b8b13d30c

连享会

连玉君老师团队分享，主页：lianxh.cn。白话计量，代码实操；学术路上，与君同行。

最新文章

log-0 问题：零值太多如何取对数？

IV-控制函数法-内生性和 Hausman 检验的原理解读

Stata：一文读懂两部模型-twopm

经济学家知错必改吗？AER复现类论文的影响

空间计量——内容全新！

合成控制法简介

Synth_Runner命令：合成控制法高效实现

连享会公开课：MATLAB基础知识与实战应用——今晚直播！

安慰剂检验：因果推断中的安慰剂检验设计

Stata-Matching：肾脏交换匹配问题

Stata：iematch-近邻贪婪匹配

公开课重要更新：MATLAB基础知识与实战应用，改于明晚直播

Stata代码规范指南

RDD-断点回归：实践指南

rddensity-RDD中的平滑性检验和操纵检验

社会科学研究复现包中的自述文档模板

空间计量——从基础到前沿！

倍分法：DID是否需要随机分组？

长差分：Long Difference及Acemoglu AER论文推介

连享会公开课：MATLAB基础知识与实战应用——13号直播！

如何衡量核心变量的解释力

Stata-双样本孟德尔随机化法 (MR)-mrrobust

工具变量：教育回报IV探讨

经济学顶刊论文可复现吗？

空间计量——从入门到精通！

wcbregress：面板聚类标准误

Stata：如何估计包含非时变变量的动态面板模型-xtseqreg

连享会公开课：MATLAB基础知识与实战应用——13号直播！

Stata：滚动回归的五个命令-rolling

倍分法(DID)的标准误：不能忽略空间相关性

DID边际分析：让政策评价结果更加丰满

delta method：获取标准误

空间计量——内容全新！

Stata：IV估计新方法-ivreg2m

Stata：基于IV的因果中介分析-ivmediate

Stata：分组回归系数比较的思路

连享会公开课：MATLAB基础知识与实战应用

Stata数据处理：一月有几周？月度和周数据转换

Stata：CLDS数据转码闪退问题解决方案

CLHLS：中国老年健康影响因素跟踪调查数据清洗

Stata：寻找让实证结果表现不好的样本

主成分分析-交互固定效应基础：协方差矩阵的几何意义

连享会公开课：MATLAB基础知识与实战应用

Stata：贝叶斯方法-bayes

Stata：dofile模板DIY-速来认领吧

Stata-Python交互：二者配合的基本设定

Stata-空间权重矩阵的构建

Stata数据处理：模糊匹配-reclink2-matchit-strgroup

Stata：双重机器学习-多维聚类标准误的估计方法-crhdreg

空间计量——代码便利！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉