如果存在事前趋势咋办? 如何检测事前趋势, 为什么会有, 会影响研究结论可信度么?

学术   2024-10-27 00:03   美国  

凡是搞计量经济的,都关注这个号了

邮箱:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

在平行趋势检验过程中发现存在事前趋势pre-trend不可怕,但要进行讨论而不是各种X操作,例如:平行趋势通不过, 该采取什么方法来更好地满足平行趋势呢?

关于平行趋势,1.平行趋势检验, 事件研究图绘制, 安慰剂检验的保姆级程序指南!2.标准DID中的平行趋势检验,动态效应, 安慰剂检验, 预期效应教程,3.平行趋势通不过, 该采取什么方法来更好地满足平行趋势呢?4.平行趋势的敏感性检验, 结果能容忍违反多大程度的平行趋势,5.某经济学权威刊物上平行趋势怎么这样, 真给我看迷糊了! 到底如何对pre-trend检测, 讨论和处理呢?6.在平行趋势检验中对政策前后系列年份进行缩尾处理?7.三重差分DDD估计中平行趋势检验如何操作呢?8.2篇TOP5: 当前平行趋势检验方法有问题,新的平行趋势检验方法已经出现,9.前沿: 平行趋势没有通过却成功发在了AER上!10.只有4期数据, 为啥平行趋势检验时有6期呢? DID与连续变量交互系数如何解释? 11.历史上首篇DID中修改平行趋势而被撤稿的TOP5文章!11.连续型DID也要被改造! 现成的平行趋势PT和TWFE估计都有问题, 时隔3年再次出发!
*至于如果存在显著事前趋势,该如何办的问题,我们放到明天再讨论。
下面看看这2篇文章对可能存在pre-trend问题的检测、讨论(即为什么可能存在,若处理后就不会存在pre-trend问题)、到底有多少pre-trend,会不会影响文章的研究结论可信性。

本文的识别策略在很大程度上依赖于处理组和对照组之间的可比性。在本节中,从多个角度对这一假设进行了检验。在之前的分析中,作者比较了处理组和对照组的二氧化硫(SO2)粗糙的时间趋势,具体数据可见图2。

为了进一步验证处理组和对照组的可比性,本文检验了日落前后是否存在区域性的气象条件差异。为此,采用了前面的双重差分模型,并在后续分析中将因变量替换为各个气象控制变量。表3展示了两个核心自变量的估计系数,即日落(Sunset)和Treat*Sunset。在与主模型相同的一组固定效应条件下,日落的系数在统计上显著(除了对表面气压的影响,列6),这表明大气条件确实在日落后发生了变化。与环境科学文献的发现一致,许多指标显示日落后扩散条件变差,例如,风速和边界层高度(BLH)显著下降,导致污染物在地面上的积累。

然而,如表3Panel A所示,Treat*Sunset的系数表明大多数气象条件(如温度、露点温度、降水量、风速和风向)在日落后在处理组和对照组之间没有显著变化。唯一在这两组间有显著变化的两个变量是边界层高度和表面气压(列6和列7)。具体来说,回归结果表明,处理区的表面气压和BLH的下降幅度小于对照区。尽管如此,表面气压和BLH的相对下降值与其平均值相比非常小。更为重要的是,由于高表面气压和高边界层高度有助于污染物的扩散,因此,本文的估计至少处于伪装污染(disguised pollution)的下限。
此外,与表3 Panel A相比,使用限制样本的Panel B结果显示所有气象条件的差异微乎其微;换言之,处理组和对照组在这一方面的可比性非常高。尽管表面气压的Treat*Sunset系数在边际上显著,但相对于表面气压的平均值,其相对幅度极小。

第三,图3展示了对二氧化硫(SO2,以对数形式)进行的事件研究,其回归结果可见表A3。图中的系数表示某个小时的污染水平与日落前一个小时相比的差异。它意味着,这些系数捕捉了日落后伪装污染的累积效应。正如图3所展示的,SO2在日落后有显著的增加。具体来说,与日落前相比,整体SO2水平在日落后的四小时内上升了10.8%。从绝对值来看,事件研究表明,在日落后的四小时内,SO2的增加量为2.58 μg/m³(基于处理组在日落前六小时的平均值作为准计算得出的)。

事件研究帮助我们观察污染物水平的事前趋势。在日落前六小时,处理组和对照组之间的污染物水平变化没有显著差异。然而,在日落前两小时和三小时的系数在5%的水平上是统计显著的,尽管在经济意义上并不显著。
然后作者就需要解释为什么会如此呢?为什么在日落前2、3小时的系数在统计上显著?即出现了所谓的事前趋势问题。
根据文献和相关程序包,本研究中使用的日落时间是基于三个关键变量计算得出的,即纬度、经度和日期。除了这三个关键因素外,还有其他潜在因素,例如海拔,也可能影响日落时的能见度,从而导致排放烟雾在肉眼不可见时的测量误差。海拔对日落时能见度的影响主要缘于2个因素:首先,由于光的折射现象,即便地区的纬度和经度相同,高海拔地区的日落时间通常晚于低海拔地区。其次,地形也会影响光的可见程度,被山脉环绕的区域可能会有较差的能见度条件。

为了进一步阐释不同海拔站点的构成如何影响平行事前趋势检验的结果,将完整样本以1000米为海拔阈值划分为低海拔组和高海拔组。其中,低海拔组包含116个处理站和213个对照站,而高海拔组则包含3个处理站和97个对照站。正如图A4所示的事件研究结果,只使用低海拔站点(海拔低于1000米)进行估计的日落前双重差分(DID)系数非常接近于0且也不显著,表明没有明显的事前趋势。

此外,图A5展示了限制样本的事件研究结果,其中日落前的系数在统计上均不显著。这一发现进一步强化了之前的结论,即在限制样本中,处理组和对照组在可比性方面表现出极高的一致性。

最终,尽管在事件研究中未发现事前趋势存在差异性的证据,还是对这一检验在本研究中的统计功效进行了深入分析。依据Roth (2022)的方法,作者首先确定了能够被检测到的线性事前趋势的规模(参考, AER: Insights对传统方法做平行趋势检验的质疑!谨慎开展政策前趋势检验!)。如图4所示,分析结果显示,在事件研究中,有80%的统计功效可以侦测到0.00899或更大幅度的正向线性事前趋势。这意味着,在这样规模的事前趋势下,有80%的可能性发现显著的事前趋势。

如果存在一个幅度最大为0.00899的事前趋势(尽管无法检测到)计算出这在第四个小时之后最多会产生0.03525的偏差。而实际在第四个小时后的估计值为0.1079,这个数值明显大于可能的偏差(是潜在偏差的3.06倍)。因此,这一结果进一步验证了本研究的稳健性,即使存在一些无法检测到的小趋势,这些趋势对主要估计结果的影响也是非常有限的。

这张图表呈现了Roth (2022)提出的事前趋势检验。分析结果显示,在本研究的事件研究中,有能力以80%的统计功效侦测到0.00899或更大的正线性事前趋势(红线的斜率表示这种趋势的大小)。如果存在一个最大幅度为0.00899的事前趋势,计算出这将在第四个小时之后导致最多0.03525的偏差,这一潜在的偏差用蓝线在图中表示。


除了上篇文章,下面这篇也使用了Roth(2022)方法检测了存在事前趋势的统计功效。
平行趋势假设是事件研究中识别因果效应的核心要素。验证统计上显著的事前趋势的存在,对于评估平行趋势假设的合理性至关重要。然而,近期的文献对于使用传统方法来检测平行趋势的有效性提出了疑虑,认为这些方法的统计功效可能不足。为了检验在当前研究情境下检测事前趋势的功效,作者采用Roth (2022)提出的方法。
采用了Roth (2022)的方法来检测事前趋势的功效。分析结果表明,在基准事件研究回归模型中,有80%的统计功效能够侦测出0.067幅度的线性事前趋势。如果确实存在这样的趋势,那么在与明星科学家首次共同署名后的三年内,其影响将导致包括领域标准化总引用(FNTC)的偏差最多为0.3039,而这个数值显著低于我们估计的0.560。另一方面,不包括FNTC的估计结果显示出较低的稳健性。具体来说,线性事前趋势的幅度为0.063,由此导致的偏差(0.273)超过了我们对此结果估计的0.151。为了提升侦测非平行趋势的功效,增加了事前处理期的数量,重复进行了分析,这次包含了6个事前处理期。这一做法再次验证了包括FNTC的结果的稳健性。不包括FNTC的估计现在变得更加稳健,并且明显超过了潜在偏差(0.091),达到了1.7倍。

可以进一步到社群交流讨论计量知识。

Reference: 1.Sumit Agarwal等, 2023, Disguised pollution: Industrial activities in the dark, Journal of Public Economics.

2.Anil Yadav等, 2023, How does co-authoring with a star affect scientists' productivity? Evidence from small open economies, Research Policy.

3.Xiliang, Zhao, 2024, 双重差分法原理及其最新发展:一个不完全综述

关于多期DID或交叠DID: 1.DID相关前沿问题“政策交错执行+堆叠DID+事件研究”, 附完整slides,2.交错(渐进)DID中, 用TWFE估计处理效应的问题, 及Bacon分解识别估计偏误,3.典范! 这篇AER在一图表里用了所有DID最新进展方法, 审稿人直接服了!4.最新Sun和Abraham(2020)和TWFE估计多期或交错DID并绘图展示结果!详细解读code!5.多期DID或渐进DID或交叠DID, 最新Stata执行命令整理如下供大家学习,6.多期DID前沿方法大讨论, e.g., 进入-退出型DID, 异质性和动态性处理效应DID, 基期选择问题等,7.交叠DID中平行趋势检验, 事件研究图绘制, 安慰剂检验的保姆级程序指南!8.欣慰! 营养午餐计划终于登上TOP5! 交叠DID+异质性稳健DID!9.用事件研究法开展政策评估的过程, 手把手教学文章!10.从双重差分法到事件研究法, 双重差分滥用与需要注意的问题,11.系统梳理DID最新进展: 从多期DID的潜在问题到当前主流解决方法和代码! 12.标准DID中的平行趋势检验,动态效应, 安慰剂检验, 预期效应教程,13.DID从经典到前沿方法的保姆级教程, 释放最完整数据和代码!

一些讨论,1.七大常见计量问题讨论汇总, 涉及控制,异质,机制,DID,DDD,调节,固定,平行,安慰等,2.关于双重差分DID政策评估中的控制变量选取标准?3.在平行趋势检验中对政策前后系列年份进行缩尾处理?4.使用异方差稳健而不是聚类稳健标准误, 在固定效应模型中能接受吗?5.平行趋势通不过, 该采取什么方法来更好地满足平行趋势呢?6.QA: 基尼太美, 农业数据, 机制检验, 组间差异, 博士论文创新, 控制函数, FM回归 7.审稿人: 你2SLS-IV回归中为啥R方是负数呢?

7年,计量经济圈近2000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


计量经济圈
凡是搞计量经济的,都关注这个号了。
 最新文章