异质性分析!异质性分析!

文摘   教育   2024-11-14 22:00   山西  


👇 连享会 · 推文导航 | www.lianxh.cn

🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)

 课程特色 · 2024机器学习与因果推断

  • 懂原理、会应用。本次课程邀请了两位老师合作讲授,目的在于最大限度地实现理论与应用的有机结合。为期四天的课程,分成两个部分:第一部分讲解常用的机器学习算法和适用条件,以及文本分析和大语言模型;第二部分通过精讲 4-6 篇发表于 Top 期刊的论文,帮助大家理解各类机器学习算法的应用场景,以及它们与传统因果推断方法的巧妙结合。
  • 以 Top 期刊论文为范例。目前多数人的困惑是不清楚如何将传统因果推断方法与机器学习结合起来。事实上,即便是 MIT 和 Harvard 的大牛们也都在「摸着石头过河」。为此,通过论文精讲和复现来学习这部分内容或许是目前最有效的方式了。张宏亮老师此前在浙江大学按照这一模式教授了「因果推断和机器学习」课程,效果甚佳:学生们能够逐渐建立起研究设计的理念,并在构造识别策略时适当地嵌入机器学习方法。

作者:陈波 (暨南大学)
邮箱:chenbo2019@email.szu.edu.cn

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


目录

  • 1. 引言

  • 2. 为什么要做异质性分析

  • 3. 什么是好的异质性分析

    • 3.1 强化因果关系

    • 3.2 呼应经典文献

    • 3.3 具有政策含义

    • 3.4 紧扣核心变量

  • 4. 总结

  • 5. 相关推文



1. 引言

江艇老师曾在论文中直言:

在基准回归之外,出于扩充文章篇幅的需要,研究者会简单地按地区、规模、所有制等进行一些异质性分。

张川川老师曾经调侃道:

当代研究生写作有“三大法宝”:用 PSM 来解决内生性,用三步法来检验机制,划分东中西部来做异质性分析。虽然话语中饱含戏谑,却也说出了一部分实情,各类模板化的异质性分析在实证论文中确实有滥竽充数之势。

多位在学界颇有建树的老师在讲座中也提到了相似的观点:

异质性分析不是用来凑篇幅的,应该做有意义的异质性

但是,对于如何做有意义的异质性分析,老师们却并没有细讲。因此,本文基于近年来发表在经济学顶刊上的部分做法,试图做一个粗浅的总结。当然,囿于自身水平,这种总结肯定是不全面的,还请读者见谅。

2. 为什么要做异质性分析

首先,我们为什么要做异质性呢?这主要源自两方面的原因:

一方面是因为辛普森悖论。我们以下图为例,横轴是服药剂量,纵轴是病人健康水平,蓝色散点表示年轻人,红色散点表示老年人。

可以发现,无论是对年轻人还是老年人来说,服药都能缓解病情,优化健康。但是,当我们把两类人放到一起时,却发现一个很荒谬的结论:药吃的越多,健康水平越差。这种组内趋势与整体趋势相异甚至相反的现象,就是著名的辛普森悖论。

这种现象在经济学里面也并不鲜见。以时隔五年发表在《金融研究》上的两篇文章为例,潘越等 (2017) 研究发现,方言多样性越高的地区,上市公司的创新产出越高。但是,张杰和王文凯 (2022) 却发现,方言多样性会降低企业的创新投入。

两篇文章的解释变量都是使用徐现祥老师的数据,而且工具变量都是地形坡度。两篇文章最大的差异就是前者使用的是上市公司,而后者使用的是工企库。相比于上市公司,工企库内的企业规模明显要小很多。样本选择范围的不同可能是两篇文章结论迥异的重要原因。

另一方面是因为没有普适的政策 (陆铭老师语)。以陆铭老师自己的工作论文为例,他们研究了中国 2004 年大规模关闭开发区对企业生产率的影响,发现这一政策使得沿海企业的 TFP 降低了 9.62%,但是对其他区域的企业影响却不显著 (Chen 等 2019,NBER)。这说明开发区政策仅对沿海企业有效,对内陆企业的影响有限。

同样地,邵帅等 (2019,经济研究) 在研究中国的城市化推进与雾霾污染时,发现城市化进程加剧了雾霾污染。但是,异质性分析则表明,紧凑集约型的城市化模式对雾霾污染有显著的促降作用,而规模扩张型的城市化模式则不利于抑制雾霾污染。

综合上述文章可以发现,异质性分析有时候可能会得出不同、甚至是相反的结果,这也是异质性分析有趣的地方,也是其价值所在。

3. 什么是好的异质性分析

所谓“兵无常势,水无常形,能因敌变化而取胜者,谓之神” (《孙子兵法·虚实篇》),异质性分析也一样,并没有一定的章法,重要的是与论文本身相契合。

总览相关文献,比较经典的是以下四种做法,下面一一进行介绍。

3.1 强化因果关系

江艇 (2022,中国工业经济) 指出:一篇因果推断经验研究文章的重点永远是正确识别处理变量对结果变量的因果关系。因此,文章中的每一字每一句都应该为这一目标服务。异质性分析也不例外。

具体来讲,主要可以通过两种方式来强化因果关系。一种方式是“百尺竿头更进一步”,沿着既定的逻辑框架进行延伸。

例如,Muralidharan 和 Prakash (2017,AEJ) 评估了印度的免费自行车政策对女生入学率的影响,发现该政策可以有效增加女性的入学率,其异质性分析部分则进一步分析了离学校距离对政策效应的影响。

自行车作为一种交通工具,有其局限性:短途完全可以走路,自行车节约不了多少时间;长途则只能搭车,自行车意义不大。因此我们可以预期,距离与政策效应之间应该更可能呈倒 U 型分布。

实证结果也如作者所料,自行车在家离学校 5-13 公里时作用最大 (如下图所示)。这一异质性结果无疑进一步强化了作者所讲的故事。

另外一种强化因果关系的方式是“反弹琵琶”,即提出一个竞争性假说,再放入模型中予以验证。若竞争性假说不能 (完全) 解释既定的因果关系,则说明基准结果很可能是对的。这一过程被形象的称之为“赛马” (Horse Race)。

例如,Brown (2011,JPE) 试图验证,在锦标赛机制中,超级明星会降低其他选手的努力程度 (因为有超级明星后,其他选手可能沦为陪跑)。但这实证时,却存在一种竞争性的假说:超级明星参加的可能都是比较难的赛事,其他选手发挥更差可以由赛事难度解释,而非超级明星效应。

作者的解决方法是将选手们按排名分为高、中、低三档。如果选手的水平下降可以由赛事难度解释的话,那么可以预期,低水平选手会受到更大的影响,即系数更大。但回归结果却刚好相反,高水平选手受到的影响更大且在统计上显著,低水平选手影响小且统计上不显著 (如下图所示)。实证结果与竞争性假说完全相反,从而进一步强化了既定的故事。

相关的做法还有:朱孟楠和徐云娇 (2022,金融研究)Coviello 等 (2022,JPE)Mirenda 等 (2022,AER) 等。

3.2 呼应经典文献

首先,异质性分析最重要的莫过于有经典文献支撑,现有文献也多以此展开分析。例如劳动经济学中的性别差异、行业差异与城乡差异等 (刘子兰等 2019,经济研究;Xu,2019,JPubE);公司金融中的企业性质、企业规模等 (张璇等,2017;Mao 等,2022,USUE);城市经济学中的城市规模、城市行政级别等 (陈诗一和陈登科,2018;Chen 等,2021,JEBO)。

由于男女两性在生理结构、认知水平等方面的广泛差异,分性别讨论不仅可以男女平等,还有明确的政策含义,这成了很多劳经文献的标准动作。例如,Chen 等 (2020,AER) 在分析 Send-down movement 对地区教育的影响时,性别分组发现这一提升效应对女学生影响更大,说明该政策不仅提高了农村地区的教育水平,还缩小了性别教育差距。

男女生之间的差异还体现在行为模式上。Cai 等 (2019,RSTtat) 在研究压力环境下的个体反应时,发现男性有着更好的抗压能力,在压力环境下表现更好,有时候甚至还能逆风翻盘,而女性则更可能发挥失常。Egebark 等 (2021,JPubE) 在分析相亲市场上的互动行为时,也发现了两性之间的差异:男性更有可能对学历较低的相亲女性做出回应,而受过大学教育的女性则会拒绝比自己学历低的男性。

在公司层面的研究中,国有企业与非国有企业的差异也是一个老生常谈的话题。相比于非国有企业,国企具有鲜明的行政色彩,利润最大化未必是其核心追求。Knutsson 和 Tyrefors (2022,QJE) 在研究救护车服务的公、私营差异时,就发现私营企业会绕开劳动法,让员工加更多的班,而且其救护人员的专业水平也低于公共部门。

此外,国企与行政机关联系更为紧密,议价能力更强,很多激励措施对国企未必有效。例如,Hering 和 Poncet (2014,JEEM) 在研究中国的环境规制政策 (两控区) 对企业出口的影响时,就发现规制效应仅存在于民营企业,对国企的影响不显著。He 等 (2020,QJE) 在研究水污染规制对企业全要素生产率的影响时,发现规制显著降低了企业生产率,但这种效应主要是由内资私有企业驱动的,对国企和外企影响有限。Mao 等 (2022,USUE) 也发现了相似的结果,环境规制对国企的能源消费 (煤炭) 无显著影响。

熊彼特提出,企业规模越大,从事创新活动越有效率,这就是著名的熊彼特假说。虽然 Aghion 等人后来提出了更具解释力的框架,但分析不同规模企业的差异影响,依然可以得到很多有意思的发现。Li 等 (2021,JDE) 在分析企业所得税减免对劳动收入份额的影响时,发现这种负面影响只存在于大企业,因为大企业的资本积累更强,有能力进行资本深化。

相似的研究还有:刘行和赵晓阳 (2019,经济研究)田彬彬和范子英 (2018,经济研究)龙玉等 (2017,经济研究)Helm (2020,RES) 等。

3.3 具有政策含义

如果说,在国外的情境下,能够对理论做出回应才是一篇好的论文,那么在国内的情境下,这一标准就变成了能够对国家政策做出回应。中文论文的选题有着很明显的政策导向,有些期刊甚至明确要求有一定篇幅的政策建议。因此,如果能基于异质性分析引出针对性的政策含义,无疑能为你的文章增光添彩。

地区禀赋是影响政策成效的重要原因,以此为支点通常能延伸出针对性的政策建议。例如,林毅夫等 (2020,经济研究) 在研究中国政府消费券政策的经济效应时,发现在转移支付比例高 (财政实力弱) 的城市,消费券对消费的刺激作用更弱。因而建议对于自身财政实力不足的地区,应该允许其使用上级的转移支付,或增加财政赤字来支持消费券发放。

Couture 等 (2021,AERI) 在研究电商下乡对农村消费的影响时,发现电商对更接近快递点、地处更偏远的村庄影响更大。由此引出的政策建议也十分直接,电商下乡时应该考虑地区禀赋,关注偏远地区的福利。

Unfried 等 (2022,JEEM) 在研究水资源稀缺对社会冲突的影响时,发现在具有充分地表水和地下水供应的情况下,水资源减少对社会冲突的影响会极大的缓解。而需求侧因素 (灌溉、采矿和城市化) 虽然会加剧水资源稀缺,但是并不会加剧水资源问题对社会冲突的影响。这说明要解决水资源导致的社会冲突问题,关键在于开源,而非节流。

个体/家庭禀赋的差异,也会影响干预的成效。Borowiecki (2022,JPE) 在研究作曲家师承对作曲风格的影响时,发现了一个很扎心的结论。如果作曲家的老师水平越高,学生与老师的风格越相似,其成为行业顶尖的可能性也越大。而如果作曲家的老师水平越次,学生与老师的风格越像,反倒会成为职业生涯的拖累。这提醒我们,应该向高水平学者学习,见贤思齐焉。

De Cao 等 (2022) 在分析孕期失业对新生儿健康的影响时,发现失业率提高 1%,贫困地区的新生儿体重会降低 0.2%,而富裕地区的新生儿体重反而会提高 0.4%。失业导致贫困家庭直接失去了生活来源,恶化了新生儿健康;但对富裕家庭而言,失业反而增加了新生儿陪伴时间。因此,政策制定者应该更加关注贫困家庭的失业风险。

相似文献还有:叶祥松和刘敬 (2020,经济研究)周茂等 (2018,中国工业经济)周京奎等 (2019,经济研究)Demirci 等 (2019,JFE)

3.4 紧扣核心变量

还有一种比较经典的做法是紧扣文章的被解释变量或解释变量,进行异质性分析,这样做的好处是能够进一步深化文章的主题。

较多的文献是从解释变量出发。例如 Borowiecki (2017,RES) 在研究情绪对作曲家创造力的影响时,发现主要是负面情绪激发了作曲们的创造力。在使用文本衡量各类情感时,划分积极或消极情感,也是各类研究的标准动作了 (Vosoughi 等,2018,Science)

Helm (2020,RES) 在分析贸易冲击对集聚经济溢出效应的影响时,将贸易冲击按照产业类型划分为来自高科技产业的冲击和来自低科技产业的冲击,结果发现集聚溢出主要是由高科技行业的贸易冲击引起的。

也有部分文献从被解释变量出发。例如,Gebresilasse (2023,JDE) 在农村道路建设和农业推广对作物生产率的影响时,异质性分析中将作物划分为谷物与非谷物,发现政策主要对谷物类的作用有积极影响。

刘瑞明等 (2020,经济研究) 在研究文化体制改革对地区旅游经济发展时,即基于地区的旅游资源禀赋和旅游公共服务水平进行异质性分析,发现地区旅游公共服务水平越好,文化体制改革对旅游业的发展作用越强。

黎文靖等 (2021,经济研究) 在研究知识产权司法保护对企业创新的影响时,即按照创新能力强弱将企业划分为两组进行回归,发现产权保护仅削弱了低创新能力企业的研发投入与专利数量,但对高创新能力企业则没有显著影响。

相似做法的文章还有:臧文斌等 (2020,经济研究)宋弘和陆毅 (2020,经济研究)Chen 等 (2022,EJ) 等。

4. 总结

综合上文可以发现,异质性分析并没有定式,贵在言之有物。而且异质性分析也并非文章所必须。目前也有越来越多的文章不做异质性分析,转为将精力放到更具深度的进一步分析,试图拓展文章的纵深,挖掘出更有价值的信息。

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 调节 异质, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:回归分析
    • 聚类异质性:使用summclust进行统计推断
    • 调节效应是否需要考虑对控制变量交乘?
  • 专题:面板数据
    • 异质性分析:系数平滑可变模型
    • Stata:面板中如何合理控制不可观测的异质性特征
  • 专题:倍分法DID
    • Stata:异质性稳健DID估计量方法汇总
    • DID最新进展:异质性处理条件下的双向固定效应DID估计量 (TWFEDD)
    • DID新进展:异质性多期DID估计的新方法-csdid
  • 专题:内生性-因果推断
    • Stata因果推断:hettreatreg-用OLS估计异质性处理效应
  • 专题:交乘项-调节-中介
    • interactplot:图示交乘项-交互项-调节效应
    • Stata:图示交互效应-调节效应
    • Stata:调节中介效应检验.md
    • 离散型调节变量——该如何设定模型?
  • 专题:空间计量-网络分析
    • Stata:异质性空间自回归模型 (HSAR)-hetsar

🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)

尊敬的老师 / 亲爱的同学们:

连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。 请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。 我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!

New! Stata 搜索神器:lianxh 和 songbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
  . ssc install lianxh
  . ssc install songbl
👉  使用:
  . lianxh DID 倍分法
  . songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。

连享会
连玉君老师团队分享,主页:lianxh.cn。白话计量,代码实操;学术路上,与君同行。
 最新文章