安慰剂检验：因果推断中的安慰剂检验设计

学术 2024-09-28 10:00 山西

🍓 课程推荐：2024 空间计量专题
主讲老师：范巧 (兰州大学)
课程时间：2024 年 10 月 2-4 日 (三天)
课程咨询：王老师 18903405450（微信）

课程特色 · 2024空间计量：

👉 一、从“零基础”到“高水平”的课程设计

兼顾基础知识、主流模型与前沿模型
既考虑软件安装、程序编写以及空间权重矩阵设计等 基础知识 讲授，更强调时空面板地理加权回归模型、贝叶斯空间计量模型、矩阵指数模型、空间计量交互模型与空间面板似不相关回归模型等 前沿模型 的传授。

👉 二、“保姆级”的空间计量代码

编写与校准所有模型的MATLAB代码，简化实操环节
模型的估计与检验等 仅按照提供的Excel数据版式 搜集与整理原始数据，即可一次性出结果并作图。

👉 三、“最多上新” 的内容体系

新增矩阵指数模型、短面板空间似不相关模型、空间计量交互模型、贝叶斯空间计量模型等
新增前沿应用案例，包括空间计量与索洛余值法、随机前沿分析与数据包络分析等的互嵌研究，阐释基于空间计量的产业空间结构优化评价方法。
新增 Dagum空间基尼系数、核密度估计、空间马尔科夫链与空间收敛性等内容，阐释现实研究中对空间收敛性的应用“谬误”。

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码，直达原文：

作者：张紫艺 (南方科技大学)
邮箱：breeze_zhang@foxmail.com

编者按：本文主要摘译自下文，特此致谢！
Source：Eggers A C, Tuñón G, Dafoe A. Placebo tests for causal inference[J]. American Journal of Political Science, 2023. -PDF-

1. 引言

本文旨在明确安慰剂检验的概念，探讨其作用机制，并提供设计和解读安慰剂检验的方法，以期提升其在社会科学中的应用与理解。

在研究某个结果变量的处理效应时，估计出处理效应只是完成了部分工作。除了评估该处理效应是否源于偶然 (零假设显著性检验)，还需要进行一系列辅助检验。例如，

通过稳健性检验评估结论对模型选择的依赖性；
通过子样本分析检查处理效应在不同群体间是否以符合因果理论的方式变化；
通过敏感性分析评估剩余混杂因素对研究结论的影响。

这些辅助检验有助于进一步验证研究方法是否能够可靠地衡量处理效应，而不受随机误差、模型设定偏差、变量混杂或其他偏差的影响。

安慰剂检验是一种辅助分析方法，有助于评估研究结果的可信度。“安慰剂检验”一词源于医学，其中“安慰剂”最初指一种无效的药物，旨在通过欺骗来安抚焦虑的病人，后来演变为指药物试验中药理上惰性的被动治疗。在政治科学、经济学以及其他社会科学研究中，“安慰剂检验”指的是那些不应产生处理效应的检验 (如药物试验中的安慰剂)。如果在安慰剂检验中发现明显的处理效应，则表明该研究可能存在重要缺陷。

近年来，安慰剂检验在政治科学领域变得越来越普遍。图1展示了 2005 年至 2021 年间，在七大顶级政治科学期刊 (包括《美国政治科学评论》、《美国政治科学杂志》、《政治杂志》、《国际组织杂志》、《英国政治科学杂志》、《政治科学季刊》和《比较政治研究》) 上发表的包含“安慰剂检验”及相关术语的谷歌学术论文数量。我们在2009年之前并未发现提到“安慰剂检验”的论文，但此后这一数量逐年稳步增长，仅在 2021 年就有超过 50 篇相关论文发表。

2. 安慰剂检验的理论基础

安慰剂检验旨在探究研究设计背后的假设 (下文简称核心假设) 是否成立。在安慰剂检验中，如果核心假设不成立，那么安慰剂检验中的处理效应更有可能存在。在安慰剂检验中，评估处理效应的显著性非常重要，这一显著性将为核心假设是否成立提供依据。

2.1 贝叶斯形式下的安慰剂检验

令原假设为“核心假设成立”，并以表示；为备择假设。假设进行了次安慰剂检验 ( 是一个重要的特殊情况)，并进一步假设每次检验都产生一个二元结果：以“失败检验”代表拒绝零假设的检验；以“通过检验”代表零假设没有被拒绝的检验。

令表示当为真时检验失败的概率 (测试的假阳性率或检验的显著性水平)，设表示当为真时检验失败的概率 (测试的真阳性率、灵敏度或检验的功效)。为简单起见，我们假设个测试都有相同的和，并且是条件独立的。

给定次失败的检验，根据贝叶斯规则，与的后验概率之比 (即后验比值比) 为：

由上式可知，在给定检验结果的情况下，核心假设成立 () 与核心假设不成立 () 的相对可能性是先验相对可能性乘以在与下获得这些结果的可能性之比 (即贝叶斯因子)。需要注意的是，虽然原则上可以量化等式 (1) 的每个组成部分，但总的来说，等式 (1) 的作用应该是对于理解安慰剂检验背后逻辑的一种启发，而不是用于定量计算。

2.2 安慰剂检验的有效充分条件

文章提供了一组充分条件，使得安慰剂检验可以验证核心假设是否成立，即提供了大于的充分条件。这些条件有助于帮助我们理解在实证文献中遇到的大多数安慰剂检验背后的逻辑。

从研究设计中的核心检验入手，核心检验中所估计的平均处理效应由三部分组成：

其中：为平均处理效应的真实值；为偏误，；为抽样误差，。

使用估计值检验零假设时，需要满足两个假设：

第一，偏误假设 (The bias assumptions，以下简称 BA)，即，一般来说，偏误假设包括关于识别、估计、测量和样本选择的假设，在这些假设下为无偏估计。
第二，抽样分布假设 (The distributional assumptions，以下简称 DA)，DA 与的抽样分布有关，明确了选定的和相应的双边拒绝区域。

安慰剂检验评估 BA 和 DA 是否成立。安慰剂检验将得到估计量：

使用观测到的估计值来检验核心假设是否成立，需要建立如下假设：

假设1：(No Average Treatment Effect，简记 NATE) 。

根据 NATE，在安慰剂检验中，不存在处理效应。

假设2：(Linked Bias Assumptions，简记 LBA) 。

根据 LBA，如果在核心检验中成立，那么它在安慰剂检验中也成立。

假设3：(Linked Distributional Assumptions，简记 LDA) 。

根据 LDA，如果在核心检验中成立，那么它在安慰剂检验中也成立。

NATE、LBA 和 LDA 共同意味着，如果核心假设成立，则 (当为真时检验失败的概率) 至多为，下图说明了该逻辑。

假设4：(Linked Violation of Distributional Assumptions，简记 LVDA)

如果假设 1、2 和 4 (NATE、LBA 和 LVDA) 成立，则在下，测试的真阳性率超过。在验证 DA 的安慰剂检验中，备择假设 (称为) 为 BA 成立，但 DA 不成立。

假设5：(Linked Violation of Bias Assumptions，简记 LVBA) 。

根据 LVBA，如核心分析有偏差时，安慰剂分析也会有偏差。在验证 BA 的安慰剂检验中，备择假设 (称为 ) 是 DA 成立但 BA 不成立。

假设6：(Sampling error in placebo analysis，简记 SEPA) (以及 ) 的分布是单峰且对称的，具有严格递增的分布函数。

2.3 安慰剂检验的分类

尽管理论上存在多种设计安慰剂检验的方法，然而，作者对政治学文献的研究表明，几乎所有安慰剂检验都是基于对核心检验最低程度的改动，来评估对结果变量的处理效应。结合核心检验最常被修改的三种方式 (如下图)，文章定义：

安慰剂样本检验 (Placebo population test)：改变样本的安慰剂检验
安慰剂结果检验 (Placebo outcome test)：改变结果变量的安慰剂检验
安慰剂处理检验 (Placebo treatment test)：改变处理变量的安慰剂检验

3. 使用 DAG 设计安慰剂检验

3.1 使用 DAG 的基本逻辑

以遗漏变量为例，使用 DAG (有向无环图) 说明安慰剂检验背后的逻辑。如下图左上所示，研究目标是衡量 (treatment) 对 (outcome) 的平均处理效应。有一个未观测到的变量被认为会影响，研究人员假设不影响，即和间的虚线可以完全擦除。如果研究人员关于“ 不影响 ”的假设不成立，换句话说对产生影响，则与之间的相关关系可能也反映了来自混杂因素的影响。安慰剂检验的目的是评估“ 不影响 ”的假设是否成立。

在安慰剂结果检验中 (图右上) ，研究人员找到了一个受影响但不受影响的变量。然后，研究人员用和重复核心检验步骤。此时，若发现与之间存在关联，则研究人员核心检验中的识别策略将受到质疑。

安慰剂处理检验中 (图左下)，研究人员找到了不影响，但会以类似于的方式受到来自的影响的变量。然后，研究人员用和重复核心检验步骤。此时，若发现与之间存在关联，则研究人员核心检验中的识别策略将受到质疑。

安慰剂样本检验中 (图右下) ，研究人员找到了另一个样本群体，在新样本群体中，不受的影响，但会以相似的方式影响。在新样本群体中重复核心检验，若和之间出现任何系统性的关联 (因为这种关联是由混杂因素引起的)，则研究人员核心检验中的识别策略将受到质疑。

3.2 将 DAG 运用于实际案例

Peisakhin 和 Rozenas (2018) 针对俄罗斯新闻媒体对 2014 年乌克兰投票选举影响的研究提供了多种安慰剂检验。在 2014 年乌克兰大选前，俄罗斯西南部的电视台向乌克兰播放亲俄新闻节目。研究者认为，这些广播显著影响了乌克兰的选举结果，部分原因是俄罗斯新闻电视信号较强的地区更倾向于投票支持亲俄罗斯政党。然而，这一结果是否可能是由于“接收俄罗斯新闻广播效果更好的地区本身就更亲俄”这一因素导致的呢？为了解决这一疑虑，Peisakhin 和 Rozenas (2018) 提出了几项安慰剂检验。

3.2.1 安慰剂结果检验

Peisakhin 和 Rozenas (2018) 旨在评估具有政治倾向的俄罗斯新闻电视对乌克兰 2014 年选举和政治态度的影响。在辖区层面的分析中，研究者们寻求衡量乌克兰选举区内俄罗斯新闻电视信号质量对选举结果的平均影响。Peisakhin 和 Rozenas (2018) 的识别策略将辖区与俄罗斯的距离作为固定效应，从而使信号质量独立于潜在结果 (即对亲俄政党的政治支持)。然而，存在一种潜在的替代解释：信号发射机的选址可能具有战略意义，换言之，在居民更倾向于支持俄罗斯的地区，配置了信号质量更好的发射机。

Peisakhin 和 Rozenas (2018) 通过安慰剂结果检验在一定程度上解决了这一问题。该测试使用辖区内讲俄语人口的百分比作为替代的。图中的加入了控制变量，研究的目的是估计 (俄罗斯新闻电视信号质量) 对 (投票结果) 的影响。关注点集中在潜在的混杂因素 (观察到的讲俄语人口比例) 和 (假设未观察到的更紧密的俄罗斯文化联系) 上。Peisakhin 和 Rozenas (2018) 的假设是虚线路径可以被忽略，即和不会影响。在安慰剂检验中，被替换为。如果在和之间存在显著关联，那么这一独立假设就会受到质疑。

3.2.2 安慰剂处理检验

图中的 DAG 展示了 Peisakhin 和 Rozenas (2018) 安慰剂处理检验的逻辑。补充一个知识背景，俄罗斯新闻信号、体育节目和其他娱乐节目的信号是由不同的发射机发射的。在 DAG 中，体育电视信号质量可能受到相同的潜在混杂因素和的影响，这可能会干扰新闻电视信号质量与亲俄罗斯投票之间的关系。然而，体育电视信号质量并不会直接影响投票结果。

该项安慰剂检验背后的逻辑在于，如果某选区与俄罗斯有更紧密的文化关联，则当地俄罗斯体育节目信号同样会更强，与此同时，体育节目并不会影响政治选举行为。如果体育节目信号强度对亲俄政党的投票率无关，则可以确认信号质量独立于对亲俄政党的支持。

3.2.3 安慰剂样本检验

Peisakhin 和 Rozenas (2018) 的个人层面分析如下图所示。该研究调查了受访者是否观看俄罗斯电视新闻以及他们的投票选择；同时将俄罗斯新闻电视信号质量作为工具变量，并控制了俄罗斯与选区之间的距离固定效应。

重点关注混杂因素 (与俄罗斯文化的紧密联系 )，并考虑工具变量的排除性限制，即信号质量仅通过观看俄罗斯电视影响投票选择的假设。关于工具变量的基本要求意味着 DAG 中的虚线路径可以被忽略：外生的俄罗斯文化联系和其他潜在混杂因素不会影响信号质量，而信号质量仅通过观看俄罗斯电视影响投票选择。

Peisakhin 和 Rozenas (2018) 通过改变样本 (population) 的安慰剂检验解决了这两个问题：他们选择了一组不观看地面电视的受访者，例如那些拥有卫星电视的人。在这种情况下，俄罗斯电视信号质量可能不会影响观看俄罗斯电视的决定，因此在图中，从到的路径可以被排除。在新样本中，与应该是独立的，否则关于外生性和排除性限制的假设将受到质疑。

４. 安慰剂检验的自查清单

最后，文章总结了在进行安慰剂检验时需要考虑的关键要点：

安慰剂检验的目的是验证哪类核心假设？是与点估计 (如识别、估计、测量、样本选择) 相关的偏差假设，还是与标准误差相关的分布假设？
违反核心假设的哪种方式最具相关性？
在构建安慰剂检验时，核心检验的哪些组成部分 (如结果、处理、样本) 发生了改变？
基于上述改变，为什么安慰剂检验不会显示出平均处理效应？
安慰剂检验与核心检验在哪些方面相似？如何确保安慰剂检验能够探测到相关核心假设的违背？
安慰剂检验是否可能违反未在核心检验中体现的假设，从而提高假阳性率？
安慰剂检验是否具有足够的统计精度 (如通过标准误差等) 来检测核心假设的违背？

5. 相关推文

Note：产生如下推文列表的 Stata 命令为：
lianxh 安慰剂, m
安装最新版 lianxh 命令：
ssc install lianxh, replace

专题：内生性-因果推断

冷萱, 2021, 安慰剂检验！安慰剂检验！, 连享会 No.498.

专题：倍分法DID

朱学贵, 2020, 多期DID之安慰剂检验、平行趋势检验, 连享会 No.259.
李闯, 2023, 多时点DID保姆级教程(下)-安慰剂检验, 连享会 No.1163.

专题：回归分析

袁子晴, 2021, aoeplacebo：地理安慰剂检验, 连享会 No.648.

专题：论文重现

金钊, 2023, AEJ论文推介：DID-安慰剂检验-机制分析-中国增值税改革对企业投资和生产率的影响, 连享会 No.1254.
陈波, 2021, Stata：一行代码实现安慰剂检验-permute, 连享会 No.731.

🍓 课程推荐：2024 机器学习与因果推断专题
主讲老师：司继春；张宏亮
课程时间：2024 年 11 月 9-10 日；16-17日
课程咨询：王老师 18903405450（微信）

New！ Stata 搜索神器：lianxh 和 songbl GIF 动图介绍
搜：推文、数据分享、期刊论文、重现代码 ……
👉 安装：
. ssc install lianxh
. ssc install songbl
👉 使用：
. lianxh DID 倍分法
. songbl all

🍏 关于我们

连享会 ( www.lianxh.cn，推文列表) 由中山大学连玉君老师团队创办，定期分享实证分析经验。
直通车： 👉【百度一下：连享会】即可直达连享会主页。亦可进一步添加「知乎」,「b 站」,「面板数据」,「公开课」等关键词细化搜索。

http://mp.weixin.qq.com/s?__biz=MzU5MjYxNTgwMg==&mid=2247502945&idx=1&sn=2cc2f95d59c1605e7c68e00e4f0a7a40

君泉计量

交流学习经验，探讨论文写作