调节效应是否需要考虑对控制变量交乘?

文摘   教育   2024-11-19 22:00   山西  

👇 连享会 · 推文导航 | www.lianxh.cn

🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)

 课程特色 · 2024机器学习与因果推断

  • 懂原理、会应用。本次课程邀请了两位老师合作讲授,目的在于最大限度地实现理论与应用的有机结合。为期四天的课程,分成两个部分:第一部分讲解常用的机器学习算法和适用条件,以及文本分析和大语言模型;第二部分通过精讲 4-6 篇发表于 Top 期刊的论文,帮助大家理解各类机器学习算法的应用场景,以及它们与传统因果推断方法的巧妙结合。
  • 以 Top 期刊论文为范例。目前多数人的困惑是不清楚如何将传统因果推断方法与机器学习结合起来。事实上,即便是 MIT 和 Harvard 的大牛们也都在「摸着石头过河」。为此,通过论文精讲和复现来学习这部分内容或许是目前最有效的方式了。张宏亮老师此前在浙江大学按照这一模式教授了「因果推断和机器学习」课程,效果甚佳:学生们能够逐渐建立起研究设计的理念,并在构造识别策略时适当地嵌入机器学习方法。

   

作者:伊凌雪 (中央财经大学)
邮箱:yilingxue99@163.com

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


目录

  • 1. 背景介绍

  • 2. 文章介绍

    • 2.1 主要结果

    • 2.2 主要困惑

    • 2.3 解决措施

    • 2.4 作者反馈

  • 3. 相关解释

    • 3.1 偏差产生的原因

    • 3.2 蒙特卡罗模拟

    • 3.3 主要结论

  • 4. 参考资料

  • 5. 相关推文



1. 背景介绍

在调节效应模型中,如果我们主要关注的是核心解释变量的交互项,那么对于控制变量是否需要进行交乘呢?关于该问题,本文以一篇 2011 年发表在 QJE 上的论文作为示例进行说明,该论文主要研究了美国橄榄球赛季 (简称 NFL) 周日比赛结果与家庭暴力之间的关系。

论文的研究结论表明,在控制赛前积分差 (最喜欢的球队有望赢得的积分数) 和当地观众的规模 (有多少当地人在电视上观看了比赛) 后,如果主队输掉了一场胜券在握的比赛,当地家庭暴力 (男性对妻子或女朋友) 的发生率会上升 10%。相反,如果人们已经预料到比赛会输就不会导致类似的结果,但是比赛胜利也不会减少家庭暴力,说明输赢对个体情感具有不对称的作用。上述行为类似经济学中 “参照点理论”:即人们情绪波动来自于事实与预期之间的偏差,意料之外的损失更容易让人情绪不稳定。

2. 文章介绍

2.1 主要结果

文章的主要回归结果如下表所示,以 NFL 比赛后的家庭暴力作为因变量。从第 (1) 列到 (5) 列,依次包含更多控制变量,每一列代表不同的 (泊松) 回归结果。

根据赛前预测 (以赔率衡量),第一行第 (5) 列输掉比赛与预期会赢得比赛交互项 Loss × predicted win(upset loss) 的估计系数为 0.10,对应于主要结论中提到的暴力增加 10%。相比之下,第二行第 (5) 列 Loss × predicted close(close loss) 估计系数为 0.026,表明当对阵双方的实力不分伯仲,输掉比赛就不会导致类似的结果。

在第 (5) 列中,作者控制了观看当地比赛的家庭数量。尼尔森收视率 (由全球著名的市场调研公司尼尔森统计出的数据) 是影响比赛日家庭暴力的一个重要因素 (t = 2.2),观看比赛的家庭数量每增加 1%,亲密关系暴力 (intimate partner violence) 发生的几率就会上升约 0.3%。

2.2 主要困惑

正如 QJE 论文所指出的,这一发现令人担忧的是:当人们预期球队有望获胜时,观看比赛的人自然会更多。 这意味着有更多的人可能面临意料之外的输球结果,而不是预料之内的结果。因此,对于面临意外输球的结果后家庭暴力的增加主要有两种解释:

  • 解释 1:意料之外的输球结果更令人愤怒;
  • 解释 2:意料之外的输球结果原本就受到更多人关注。

然而,上面表 IV 中的第 (5) 列通过控制收视率 (尼尔森评级) 来区分这两者,这样的控制对于文章关注的重点显然是不够的。如果我们关注的问题是观看任何比赛的球迷人数越多,家庭暴力就越多,那么仅仅控制尼尔森评级将会是正确的解决方案。然而,在该论文中我们关心的是不同的内容,我们主要担心的混淆问题是观看一场输球比赛的粉丝人数越多,家庭暴力越多。

2.3 解决措施

一般来说,由于我们感兴趣的主要是交互项系数,因此任何的替代解释也必须涉及交互作用。在这种特殊的情况下,如果主要关注的效应涉及和输球队伍之间的交互项,那么控制变量也必须与输球队伍进行交乘。所以,当我们预期在比赛赢或输的情况下控制收视率可能产生不同的影响,就需要将控制变量与输掉比赛进行交乘,即在原来的基础上再添加 Nielsen Rating×Loss 这一项作为预测变量。以下面通用回归方程为例:

如果我们主要感兴趣的是 的交互项系数 ,如以下模型:

那么,当我们担心第三个变量 相关且与 相关时,仅仅控制变量 是不够的,如下所示:

相反,需要同时控制 的交互项:

事实上,这是一个比较普遍的问题,然而对控制变量进行交乘似乎不是研究人员普遍意识到的问题。总之,当感兴趣的系数是一个交互项,并且对于潜在混淆问题比较担忧时,需要对控制变量进行交乘。

2.4 作者反馈

根据上述做法,原作者将控制变量交乘后进行重新回归,得到的结果显示添加交互项不会明显改变估计系数的大小。具体来看,添加这些交互项并不会明显改变对沮丧输球变量的点估计:它变为 0.095 (0.056) [大约 p 值 = 0.09]。这与 QJE 论文中报告的当只控制 Nielsen 评级时估计值 0.100 (0.031) [大约 p 值 <0.001],以及当完全不控制 Nielsen 评级时 0 .096 (0.031) 相比。

有趣的是,Nielsen rating×lossNielsen rating × win 的系数几乎相同:分别为 0.0031 和 0.0034。此外,我们对损失厌恶进行测试 (若 upset loss = – upset win),现在的 p 值为 0.02,而之前为 0.01。所以我们的结论是添加评级的交互项会导致估计不太准确,但不会显著改变估计。

3. 相关解释

根据前面的问题,将控制变量进行交乘似乎存在一定的道理,但我们还是无法十分清楚了解为什么在调节效应模型中需要对控制变量进行交乘。另一篇发表在 JESP 上的论文同样涉及到这个问题,作者据此给出了相关解释。

文章中提到,社会心理学中一个常见的设计包括使用两个自变量,一个实验操纵和一个测量的个体差异,我们主要感兴趣的是它们之间的交互项。在这样的设计中,通常存在协变量 (s) 与估计的自变量相关,而研究人员通常在模型中添加协变量来对其进行控制。作者表明,在大多数情况下这是一个不充分的模型。一般来说,只有当协变量和被操纵的自变量之间的交互项纳入分析时,才能无偏地估计两个自变量之间的相互作用。作者据此进行了模拟,结果显示了影响偏差大小的因素。

3.1 偏差产生的原因

这里通过设定一个模型来解释:

首先,假设 是一个测量自变量,表示参与者的一些稳定特征。我们假设它在总体中呈正态分布,期望值为 0,方差为 。其次,假设 是一个被操纵的自变量,参与者被随机分配,概率相同。 的期望值也为 0,其方差等于 1.0。

接着,我们假设有一些测量的协变量 ,同样是正态分布的,期望值为 0,方差为 。此外,我们假设它与 共变异,且 。两者之间的各种函数关系可能会影响这种协方差:即一个可能会导致另一个变化,或者其他一些变量可能导致两者的变化。虽然 之间的函数关系之间的区别在理论上很重要,但在分析上最重要的是这两者之间的共变效应。

最后,假设 是因变量,并且它是之前变量,还有这些变量之间的交互项,以及残差正态分布随机误差 的函数。

在公式中,,且 。假设这是 “真正的” 总体模型,这意味着它指定了导致 变化的因素。所有变量的期望值都为 0 (包括残差),因此在总体中没有截距。我们假设被操纵的自变量 同时与 进行交乘,这两个变量虽然相关,但在影响 时并不相互作用。

当估计 交互项系数时,如果估计一个没有考虑 交互项的模型,其参数估计是否有偏差。换句话说,假设估计了以下错误的模型 (即,经典的 ANCOVA 模型):

问题是 是否与其真实值   不同。从这两个表达式和我们所做的假设中,我们可以推导出:

因此,只有在两种情况下,错误指定的模型 () 中的参数估计才会等于正确的模型 () 中的参数。

第一个是当 不共变时。第二种情况是当 ,即 交互项等于 0 时。换句话说,假设 是相关的,并且 交互项不为 0,除非在模型中包含 交互项,否则 交互项系数将会存在偏差。还要注意的是,如果 的方差相等,则比值 等于这两个变量之间的相关系数。在这种情况下,偏差的程度将是该相关系数的线性函数。如果当相关系数为 0 时,就不会存在偏差;当相关系数接近 1.00 时,偏差系数将接近  

另一个估计模型错误的情况是,忽略 交互项作为预测因子,即:

因为 之间的预期协方差等于零,所以 交互项的系数 () 将完全等于模型 (5) 中的偏离系数 ()。换句话说,即使在模型中加入协变量,但不加入其与 的交乘项,也无法消除 交互项估计系数的偏差。

3.2 蒙特卡罗模拟

为了进一步验证这种偏差的存在,作者进行了蒙特卡罗模拟,结果必然与上述分析结果相一致。在这些模拟中,作者特别关注第一类错误。因此,在真实的模型 (4) 中:

作者将 固定为 0,同时将 和   固定为 1。残差的方差 固定为 5, 的方差均设为 1。然后,作者改变了 的大小 (在 0.00 到 1.00 之间,增量为 0.20) 以及 之间的相关性大小 (在 0.00 到 0.80 之间,增量为 0.20)。

我们允许这两个因素发生变化,因为根据上述的推导表明,它们决定了 的偏离程度。由于 固定为零,第一类错误主要是由于 的显著引起的。因此在模拟中,作者不仅检验了 的平均值,而且还检验了 显著的相对频率。即在每个不同的参数组合下,进行了 1000 次模拟试验,每次随机抽样 100 个案例。

下表报告的为 的平均值 (和标准误),在错误的 ANCOVA 模型中 交互项的系数 () 的估计结果。根据模拟规范,作者之前给出的分析结果要求 的期望值等于在不同模拟中 以及 的乘积。

下图报告的概率,是在省略 交互项的模型中错误发生的概率。当 交互项等于零或当 不相关时,第 1 类错误发生的概率等于 0.05。然而,这种概率随着这些因素从 0 偏离而增加。

另一组结果表明,在正确的模型中,我们可以评估 交互项显著的概率,假设实际上估计系数 不为 0。结果如下图所示,即使在正确指定的模型中, 交互项的估计系数也会存在实质性的偏差。这意味着,不应该通过在正确的模型中测试 交互项的显著性来决定是否将其保留在模型中。即使 交互项不显著,在错误的模型中对 交互项的检验很可能会导致严重的偏差。

3.3 主要结论

文章模拟结果说明了错误模型会导致估计结果的偏差。作者改变了推导显示的两个影响偏差大小的因素:一方面是协变量和与之相关的自变量之间的关系,另一方面是协变量交互作用的真实影响。当这些因素偏离 0 时,如果不加入协变量的交互项就会导致有偏估计和第一类错误的出现。当我们发现协变量交互项并不显著时,通常会从最终的模型中省略它。然而,作者的模拟表明,在这种情况下会产生较大的偏差。一般来说,作者建议在模型中包括协变量交互项,而不管其意义如何。

4. 参考资料

  • Interaction Effects Need Interaction Controls -Link-
  • Card D, Dahl G B. Family violence and football: The effect of unexpected emotional cues on violent behavior[J]. The quarterly journal of economics, 2011, 126(1): 103-143. -PDF-
  • Yzerbyt V Y, Muller D, Judd C M. Adjusting researchers’ approach to adjustment: On the use of covariates when testing interactions[J]. Journal of Experimental Social Psychology, 2004, 40(3): 424-431. -PDF-

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 交乘项, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:回归分析
    • Stata因子变量:虚拟变量-交乘项批量处理
  • 专题:内生性-因果推断
    • Stata:内生变量的交乘项如何处理?
  • 专题:交乘项-调节
    • Logit-Probit中的交乘项及边际效应图示
    • 内生变量的交乘项如何处理?
    • interactplot:图示交乘项-交互项-调节效应
    • Stata:交乘项的对称效应与图示
    • Stata:交乘项该如何使用?-黄河泉老师PPT
    • Stata:虚拟变量交乘项生成和检验的简便方法
    • Stata:内生变量和它的交乘项
    • 交乘项-交叉项的中心化问题
    • 交乘项专题:主效应项可以忽略吗?
    • Stata:交乘项该这么分析!

🍓 课程推荐:2024 机器学习与因果推断专题
主讲老师:司继春 (上海对外经贸大学) ;张宏亮(浙江大学)
课程时间:2024 年 11 月 9-10 日 ;16-17日
课程咨询:王老师 18903405450(微信)

尊敬的老师 / 亲爱的同学们:

连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!

New! Stata 搜索神器:lianxh 和 songbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
  . ssc install lianxh
  . ssc install songbl
👉  使用:
  . lianxh DID 倍分法
  . songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。

连享会
连玉君老师团队分享,主页:lianxh.cn。白话计量,代码实操;学术路上,与君同行。
 最新文章