交乘项困惑：交互模型中的控制变量如何选择？

文摘 2024-11-08 10:02 中国

👇 连享会 · 推文导航 | www.lianxh.cn

🍎 Stata：Stata基础 | Stata绘图 | Stata程序 | Stata新命令
📘 论文：数据处理 | 结果输出 | 论文写作 | 数据分享
💹 计量：回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归
⛳ 专题：SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析
🔃 因果：DID | RDD | 因果推断 | 合成控制法 | PSM-Matching
🔨 工具：工具软件 | Markdown | Python-R-Stata
🎧 课程：最新专题 | 计量专题 | 关于连享会

🍓 课程推荐：2024 机器学习与因果推断专题
主讲老师：司继春 (上海对外经贸大学) ；张宏亮（浙江大学）
课程时间：2024 年 11 月 9-10 日；16-17日
课程咨询：王老师 18903405450（微信）

课程特色 · 2024机器学习与因果推断：

懂原理、会应用。本次课程邀请了两位老师合作讲授，目的在于最大限度地实现理论与应用的有机结合。为期四天的课程，分成两个部分：第一部分讲解常用的机器学习算法和适用条件，以及文本分析和大语言模型；第二部分通过精讲 4-6 篇发表于 Top 期刊的论文，帮助大家理解各类机器学习算法的应用场景，以及它们与传统因果推断方法的巧妙结合。
以 Top 期刊论文为范例。目前多数人的困惑是不清楚如何将传统因果推断方法与机器学习结合起来。事实上，即便是 MIT 和 Harvard 的大牛们也都在「摸着石头过河」。为此，通过论文精讲和复现来学习这部分内容或许是目前最有效的方式了。张宏亮老师此前在浙江大学按照这一模式教授了「因果推断和机器学习」课程，效果甚佳：学生们能够逐渐建立起研究设计的理念，并在构造识别策略时适当地嵌入机器学习方法。

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码，直达原文：

作者：修博文（重庆理工大学）
邮箱：Bornxiu@163.com

编者按：本文主要摘译自下文，特此致谢！Source：Dehaan, E., Moon, J. R., Shipman, J. E., Swanquist, Q. T., & Whited, R. L. (2023). Control Variables in Interactive Models. Journal of Financial Reporting, 8(2), 77–85. Link, PDF, Google. -Replication-

Title: 交乘项困惑：交互模型中的控制变量如何选择？
Keywords: 交叉项, 调节效应,

1. 背景介绍

在会计和相关的经济研究领域，经常需要探讨两个或多个变量之间的关系，特别是这些关系如何受到其他变量（调节变量）的影响。交互效应的分析在统计学和经济模型中是一项复杂的任务，涉及到多个变量之间的相互作用。这种复杂性常常需要在模型中使用交互项和控制变量来精确地估计和解释这些效应。在未适当控制变量的情况下，交互项可能会引入统计偏误，导致研究结果的不准确。例如，如果模型未能控制一个与调节变量和处理变量都相关的变量，那么可能会错误地评估交互效应。

鉴于会计研究中广泛存在的需求，文章旨在提供一种指导，帮助研究者理解何时、如何以及为什么在交互效应测试中使用控制变量，尤其是在包含交互项的情况下。通过模拟研究和案例分析，强调了在交互效应分析中正确使用交互控制变量的重要性，以避免因遗漏变量偏误而导致的错误结论。尽管会计和经济研究中对交互效应的分析需求日益增加，但关于如何正确设计和解释这些模型的具体和系统的指导相对较少。这篇文章旨在填补这一空白，通过提供具体的操作步骤和最佳实践，增强研究设计的严密性和结果的可信度。

2. 具体做法

本研究具体展开为，以微观企业视角，探究公司盈利公告中意外收益对盈利公告期间的累积异常股票回报的影响。

首先，在探究盈利公告中意外收益对盈利公告期间的累积异常股票回报的影响时，研究者需要了解公司规模（调节变量）如何影响盈余（）对股票回报（）的影响。

其次，研究中通常会发现另一个变量很可能决定，并与或相关，当满足这些条件时，如果不控制，就会在一个或多个系数估计值中产生遗漏变量偏差（ OVB ）。具体而言，一家公司的收益公告的媒体报道吸引了公众的注意，并导致每单位收益引起更大的价格反应。这种情况下，在意外收益（）对累积异常收益（）的回归中，是调节变量（），但是媒体往往倾向于报道规模更大的公司，即调节变量与公司规模相关。

基于此本文主要讨论两种情况：

与均为外生变量；
为外生变量，为内生变量。

2.1 UE 与 Size 均为外生变量

当和均为外生的情况下，交互项的无偏估计也不需要控制交互作用或，因为在和外生的条件下，或都不会与相关，所以不存在变量会对该调节效应造成影响，仅需要观察调节效应本身即可。则此时，设置研究模型为：

2.2 UE 为外生变量，WSJ 为内生变量

当为外生变量，为内生变量时，研究者需要确定与相关的因素（）（研究仅将Z与测试变量关系定为相关关系而非因果关系），这些因素也会影响与之间的关系（研究仅讨论只有一个的情况）。即是说是内生变量时，就会有变量（）与相关，在论证对的影响时，这里的就相当于另外的一个调节因素，所以还要控制以及。在这里，媒体倾向于报道大公司，即是媒体报道（）与公司规模（）相关，因此我们构建WSJ（《华尔街日报》（Wall Street Journal））为规模（）的正函数。所以，为了进一步探究调节变量为内生变量时的情况，此时设置三个研究方程：

3. 复现代码

下方stata代码是为上述两种情况之展现。其中（I.a）为数据生成过程，详细展示了研究变量、、、的生成过程；（I.b）为具体分析过程。

clear all
	set seed 42 //设置一个seed，以供可重复实验

*** I.a:数据生成过程 (DGP)

	*步骤 1 设置数据集大小（注：将样本大小设置为 100 万，以提高单次迭代的稳定性）
	set obs 1000000

	*步骤 2 从均值为 0 、标准差为 2 的正态分布中随机抽取，生成意外收益 (ue)变量。
	gen ue = rnormal(0,2)
		
	*步骤 3 从均值为 8 、标准差为 2 的正态分布中随机抽取，生成公司规模(Size)变量
	gen size = rnormal(8,2)
			
	*在 ue 和 size 之间建立一个交互项
	gen ue_size = ue * size
			
	*步骤 4 生成累计异常回报
	gen car = (10 * ue) + (0 * size) + (10 * ue_size) + rnormal(0, 100)
						
	*步骤 5 生成《华尔街日报》报道变量 (wsj)，该变量在公司规模高于中位数时等于 1 ，否则等于 0 ，所以很容易可以看出 size 与wsj 相关
	egen wsj = cut(size), group(2)

	*在 ue 和 wsj 之间创建一个交互项 
	gen ue_wsj = ue * wsj

*** I.b: 分析过程	
	* I.b.1) 简单的 ERC 模型（每行后面的说明仅显示第一次迭代的情况，但下面将重复这一过程）
	local indvars = "ue" /*规定自变量*/
	reg car `indvars' /*估计回归*/

	* I.b.2) 加入 size 变量
	local indvars = "ue size"
	reg car `indvars'

	* I.b.3) 加入 size 与 ue 的交互项
	local indvars = "ue size ue_size"
	reg car `indvars'
				
	* I.b.4) 重新修订，将 size 去平均化，并增加该 size 以及 size 与 ue 的交互项
	egen size_mean = mean(size)
	replace size = size - size_mean
	replace ue_size = size * ue
	local indvars = "ue size ue_size"
	reg car `indvars'
			
	* I.b.5) 简单的包含 wsj 的 ERC 模型
	local indvars = "ue wsj ue_wsj"
	reg car `indvars'

	* I.b.6) 增加变量 size 
	local indvars = "ue size wsj ue_wsj"
	reg car `indvars'
				
	* I.b.7) 增加 size 与 ue 的交互项
	local indvars = "ue size ue_size wsj ue_wsj"
	reg car `indvars'

4. 结果与讨论

如下是为所输出的不同情况的结果

4.1 UE 和 Size 均为外生变量

下表为和均为外生变量时的情况。第二列是在模型中加入了之后的结果，在此模型中，反映了控制规模后与资本充足率之间平均关系的估计值，但并不能说明规模越大的公司的对外关系数据越大还是越小。第一列中的与第二列中的并没有区别，是因为在数据生成过程中，与不相关，所以在“控制的情况下，对的影响”与“ 对的影响”没有区别。

第三列与第四列之间的一个差别是这个变量做了一个去均值化的处理。去均值化交互变量通常能产生更容易解释的独立估计结果，与第三列的不同，第四列中的估计的是等于 0 的公司（去均值化的），即是公司规模样本均值为 0 。因此，在第列四中等于 89.99，这与第列一中估计的平均 ERC（）相同。

		(i) CAR	(ii) CAR		(iii) CAR	(iv) CAR
UE	α₁	89.99***	89.99***	β₁	9.98***	89.99***
		167.11	167.11		4.84	179.95
Size	α₂		0.00	β₂	0.00	0.00
			0.01		0.01	0.01
UE × Size				β₃	10.00***	10.00***
					39.98	39.98
Adjusted R²		0.736	0.736		0.773	0.773
N		10,000	10,000		10,000	10,000

4.2 UE 为外生变量，WSJ 为内生变量

下表是为外生变量，为内生变量的情况。媒体倾向于撰写关于大公司的文章，因此我们将设为的正函数。为简单起见，本文假设媒体总是报道最大的 50% 的公司，而从不报道最小的 50% 的公司（这种分别体现在数据生成过程中）。

通常情况下，如果任何两个变量是相关的（本例中的和），那么这两个变量与任何随机变量（本例中的）之间的交互作用也将是相关的。因此，在我们的模拟中，和必然是相关的。也是的一个决定因素，所以第二列的回归中省略将产生对的调节作用有偏差。

最后可以看到，和在适当控制后并不显著，而、和近似于数据生成过程中规定的参数。

		(i) CAR	(ii) CAR	(iii) CAR
UE	β₁	74.02***	74.02***	89.94***
		101.78	101.77	92.84
Size	β₂		0.03	0.03
			0.04	0.04
UE × Size	β₃			9.98***
				24.04
WSJ	β₄	-0.05	-0.15	-0.14
		-0.02	-0.05	-0.04
UE × WSJ	β₅	31.95***	31.95***	0.11
		31.06	31.06	0.07
Adjusted R-squared		0.760	0.760	0.773
N		10,000	10,000	10,000

5. 总结

那么最后，如何、何时以及为什么要在交互效应测试中使用控制变量呢？

5.1 何时使用控制变量 Z ?

存在潜在的遗漏变量偏误：当存在一个或多个变量，它们可能同时影响到结果变量和调节变量M或处理变量时，需要使用控制变量。如果这些变量未被包括在模型中，可能会引入偏误，影响交互项的准确性。
变量X或为内生时：特别是当或至少有一个为内生变量时，正确地包括控制变量及其交互项（如或）成为关键。这是因为内生变量可能与模型中未观测到的因素相关，从而影响到结果变量。

5.2 如何使用控制变量 Z ?

交互控制的引入：在包括的模型中，如果与或相关，不仅要控制本身，还应控制或的交互项（或）。这有助于分离出对的直接影响以及它通过影响或来间接影响的效应。
分情况讨论：
1、当为外生而为内生时，应包括及其与X的交互项。
2、当为外生而为内生时，应包括及其与M的交互项。

5.3 为什么使用控制变量 Z ?

减少偏误，提高估计的准确性：正确地控制及其交互项可以减少因遗漏变量带来的偏误，从而提高对交互效应影响估计的准确性。
理解复杂的关系：通过分析控制变量及其交互项的影响，研究人员可以更深入地理解变量间复杂的动态关系，尤其是在经济和会计领域中常见的多变量交互环境。

5.4 各类变量类型的处理情况汇总

	外生调节变量 (M)	内生调节变量 (M)
外生处理变量 (X)	不需要控制变量即可获得关于或对影响的无偏估计。	确定与相关并决定的变量。如果需要控制以获得无偏估计，那么还需要控制的交互项。
内生处理变量 (X)	确定与相关并决定的变量。如果需要控制以获得无偏估计，那么还需要控制的交互项。	确定与和/或相关并决定的变量。控制、、，并可能需要控制的组合交互项。然而，这些可能仍然无法完全解决遗漏变量偏差 (OVB)。通常，研究人员应认识到测试两个内生变量之间交互作用的局限性。

6. 参考文献

Burks, J. J., Randolph, D. W., & Seida, J. A. (2018). Modeling and interpreting regressions with interactions. Journal of Accounting Literature, 42(1), 61–79. Link, PDF, Google.
Dehaan, E. (2020). Practical Guidance on Using and Interpreting Fixed Effects Models. SSRN Electronic Journal. Link, -PDF-, Google.
Jollineau, S. J., & Bowen, R. M. (2023). A Practical Guide to Using Path Analysis: Mediation and Moderation in Accounting Research. Journal of Financial Reporting, 8(1), 11–40. Link, Google.
Whited, R. L., Swanquist, Q. T., Shipman, J. E., & Moon, J. R. (2021). Out of Control: The (Over) Use of Controls in Accounting Research. The Accounting Review, 97(3), 395–413. Link, PDF, Google.

🍓 课程推荐：2024 机器学习与因果推断专题
主讲老师：司继春 (上海对外经贸大学) ；张宏亮（浙江大学）
课程时间：2024 年 11 月 9-10 日；16-17日
课程咨询：王老师 18903405450（微信）

尊敬的老师 / 亲爱的同学们：

连享会致力于不断优化和丰富课程内容，以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求，我们诚挚地邀请您参与到我们的课程规划中来。请您在下面的问卷中，分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源，将直接影响到我们课程的改进和创新。我们期待您的反馈，因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间，与我们共同塑造更加精彩的学习旅程！https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见！

New！ Stata 搜索神器：lianxh 和 songbl GIF 动图介绍
搜：推文、数据分享、期刊论文、重现代码 ……
👉 安装：
. ssc install lianxh
. ssc install songbl
👉 使用：
. lianxh DID 倍分法
. songbl all

🍏 关于我们

连享会 ( www.lianxh.cn，推文列表) 由中山大学连玉君老师团队创办，定期分享实证分析经验。
直通车： 👉【百度一下：连享会】即可直达连享会主页。亦可进一步添加「知乎」,「b 站」,「面板数据」,「公开课」等关键词细化搜索。

http://mp.weixin.qq.com/s?__biz=Mzk0MDI1NTgyOQ==&mid=2247581085&idx=2&sn=fe776f729e8a958edd28046cc67edb74

连享会

连玉君老师团队分享，主页：lianxh.cn。白话计量，代码实操；学术路上，与君同行。

最新文章

Stata：通过数据框进行数据横向合并-framerge

Stata绘图：一套高效绘图命令-plottabs

Stata绘图：COVID-19数据可视化-山脊图