在看文献的过程中,会发现交互项频频出现在不同的模型里用以说明不同的故事,而有的时候还会发现,对于同一个故事有人用的是交互项回归有人用的却是分组回归。这似乎有点让人迷茫,究竟什么时候应该使用交互项、交互项在使用时又应该注意什么问题呢?今天结合自己的理解说一说交互项的实际应用。
[一]
首先回顾一下普通的线性回归模型:
模型(1)其实隐含了一个假设,即三个解释变量对被解释变量y的影响都是独立的,互不干扰。这点从偏回归系数可以很直观地体现,偏回归系数为常数意味着每个解释变量对y的作用都不受其他解释变量的影响:
接下来在模型(1)的基础上构建交互项看一看:
其中,为交互项的回归系数。这时解释变量对Y的影响还是独立的吗?各解释变量的偏回归系数如下所示:
很显然,虽然依然我行我素,但对Y的影响变得依赖于的取值,对Y的影响变得依赖于的取值。也就是说,在模型中加入交互项后,参与构造交互项的各组成部分对被解释变量的影响依赖于交互项中其他组成部分的取值。
现在依据这个现象或结果反推原因:如果我们认为某个解释变量(主要是指核心解释变量)对被解释变量的作用还受到其他某个解释变量的影响,那么应该在模型中基于这两个解释变量引入交互项。用个经典的实际例子来具体说明一下,在“性别、工作年限和学历对工资的影响”这个研究问题中,如果没有交互项,那么模型是假定了一个人的学历对其工资的作用并不受其性别或工作年限的影响。然而生活经验告诉我们,学历的回报极有可能还依赖于工作年限,因此在回归分析时便可以基于学历和工作年限构造交互项,用以刻画一个人的学历对工资的作用是否真的受工作年限的影响。
上面只是从理论或逻辑上说明了什么时候可以使用交互项,在此逻辑下,交互项主要体现的是一种“调节效应”或“联动效应”,但其实交互项在实际使用中十分灵活。依据交互项的不同形式,交互项还可以用来进行“异质性分析”,甚至还可以进行“机制分析”。
[二]
根据不同的变量类型,交互项可以分为三种:虚拟变量与虚拟变量交互;虚拟变量与连续变量交互;连续变量与连续变量交互。总的来说,这三种交互项没有本质区别,只是在结果的解读上稍有差异。
1.虚拟变量与虚拟变量交互
这种形式其实大家都不陌生,因为双重差分法的核心就是两个虚拟变量及其构造的交互项,此时交互项也是一个虚拟变量。以双重差分法模型为例:
其中,du为处理组虚拟变量,dt为政策改革虚拟变量,只有当du和dt同时取值为1时才存在,也就是说,反映的是du取值为1且dt取值也为1时的效应。
举DID的例子主要是为了加深对这种交互项形式的理解。其实,一般状况的虚拟变量与虚拟变量交互感觉在文献中还是相对比较少见的,因为这要求核心解释变量是0-1变量,同时它还得和控制变量里的某个0-1变量有牵扯。在之前的“性别、工作年限和学历对工资的影响”这个例子中,假定性别是核心解释变量,当个体是男性时取值为1,反之为0;继续假定学历这个控制变量也是虚拟变量,当个体是高学历时取值为1,反之为0。当把性别和学历进行交互时,交互项的回归系数反映的便是高学历的男性的工资水平,说明了性别对工资的作用取决于劳动者是否具有高学历。
2.虚拟变量与连续变量交互
这种形式相对比较常见,连续型DID便是如此(开始时便说了,不同的交互项类型没有本质的区别,所以接下来就不再列举模型了)。在这种情况下,核心解释变量一般为连续变量,虚拟变量是某个控制变量,两者的交互便体现了连续变量对Y影响的异质性。
还是用“性别、工作年限和学历对工资的影响”这个例子来说明,假定学历是连续型核心解释变量,值越大表示学历越高(通常用受教育年限度量,尽管受教育年限是离散的,但并不影响);继续假定性别是控制变量,当个体是男性时取值为1,反之为0。当把学历和性别进行交互,如果交互项的回归系数显著为正,便可以说明,相对于女性而言,男性的学历越高时越有助于获取高工资;当然也可以反过来说,相对于男性而言,女性的学历并无助于她们获取高工资。因此,该结果便体现了学历对工资的影响具有典型的性别异质性。
3.连续变量与连续变量交互
这种形式相对也比较常见,而且更加接近于交互项最初的逻辑,即X对Y的影响还依赖于Z的取值的变化,X和Z之间存在联动效应。仍然用“性别、工作年限和学历对工资的影响”这个例子来说明,假定学历是连续型核心解释变量,值越大表示学历越高;继续假定工作年限这个控制变量也是连续变量,值越大表示工作年限越长。当把学历和工作年限进行交互,如果交互项的回归系数显著为正,便可以说明,当工作年限越长时,更高的学历有助于获取更高的工资。
[三]
尽管究竟应该在什么时候使用交互项在逻辑上或理论上是清晰的,但实践过程中究竟怎么使用交互项还是有不少值得注意的问题。对于交互项模型:
1.、和缺一不可
在模型中构造交互项时必须同时纳入交互项和所有组成部分,不能基于显著性等原因舍弃掉某一部分,就像使用DID时,du、dt以及du·dt一个都不能少一样。
2.和的显著性不再那么重要,重点是
很多人会很纠结,加入交互项后或由原来的三颗星显著变得不显著了怎么办?首先,引入交互项的目的是关注交互项的结果,就像DID中重点关注的是du·dt的结果一样,组成部分的显著性变得相对不重要。其次,在最开始我们计算过偏回归系数,在没有交互项时,的显著性可以直接体现的作用,但在引入交互项后,的偏回归系数变成了,也就是说,此时的显著性并不能真正反映对Y的作用是否显著。
3.和的显著性判断
既然的显著性不能真正反映对Y的作用是否显著,那该怎么判断呢?由于真正的偏回归系数是,因此应该检验是否具有统计显著性。在Stata里,首先对交互项模型进行回归,然后可以利用lincom这个命令进行检验。如果明显异于0,说明对Y的作用是显著的。
4.和的回归结果不能直接解读
虽然的回归系数是,但一般并不能直接基于进行解释,因为其真正的偏回归系数是。要想基于进行解释,必须得为0,但这在现实生活中基本不可能。比如,假设Y是房屋价格,是卧室数量,是住房面积,这时对的解释是:卧室数量对一套面积为0的房屋价格的影响。很显然没什么意义。不过,在一种情况下是可以的,即分别对和去均值后再引入交互项进行回归,这时交互项模型如下:
其中,和分别是和的样本均值。这时便可以解释为:在的均值处对Y的偏效应。
另外,关于为什么对交互项模型进行回归时一般建议去平均处理,知乎大咖慧航在知乎上专门有个帖子谈论这个问题,感兴趣的可以去围观,网址如下:https://zhuanlan.zhihu.com/p/26257159。
5.或与存在多重共线性
由于由及构成,因此交互项与或一般有较强的相关性,从而容易导致多重共线性。为了尽量减轻这个问题,可以尝试进行第4点中提出的去均值处理,可以适当降低相关性。
6.交互项还是分组回归?
两者不论是在理论或实践上都没有很显而易见的区分或标准,对于同一个研究问题可能有人采用前者有人则采用后者。这里简单说几点差异。
首先,分组回归的主要目的就是考察异质性,即基于某个虚拟变量,或将某个连续变量按均值、中位数等标准定义为虚拟变量,然后把全样本按照该虚拟变量分成不同的组别进行回归。而交互项回归则显得更灵活,连续变量与连续变量交互可以考察联动效应,连续变量与虚拟变量交互可以考察异质性,等等。
其次,分组回归只能说明X对Y的影响在不同组别存在差异,但并不能说明该差异是否具有统计显著性。如果想要考察差异的统计显著性,需要进一步的检验。但交互项回归则不然,在上面虚拟变量与连续变量交互的例子中,交互项的结果表明学历对男性工资的影响便要显著大于女性。
连玉君老师在简书上有个帖子专门讲述了在Stata中如何检验分组回归后的组间系数差异,感兴趣的可以去围观,网址如下:https://www.jianshu.com/p/38315707ef6c?utm_source=desktop&utm_medium=timeline。
最后,交互项回归是基于全样本,分组回归则可能会存在个别组别样本量过少的情况,从而导致根本无法估计或估计效率下降。此外,就像上面说的,在有的时候,分组变量的选取是基于某个连续变量而非虚拟变量,因而如何对连续变量进行合适的划分以作为分组依据可能也是个问题,等等。
比较下来分组回归相较于交互项回归似乎一直处于下风,其实也不尽然,许多实际场景下两者都可以很好实现研究目的。不过,基于上面的一些论述,在选择时一般建议优先考虑交互项回归,之后再尝试分组回归。