文献解读丨共同方法偏差的影响及其解决方法

学术   2024-10-29 15:00   北京  



文献解读

共同方法偏差的影响及其研究方法

文献链接:Podsakoff, P. M., Podsakoff, N. P., Williams, L. J., Huang, C., & Yang, J. (2023). Common Method Bias: It’s Bad, It’s Complex, It’s Widespread, and It’s Not Easy to Fix.Annual Review of Organizational Psychology and Organizational Behavior, 11(1). 
https://doi.org/10.1146/annurev-orgpsych-110721-040030(点击阅读原文获取文章)

简介


本期解读的文章讨论心理测量中的共同方法偏差(common method bias, CMB)问题,主要包括:
  1. CMB的危害;
  2. CMB的来源及其复杂性;
  3. CMB普遍存在的依据;
  4. 为什么CMB很难解决(控制CMB的方法);
  5. 未来的研究方向;
  6. 案例分析。


什么是CMB

共同方法偏差(common method bias, CMB)是指由于数据收集方法、测量工具或研究设计等方面存在共同的系统误差,使得测量结果并不能完全反映所测变量的真实值,进而导致研究变量之间产生虚假的关联,从而影响研究结论的可靠性。简单来说,CMB就是指变量的测量过程中存在某些共同的特征,导致数据之间产生了一种人为的“共性”,这种共性掩盖了变量之间真实的关系

在本篇文章的Intro部分,作者指出:尽管人们普遍认为CMB存在危害,但目前的研究文献关于CMB产生的原因,危害以及补救方法并没有给出很好的说明,原因有以下几点:
第一CMB对变量间关系的影响比较复杂;因为CMB的来源很多,而研究设计和方法越来越复杂(从以前的简单回归到针对现在的多维结构/多水平分析);
第二关于CMB的潜在影响存在争议;有研究者主张CMB很重要,应该在研究中被识别和控制,也有研究者认为CMB的影响被夸大了,其实可以被忽略;
第三CMB相关的文献资料太多;自2010年以来关于CMB评估和控制方法的研究有三十多篇;
最后,即便研究者意识到了CMB的潜在危害,也不清楚如何降低其影响。

Part 1|CMB的危害

Tips

本文出现的以下名词:共同方法偏差,共同方法变异(common method variance),方法变异(method variance),方法因子(method factors)等都指向同一概念,即由测量方法导致的系统性测量误差。

方法变异(method variance)的危害在于两个方面
  1. 方法变异会对潜在变量的信效度产生有偏的估计;
  2. 方法变异会导致测量的不同变量之间的关系产生偏差。
【以上危害的根源都在于:方法变异会导致我们在测量感兴趣的变量时存在偏差,即测量的结果不能完全代表所测变量的真实水平。在心理测量中,这其实是一个普遍的事实,因为任何测量都存在偏差。比如我们通过大五人格问卷来测量一个人的外向性(extroversion),其中测量外向性的题目有12个(60题版本),得到的测验分数能完全代表一个人真实的外向性程度吗?显然不可能。从测验题目的开发到测验实施过程都可能存在误差,即便题目没有问题,测验过程中也可能引入偏差,例如被试可能不会认真作答,测验时的环境较差,或者社会期望偏差等。当然,这里主要关注的是那些由系统因素产生的偏差(因为随机因素导致的偏差大多是不可控的),也就是方法变异。】
图1
文章中提供了上面的示意图(图1):
这里的Construct A代表我们想测量的变量,右边则呈现了3个indicators(也就是测验题目)方差(变异)的划分:其中蓝色部分代表由Construct A解释的比例(从测量的角度,这部分比例越大越好,在理想情况下应接近1,红色的部分代表由系统的测量误差所解释的比例(即本文所关注的方法变异),绿色部分代表由随机误差解释的比例(通常无法预测和控制)。最后,图中省略了题目本身的方差(也称为item uniqueness)。其次,蓝色部分(由Construct A解释的部分)的比例在不同的题目上也存在差异(蓝色部分占比较大的题目对评估Construct A产生的贡献也就越大)。

最后,average variance extracted(AVE),也就是所有题目被Construct A所解释的方差比例的均值(所有题目蓝色部分占比的平均值)可以作为衡量测验质量的一个指标。Fornell和Larcker (1981) 建议变量的AVE值大于0.5是较好的,因为这说明该变量解释了测验题目分数的大部分变异。此外,方法偏差解释的方差比例(红色部分)和随机误差解释的方差比例(绿色部分)在不同的题目之间也存在变化。

Tips

关于AVE的计算,可以使用R中的lavaan包做验证性因子分析CFA,然后使用semTools包中的reliability()函数得到。


接下来作者提供了一系列研究证据来表明CMB的影响。

1.1

CMB对结构效度和信度影响的证据


表1
表格呈现的内容来自7个元分析研究,这些研究将验证性因素分析CFA应用于MTMM(multitrait multimethod)方法得到的矩阵,MTMM技术是用于评估不同测量方法/工具对同一特质进行测量的有效性,可以得到特质,方法和误差方差的比例(分别对应前面图中的蓝色,红色和绿色部分)。根据表格(最后一行的Averages),方法变异(红色部分)平均占比为24%,而construct解释的方差比例平均有41%,这意味着当我们计算得到的AVE值是0.65(65%)时,其中24%实际上是由未被控制的方差变异导致的,而真实的AVE值只有0.41(41%),前面提到AVE推荐的值应大于0.5。

这展示了CMB会使得我们高估了测验的信效度(理论上construct解释的方差比例越大,测验的信效度就越好,而CMB的存在使得construct解释的方差比例的真实值被掩盖了,即AVE的真实值其实是0.41,但加上method variance的24%,最终计算出来是0.65)。

1.2

CMB会使得变量间关系的估计产生偏差


图2
图2显示:未被控制的方法因素会影响变量间关系的估计。因为Supportive Leader Behavior和Employee Helping Behavior这两个construct对应的indicators都存在不同比例的method variance(红色部分),尽管研究者想要检验两者之间的真实关联,但观察到的相关是有偏的(更高或者更低)。这一危害可能进一步产生以下影响:
  • 导致Ⅰ类错误(变量间无关联但结果显示有关联)和Ⅱ类错误(变量间有关联但结果显示无关联)的增加;
  • 预测因子所解释的效标变量比例的高估或低估;原理同上;
  • 可能会加强或减弱所测construct与其前因、相关因素以及结果变量之间的关系,并进而影响对该construct的收敛效度、区分效度和效标关联效度的推断。

Part 2|CMB的来源及其复杂性

图3
图3显示了CMB的三大来源(文章中提供一个巨长的表格【见原文Table 2】,这里仅列举部分常见的):
  • 评分者特征(rater characteristic),常见的有:
  • Implicit theories内隐理论:个体关于态度、价值观、感知、行为等之间关系的先验信念;
  • Consistency motif 一致性动机;个体在作答测验/问卷中相似题目时试图保持一致性;
  • Social desirability社会称许性:个体在作答时会受到社会规范和期望的影响;
  • Response styles反应风格:个体在作答时会系统性地表现出不同的倾向,常见的有极端or趋中反应风格(即倾向于选择极端or中间选项),或者acquiescence默许反应(倾向于认同的选项)。


  • 题目特征/背景(item characteristic eff­ects/item context e­ffects),常见的有:
  • Item wording题目措辞:题目不同的措辞可能会影响个体的理解和选择;
  • Item demand characteristics题目需求特征:是指问卷/测验题目以一种特定的方式编写,从而向受访者提供了暗示,指示了他们应该如何作答;
  • Item ambiguity题目歧义:题目表述含糊不清晰,个体难以理解;
  • Common scale formats共同量表格式:题目以相同的格式呈现,如Likert量表;
  • Scale length量表长度:问卷题目过少(提供的信息不足)或者过多(引发疲劳反应)。


  • 测量环境(Measurement context effects),常见的有:
  • 预测变量和效标变量在同一时间点测量;
  • 预测变量和标准变量在同一地点测量;
  • 预测变量和标准变量使用相同的媒介进行测量。

CMB的复杂性在于,任何研究中都可能存在多个 CMB 来源,而这种复杂性进一步加剧了以下事实:个体在完成问卷时的行为是多个因素共同作用的结果,这些因素包括受访者的能力、经验、动机,以及他们选择付出较少的努力(即 “满意化” 原则),任务的难度等因素。


Part 3|CMB普遍存在

本节内容作者主要在表达非常多学科的研究中都存在CMB。相关的研究检验了多个相关学科领域近13000篇文章,结果显示这些文章中报告的研究有31%-98%(平均为70%)的研究受到CMB的影响,这意味着 CMB 是一个跨学科的问题

Part 4|CMB很难解决(控制方法)


作者认为,由于以下情况的存在,理解研究者通常用来控制CMB的补救措施及其有效性非常重要。

  1. CMB的来源非常多;

  2. 使用问卷来测量焦点变量(如预测变量、中介变量、调节变量、效标变量)的研究中,这些来源中有很多都可能存在;

  3. 每个来源可能需要不同的处理方法来控制其效果;

  4. 不同的construct和测量可能容易受到不同的方法因素的影响;

  5. 用于控制某些偏差的程序可能会加剧其他偏差的效果。


CMB的补救措施可以分为两类:程序控制和统计控制。程序控制是指在研究设计与测量过程中所采取的控制措施,而统计控制是指在数据分析时采用统计的方法进行处理。

4.1

CMB的程序控制方法


图4
  • 从不同来源获取焦点变量(focal variables)的测量数据【Panel a】;心理学研究中变量的测量通常采用self-report方法(以问卷为主),作者指出可以采用一些客观的指标(如学业成绩,工作绩效等)或来自他人(老师,同事,上级等)的评价数据进行替代;
  • 在焦点变量的测量之间引入(时间/心理/接近性上的)间隔【Panel b
  • 保证被试匿名作答以减少评估忧虑【Panel c】
  • 最小化焦点变量的共同量表特性【Panel d

这些补救措施的关键在于识别焦点变量测量之间的共同点,并通过研究设计来移除或最小化这些共同的方法特征(Podsakoff et al., 2003)。此外,作者列举了一些针对常见CMB来源的特定程序性补救措施【详见原文Table 4】。

4.2

CMB的统计控制方法


由于CFA在CMB的研究中扮演了重要角色,本节主要介绍以下4种方法:HSF,UMLV,MV,和DMLV方法,这些方法都可视为基础CFA模型的扩展

图5
上图展示了两个相关的construct,每个construct使用3个指标(题目)来测量。在使用CFA研究CMB时,研究者需要引入不同种类的方法潜在变量,以便识别并控制研究中使用的特定测量方法所产生的方差。这些方法可以实现以下几点:
  • 首先,控制随机测量误差;
  • 其次,允许进行统计检验,以判断CMB是否存在以及其影响程度;
  • 最后,能够将测量结果的方差分解为构念(construct)方差、方法方差和随机误差方差三个部分。

Harman’s single-factor technique (HSF) Harman单因素检验

HSF方法假设CMV如果存在并产生混淆效应,那么它会在模型中表现为一个单一的主导因子【见上图Panel b】,因此,可以通过比较HSF-CFA模型与basic-CFA模型的拟合来判断CMV是否存在。【HSF-CFA相当于在basic-CFA的基础上多了一个“construct”,并且对所有指标相关联,因此,如果这个新模型对数据的拟合更好,说明这个“construct”确实存在,这与使用EFA探索因子个数的逻辑是相似的】。

HSF优点是容易实施,既不需要在研究设计阶段考虑,也不需要在问卷中添加额外的测量,只涉及对原始数据的再次分析,通常以事后(post hoc)检验的方式出现。但其局限性在于:如果假设的测量模型(basic model)比HSF-CFA模型更好地拟合数据,只能证明测量模型的拟合度,而不能证明CMB不存在。EFA 和HSF方法的问题在于,它们并不真正控制CMB,而只是通过一个简单的方法来判断这种偏差是否存在于数据中。

Unmeasured latent variable technique (UMLV)未测量的潜变量技术

UMLV可以视为对HSF的改进。在这种方法中,不是用单一的方法因子替代实质性潜在变量,而是将 HSF添加到原始模型中,这个原始模型同时包含了相互关联的实质性因子。换句话说,UMLV 方法保留了原始模型中的实质性潜在变量,并且额外加入了一个方法因子来评估共同方法偏差的影响【见上图Panel c】。为了检验CMB的存在,需要比较两个模型:第一是只包含了实质性因子的模型,第二是加入了UMLV的模型,同理,如果前者拟合更好说明CMB不存在,反之说明CMB存在。

UMLV的优势
  1. 易于实施,且不需要额外的测量;
  2. 无需识别具体变量,不需要研究人员识别或测量导致方法效应的具体变量;
  3. UMLV技术在题目层面(item level)对方法因素的影响进行建模,而不是在构念层面(construct level);
  4. 不需要假设方法因素对每个指标的影响都是相等的。

局限
  1. 方法因素的具体来源不确定;
  2. 对CMB的检测和控制能力有限;
  3. 识别问题:如果测验的construct和题目较少,在模型中添加method factor或导致识别(identification)问题。

作者认为UMLV方法的最大问题在于使用一个单一的潜在变量来代表可能存在多维度来源的CMV。

Marker variable technique (MV)

引入标签变量(marker variable)来检测和控制CMB【见上图panel d,标记变量:一种被认为与研究中的实质性变量具有相同的测量特征,但概念上无关的变量,类似于控制变量】。通过检验标签变量与实质性变量之间存在的共同变异,并结合其他证据和理论基础,可以推断CMV是否存在(将标签变量视为方法因子的代表)。相较于前面两种方法,MV方法的针对性更强(根据所测的实质变量来选择标签变量),能够在指标层面分析方法效应,并通过控制测量误差,更准确地估计实质性变量之间的关系。

局限性
  1. 仍无法明确确定方法效应的具体来源;
  2. 单个标签变量同样无法控制所有潜在的CMB来源,尤其是关系特异性CMB,即不同变量对之间特有的方法偏差;
  3. 符合要求的标签变量很难选择。

Directly measured latent variable technique (DMLV)

DMLV技术是一种通过直接测量潜在的方法效应来源来检测和控制共同方法偏差(CMB)的方法。与MV方法相比,DMLV技术更直接地针对方法效应的具体来源。研究人员识别可能存在于研究中的CMB的具体来源,直接测量它(如使用社会称许性量表测量社会称许性),并在分析中对其进行控制。常用的变量包括社会愿望、积极或消极情感、印象管理和反应风格。

优势
  1. DMLV技术直接针对CMB的具体来源进行控制,更具针对性;
  2. 更准确的控制,由于直接测量方法效应来源,DMLV技术可能比标记变量技术更准确地控制CMB。

局限
  1. 来源识别,准确识别CMB的具体来源可能具有挑战性;
  2. 测量误差,直接测量方法效应来源也可能存在测量误差;
  3. 模型复杂性:DMLV技术可能涉及更复杂的模型,需要更细致的分析。

Summary

上述常用的统计控制方法中,在控制CMB方面均没有提供令人满意的满意解决方案,这些方法都无法识别CMB的具体来源。具体到每种方法:
HSF基于任意标准,容易混淆实质性和方法方差,不能有效控制CMB。
UMLV容易混淆实质性和方法方差,研究表明其有效性有限。
MV:难以选择有效的标记变量,无法控制所有潜在的CMB来源,可能无法控制隐含理论和一致性动机等强有力的方法效应来源。
DMLV:需要事先识别出具体方法效应,对方法效应本身的测量也会存在测量误差。
因此,作者推荐研究者应在研究设计中优先关注控制CMB的程序性方法,当可以识别出可以被测量的特定偏差因素后再使用合适的统计方法。

Part 5 未来的研究

本节中作者给出了CMB的一些研究方向。总结如下

5.1

设计实验来检验方法因素的影响


Wilson等学者(2021)的研究为例:
该研究检验了题目呈现顺序(item ordering)对在线调查研究可重复性的影响。具体来说,该研究比较了5种不同的题目排序方式:
  1. 随机呈现每个题目(randomized);
  2. 将题目按construct分组(grouped)【以60题版大五人格问卷为例,每个维度12个题目分组呈现】;
  3. 测量不同construct的题目进行混合,以固定序列呈现(intermixed)【实践中通常采用此做法】;
  4. 题目按construct分组,然后随机呈现各组题目(random blocks)【与b的区别是,b中五个维度的题目是固定顺序,而这里是随机顺序】;
  5. 题目按construct分组,各组以固定顺序呈现,但组内题目的呈现随机(static blocks)【在b的基础上,每组内的题目呈现是随机的】。

研究发现:

  • 在测验信度方面,当题目按照维度分组(b, d, e)时,其平均信度高于未分组的呈现方式(a, c);
  • 在结构效度方面,static blocks和random blocks(d和e)高于其他三种方式;
  • 在被试反馈方面,分组情况下(b)被试报告的疲劳和挫败感更少;

他们的其他研究结果建议,题组(blocks)设计是研究人员在项目排序方面的更好选择。需要注意的是,尽管分组或题组设计可以减轻被试的疲劳或挫败感,提高测量工具的心理测量特性,但也可能夸大测验信度和效度的估计。因此,建议在测验工具的开发和验证阶段采用混合(b)或随机化(a)的呈现方式,以提高测量的稳健性。此外,为进一步控制CMB,研究人员可以操纵:题目特征(如改变题目的选项设置),评分者特征(考虑被试的短暂情绪状态),确保测量在时间或物理上的分离(在不同时间/场景下测量)。也可以通过实验在不同的测量中操纵这些因素,为理解CMB提供有价值的见解。

5.2

多维结构的研究


在高阶的多维结构(higher-order multidimensional constructs)中,CMB存在更多挑战:研究者必须检验方法因素对低阶因子和高阶因子之间的影响,以及对高阶因子与其法则网络中其他构念之间关系的影响。此外,每个增加到多维结构中的维度都可能会引入新的CMB。以Johnson等学者(2011)的研究为例:

研究发现CMB会夸大高阶因子职业自我效能与工作满意度之间的关系。为了减轻这种影响,研究者使用了统计和程序上的补救措施。在统计控制方面,控制一个测量的或未测量的潜在方法因子(如social desirability)比控制MV(方法方差)更能有效地减少CMB。在程序控制方面,在不同测量之间设置时间间隔(特别是高阶结构各低层维度之间的时序间隔)比使用不同反应格式的组合更能有效地减少CMB。

5.3

多水平模型的研究


多篇文章指出多水平模型(理论/研究设计/数据分析)在组织科学的应用越来越广泛。但多水平模型中的一个主要担忧是共同方法变异CMV对跨水平变量之间的交互的潜在混淆效应,换言之,CMV会影响高层变量对低层变量之间关系的调节效应。

5.4

经验抽样研究


Gabriel等学者(2019)报告了经验抽样方法(experience sampling methods, EMS)在组织行为和应用心理学领域的快速增长。然而,由于从同一评分来源对预测变量和标准变量的重复测量,这些研究中CMV的潜在影响是一个问题。虽然中心化处理(person-mean centering)是一种常见的补救措施,但它不能控制瞬时情绪状态或题目特征等因素。未来的研究应该调查这些因素对ESM研究结果的影响。

5.5

跨文化研究


随着跨文化研究数量的增长,重要的是研究文化差异对CMB的影响。虽然现有研究集中于反应风格,但额外的研究应该探索文化对CMB其他方面的影响,如社会期望响应、隐含理论以及积极和消极情感。


Part 6 CMB案例分析

本节内容为文章解读的扩展内容,我们使用实测数据展示了两种常见的CMB检验方法的程序示例:假设我们采用问卷分别测量了X/M/Y三个变量,其中X变量为由b1~b20测量,M变量由d1~d25测量,Y由e1~e8测量。数据均由被试自我报告产生。接下来,我们采用HSF检验和UMLV两种方法来检验是否存在CMB

6.1

Harman单因素检验


该方法可以直接在SPSS中得以实现,具体而言
(1)在SPSS中选择分析-降维-因子分析;

(2)把问卷中量表题项数据全部纳入变量框内,其他参数选项全部默认设置;

(3)结果发现,第一个因子提取的方差小于40%,因此不存在严重的CMB。



6.2

UMLV方法


该方法需要在Mplus等可以检验CFA的软件上进行。此处以Mplus代码为例,展示检验过程:

Step 1 检验单因子模型

(1)Mplus代码:
VARIABLE:NAMES ARE b1-b20 d1-d25 e1-e8;usevariables = b1-b20 d1-d25 e1-e8;MODEL:X by b1-b20; !固定因子负荷法M by d1-d25;Y by e1-e8;

(2)模型拟合结果:

Step 2 检验双因子模型

(1)Mplus代码:
VARIABLE:NAMES ARE b1-b20 d1-d25 e1-e8;usevariables = b1-b20 d1-d25 e1-e8;MODEL:X by b1-b20;M by d1-d25;Y by e1-e8; !同单因子模型CMV by b1-b20(a)d1-d25(a)e1-e8(a);!构建额外的共同变异因子CMV WITH X M Y@0;CMV@1;

(2)模型拟合结果:

Step 3 模型比较

比较双因子模型拟合是否显著好于单因子模型拟合。若模型拟合指数变好很多(例如,CFI和TLI提高幅度超过 0.1,RMSEA和SRMR 降低幅度超过0.05),说明存在严重的共同方法偏差。在该案例中,模型拟合改善较小,因此不存在严重的CMB。


References


  1. Fornell, C., & Larcker, D. F. (1981). Evaluating Structural Equation Models with Unobservable Variables and Measurement Error. Journal of Marketing Research, 18(1), 39–50.
  2. Johnson, R. E., Rosen, C. C., & Djurdjevic, E. (2011). Assessing the impact of common method variance on higher order multidimensional constructs. Journal of Applied Psychology, 96(4), 744–761. https://doi.org/10.1037/a0021504
  3. Podsakoff, P. M., MacKenzie, S. B., Lee, J.-Y., & Podsakoff, N. P. (2003). Common Method Biases in Behavioral research: a Critical Review of the Literature and Recommended remedies. Journal of Applied Psychology, 88(5), 879–903.
  4. Wilson, V., Srite, M., & Loiacono, E. (2021). The Effects of Item Ordering on Reproducibility in Information Systems Online Survey Research. Communications of the Association for Information Systems, 49(1). https://doi.org/10.17705/1CAIS.04940


END


作者:郭治辰 张夕
审校:代新宇
排版:胡晓钰

重磅 | 20万字英文学术写作文库笔记正式发布
(赞赏90元,公众号后台发送支付截图+接收邮箱即可)



荷兰心理统计联盟
心理学与管理学研究者的共享学习平台:分享统计方法、软件操作、研究经验、写作发表,及就业求职资料!
 最新文章