信度分析:组内相关系数 (ICC) 知多少

文摘   2024-06-18 09:41   广东  

在行为科学的研究中,绝大多数测量都存在误差,严重影响了统计分析和结果解释1。因此,对测量误差的评估非常重要。信度 (reliability) 作为测量误差的关联概念,是评估测量误差的重要参数。此外,在新量表开发的过程中,信度也是一个重要的指标2。本次我们介绍一个相对复杂的信度系数——组内相关系数 (Intraclass correlation, ICC)。

温馨提示:本文字数约13000字,预计阅读时间超过30分钟。

一、什么是组内相关系数

信度是测量值可以被重复的程度,它反映了测量之间的相关性和一致性程度。在经典测验理论 (Classical Test Theory, CTT) 中,信度 (ρ) 是真分数 (True score,T) 的变异占观测分数 (Observed score,等于真分数 T+误差分数 E) 变异的比例,其取值范围为 0~1,值越大表示信度越高2。信度的基本公式 1 为:

其中 表示真分数的方差, 表示误差方差。

组内相关系数 (Intraclass correlation,ICC,也翻译为类内相关系数) 可以定义为测量对象的变异 (即真分数的变异) 占总变异 (观测分数变异) 的比例,它来自于特定情境下的特定样本在特定任务上的得分3-5。这里,“组内”指具有相同测量尺度和方差的一组变量 (如重复测量的变量),而非通常意义上的被试组 (如考生,家庭等测量对象)3。ICC 的定义可以用下述公式 2 表示:

为了精确定义 ICC,需要更详细地指定公式 2 中的 ,因为真分数方差包含被试的方差,而误差方差包括评分者/重复测量的系统误差和随机误差6。从公式可以看出,ICC 的公式与信度的基本公式相等,表明 ICC 完全符合信度的定义,反映了测量之间的相关性和一致性程度,是一种衡量信度的理想指数2

ICC 广泛应用于行为科学和医学领域,用于估计顺序 (ordinal) 或连续 (continuous) 数据集中评分者间 (interrater)、评分者内 (intrarater) 以及重复测量 (test-retest) 信度2,5,7

  • 评分者间信度指测量同一组被试的多个评分者 (raters) 之间的一致性;
  • 评分者内信度指单一评分者在多个测验试次 (trials) 中的测量数据的一致性;
  • 重复测量信度指同种测量工具 (instrument) 在相同条件下对相同被试进行多次测量的一致性,此时不考虑评分者的效应。

ICC 由 Fisher 在 1954 年首先提出,用于修正 Pearson 相关系数2。后来,Shrout 和 Fleiss1在前人研究的基础上总结出 6 种 ICC 模型,并提供了关于 ICC 模型选择的初步指南。基于此,McGraw 和 Wong3根据方差分析模型、测量类型和一致性定义,又总结出了 4 个新模型 (至此一共有 10 种 ICC 模型),并提供了更全面的 ICC 选择程序。进入 21 世纪,Koo 和 Li2将研究目的纳入 ICC 的选择过程中,完善了 McGraw 和 Wong3的 ICC 选择流程;ten Hove 等人6从概化理论 (Generalizability Theory) 的视角出发,考虑了不完整观测设计 (Incomplete Observational Designs) 下的 ICC 计算,并进一步更新了 ICC 的选择指南。

选择合适的 ICC 模型,需要先指定一个适合样本数据的方差分析模型。这是因为,方差分析通过对变异进行分解,如将总变异分解为被试变异、评分者变异、随机误差变异等,从而产生了相应变异的均方 (Mean square, MS)1。而计算ICC的现代方法恰恰需要用到这些变异的均方,因此必须先指定方差分析模型,才能知道如何进行后续分析2,3,8。那么,如何指定方差分析模型并选择合适的ICC模型呢?

二、如何选择合适的ICC模型

(一) 相关概念

ICC由方差分析中的均方 (mean square, MS) 计算而来,故需要先明确模型涉及的相关概念。下面通过一个一般性的例子来解释。在某次实验中,个测量目标 (被试,subjects) 的随机样本被个评分者 (raters) 独立评价1。其中,代表第个测量目标被第个评分者评价的得分 (见表1A)。

概念I:三大方差分析模型 (Model)

单向随机效应模型 (One-way Random-Effects Model)

单向指只有一个系统变异来源 (systematic source of variance),而随机效应指变量的水平是从一个更大的总体中随机选取的,结果可以推广到该群体中3。对上述例子来说,随机选取的个被试,每一名被试都由一组个评分者进行评分。我们通常会假定这些评分者是从一个更大的评分者总体中随机抽取的1,2。但是,每一组评分者只对一名被试进行评价,即,评分者随被试的变化而变化13。因此,尽管被试和评分者都是随机选取的,但该模型只有被试的随机效应,它无法将评分者效应、评分者与被试交互效应和随机误差区分开来1,3,8。在这种情况下,被试的第次评估得分可以写作公式3:

其中, 代表所有被试的总平均值,是一个固定的常数; 是第 个被试平均得分 (真分数) 与 的差值,代表被试的随机效应,服从均值为 0 标准差为 的正态分布, 即为真分数8 是误差成分,包含评分者效应、评分者与被试交互效应和随机误差,服从均值为 0 标准差为 的正态分布。由于各成分间相互独立,因此观测得分 的方差可以表示为公式4:

其中,表示观测分数的方差;表示被试效应,即真分数的方差;表示误差成分的方差,包括评分者方差、评分者与被试交互效应的方差和随机误差方差。根据前文对ICC的定义,在不考虑其他因素的前提下,公式4中的是ICC公式中的分子项,而作为观测分数的方差,将同时被纳入分母项。用这种模型估计的ICC比双向模型更小2

从实验设计的角度来说,该模型符合嵌套实验设计 (Nested design) 的特点1,即评估每个被试的评分者均不同,意味着评分者嵌套于被试,每个被试接受次评估,每个评分者只评估1个被试 (对于被试来说,评分者“不会重复”,见表1B)。它类似于实验心理学中的单因素完全随机设计。

双向随机效应模型 (Two-way Random-Effects Model)

双向是指具有两个系统变异来源 (systematic source of variance),即表1A中的被试和评分者/测量的变异,随机效应的意义同前3。对上述例子来说,从一个大的总体中随机选取包含个评分者的样本,每个评分者都要对每一个被试进行评分,这个被试也是随机选取的1。与单向随机效应模型不同的是,此处每个被试都被个相同的评分者进行评分,因此,该模型除了包含被试的随机效应,还包含评分者的随机效应,即从中将评分者效应分离出来1,2。在这种情况下,被试的第次评估得分可以写作公式5:

其中,的含义与单向随机效应模型中的相同;是第个评分者的评分平均值与总平均值μ的差异,代表评分者的随机效应,服从均值为0标准差为 的正态分布; 是被试和评分者的交互效应,代表评分者效应对每个被试来说是不同的,它服从均值为 0 标准差为 的正态分布; 是无法解释的随机误差,服从均值为 0 标准差为 的正态分布。该模型可以把结果推广到与评分者样本相似的任何评分者群体,但由于每个被试在每个评分者的评价下只产生 1 个数值 (表 1A),因此无法将交互效应 和随机误差 分离2,3。上述各成分之间依然相互独立,因此观测得分 的方差可以表示为公式6:

其中, 与公式4中的含义相同, 表示评分者效应的方差, 表示评分者与被试交互效应的方差, 是随机误差方差。根据ICC的定义,在不考虑其他因素的前提下,公式6中测量对象的真分数变异依然是 ,故ICC公式中的分子项只包含 ;而作为观测分数变异的分母项为

从实验设计的角度看,该模型符合交叉实验设计 (Crossed design) 的特点1,即评估每个被试的评分者相同,每个评分者要评估所有被试;每个被试接受 次评估,每个评分者评估 个被试 (对于被试来说,评分者“重复出现”,见表1C)。它类似于实验心理学中的随机区组或重复测量设计1

双向混合效应模型 (Two-way Mixed-Effects Model)

双向的含义同前,固定效应指变量的水平只包括研究者感兴趣的几个水平,并不是从更大的总体中随机选取的,结果也不能推广到更大的群体中3。在研究设计上,该模型与双向随机效应模型的唯一不同是,研究者仅对选取的 个评分者感兴趣,所得到的结果不能推广到其他评分者群体中,即评分者是“不可替换的” (表1C)1,3。在这种情况下,被试 的第 次评估得分 与公式5相同,只不过,此时 效应是固定的,评分者并非来自正态总体,其方差 需要使用 代替,即公式6中的 需要换成 8。评分者固定效应的设定不仅改变了ICC公式中的分母项,还影响了分子项 (真分数变异) 的估计。由于交互项 存在限制 ,使得本应该互相独立的 值存在负相关 (预期偏差为-1/( - 1)),导致被试效应 的估计有偏,故需要使用/(-1) 来获得被试效应的无偏估计6。所以,在不考虑其他因素的前提下,该模型中测量对象的真分数变异 (被试效应) 是/(-1),即为ICC公式中的分子项;而观测分数 则是公式的分母项。因此,尽管该模型下的ICC与双向随机效应模型下的ICC在计算上可以得到相同的数值,但解释上完全不同1。其很少用于评估评分者间信度 (interrater reliability),研究者建议将其用于评估重测信度2,9

概念II:两种测量类型 (Type)

个体测量 (Single Measurement, 1)

使用单一的评分者作为实际测量过程中的评分主体,即来自单一评分者的评分是统计分析的单元2,5,如表1A所示,每个数据单元格代表1名评分者的评价 (每列代表一名评分者)。通常来说,个体测量时计算的ICC是平均测量时的一个特例3

平均测量 (Average Measurements, )

使用多名评分者的平均分作为实际测量过程中的评分主体,即一组评分者的平均评分是统计分析的单元2,5,以表1A为例,每个数据单元格代表多名评分者的平均评分,而非一个人 (每一列代表多名评分者)。通常来说,平均测量条件下获得的ICC值比个体测量条件下的ICC高1

在不考虑其他条件和测量误差的情况下,被试真分数的“计算”流程在不同测量类型中存在不同。在个体测量中,表1A的每一列代表一名评分者,每个单元格包含一个评分。对于表1A中的被试1来说, 名评分者均对其作出评分,这些评分记录在表1A中第一行,每个单元格记录一名评分者的评分。将该行求均值,即可得到被试1的真分数 (第一次求均值)。将这一按行求均值的过程重复 次,每个被试都得到了真分数 ,此时,真分数的变异就是这 个真分数的方差。而在平均测量中,此时表1A的每一列代表一个评分小组,每个评分小组包括多名评分者,即每一个单元格实际包含多个评分值,只是最终仅呈现这多个评分值的平均数。对于表1A中被试1来说, 个评分小组,每个评分小组假设有3名评分者,都要对被试1作出评分,这些评分记录在表1A中的第一行,每个单元格记录一个评分小组3名评分者评分的平均值 (第一次求均值)。将该行再求均值,就得到被试1的真分数 (第二次求均值)。将这一按行求均值的过程重复 次,每个被试都得到了真分数 ,此时,真分数的变异就是这 个真分数的方差。尽管真分数及其变异无法直接通过计算获得,但这种描述可能有助于理解两种测量类型对真分数的影响。

此外,两种测量类型对于误差项 (包括评分者效应、评分者与被试的交互效应和随机误差) 变异的影响不同8。在平均测量下,误差项需要除以每组评分者的人数 (通常用 表示);而在个体测量下,由于每组评分者只有一个人,所以误差项只要除以11

概念III:两种一致性的定义 (Definition)

绝对一致性 (Absolute Agreement, A)

关注不同的评分者给相同被试的评分是否一样,属于绝对的一致性2。例如,高考阅卷时,两位评卷人对同一份试卷打分,这种条件下的ICC就关心两位评卷人给同一份试卷的分数是否完全一样,此时表1A中 代表评分者 给第 个被试的具体评分,研究关注不同评分者给每个被试的评分是否一致。此时,评分者间的变异 是一个重要的变异来源 (需要包含在ICC公式的分母中)5,6

一致性 (Consistency, C)

关注评分者给被试评定的等级是否一样,属于相对的一致性3。例如,从班级挑选考试成绩前10名的学生,试卷由两位老师独立批改,这种条件下的ICC就只关心两位老师对学生排名的一致性评估,而非学生具体考试分数的一致性12。此时尽管表1A中的 代表评分者 对第 个被试的具体评分,但研究关注这些评分在被试群体中排名的一致性,即不同评分者给每个被试评分的排名是否一致。此时,评分者间的变异 无关紧要 (不包含在ICC公式的分母中)5,6

这两种一致性对于真分数及其变异的影响相同,二者在ICC公式中的区别仅在于是否将评分者间的变异纳入分母项。

将上述概念进行组合,一共可得到10种ICC模型3,如表2所示。

表2. 不同类型的ICC

注:本表基于 McGraw 和 Wong3 改编而来,其中,

1. McGraw 和 Wong3 文章中表4和表5在双向随机效应模型、双向混合效应模型中同时给出了不带交互项的模型 (Case 2A 和 Case 3A),即分母中不存在 ,此时,公式分母中应当去掉 。 
2. 在不带交互项的模型中,由于 不存在,故分子只有 一项。且在双向混合效应模型中, 需要使用 代替,。 
3. Liljequist 等人8 和 ten Hove 等人6 均指出,在评分者效应为固定效应时,只有交互项不存在或交互项可以从误差项中分离的情况下,ICC 才可以估计。但在这两个模型中,尽管 无法分离,但公式中的 在计算过程中可以消去,故此时可以估计带交互效应的模型,其计算结果与不带交互效应的模型相同 (见附录1)。 
4. 在这两种情况下,带交互效应的模型无法估计,即无法推导出合理的计算公式 (相应的ICC计算式由 时推导出),这是因为 无法分离,且在公式中无法抵消 (见附录1)。

(二)经典的模型选择流程

正确使用ICC从正确选择适用于特定研究的模型开始5。Koo和Li2 将研究目的纳入选择ICC模型的考虑中,在McGraw和Wong3 的基础上总结了一套更加完善的ICC选择流程指南(图1)。在选择合适的ICC模型的过程中,有几个重要的问题需要考虑2,5

  1. 研究的目标是什么?评价哪种信度?

  • 如果研究者的目标是评估重测信度 (test-retest reliability) 或者评分者内信度 (intrarater reliability),推荐使用双向混合效应模型 (Two-way Mixed-Effects Model)。因为对于评分者内信度来说,无需将结果推广到其他评分者1;对重测信度来说,时间点也并非随机抽样2,9。如果需要评估评分者间信度 (interrater reliability),需要根据对后续问题的回答进一步选择。
  • 对于所有的被试来说,评分者是同一组人吗?

    • 评分者不是同一组人,意味着评分者嵌套于被试,此时属于嵌套设计,需要使用单向随机效应模型 (One-way Random-Effects Model)。评分者是同一组人,双向效应模型是可取的,具体的选择基于后续问题的答案。
  • 评分者是从更大的总体中随机选取的,还是研究者感兴趣的一个特定样本?

    • 如果评分者是从某个更大的总体中随机选取的,则表明评分者可由来自同一总体中的其他评分者替代,评分的信度可以推广到评分者所在总体中。在这种情况下,选用双向随机效应模型 (Two-way Random-Effects Model)。如果评分者本身是一个特定的群体,不能随意替换,关于评分信度的结果也无需向更大的总体推广,此时选用双向混合效应模型3

    小结:对以上3个问题的回答,决定了使用哪个方差分析模型,即总体的变异应当分解成哪些部分,也决定ICC计算公式中分子和分母项构成,即观测对象真分数变异的估计,分母包含的变异来源。

    1. 分析单元是单一评分者的评分 (single measurement) 还是多名评分者的平均评分 (average measurements)?

    小结:对该问题的回答决定了ICC公式中真分数及其变异,以及评分者、交互效应和随机误差变异的更精确估计。

    1. 关注绝对一致性 (absolute agreement) 还是一致性 (consistency)?
    • 在重测信度或者评分者内信度的研究中,一般都选择绝对一致性2。在估算一致性时,评分者因素是一个无关因素,需要排除在模型之外,所以在使用单向随机效应模型时,只能选择绝对一致性,因为该模型无法将评分者因素分离出来,自然就无法将其从模型中去除2,3。在其他情况下,可以根据研究的目的选择。

    小结:对该问题的回答能够进一步决定ICC公式中分母的构成项,即是否包含评分者效应。

    总结:这些问题中,对前3个问题的回答保证了选择正确的模型 (Model),而对于最后两个问题的回答,保证了测量类型 (Type) 和定义 (Definition) 的准确性。至此,已经可以获得适合当前研究的正确的ICC模型。


    注:本图基于Koo和Li2的模型选择流程,在此基础上做了微调,即将McGraw和Wong3流程图中更细节的部分融入
    图1. ICC模型选择的流程图

    (三)模型选择的更新观点

    Liljequist等人8 针对个体测量的ICC模型,提出了一种简化的模型选择程序 (见图2A)。他们认为,像上面那样先选择一个统计模型既不必要也不方便,可以平等地使用ICC(1),ICC(A,1)和ICC(C,1)这三个模型。在研究中,同时计算这三个值,并比较。如果它们的值近似相等,代表评分者效应非常小,可以忽略不计8,10。同时,执行检验 ( ) 以判断评分者效应是否存在 (该检验的零假设是:评分者效应不存在)。检验不显著,表明评分者效应不存在,可以直接报告ICC(1)及其置信区间。此时,上述3个ICC值是总体ICC的等效估计。如果它们的值存在明显差别,通常是ICC(1) < ICC(A,1) < ICC(C,1),代表评分者效应不可忽略。同时执行上述检验 (这种时候检验一般都显著)。此时,ICC(1)模型不再适用,需要同时报告ICC(A,1)和ICC(C,1)及相应置信区间,因为它们提供了关于测量可靠性的不同的和互补的信息。该选择流程的不足在于,并未包含平均测量条件下ICC的选择,适用范围相对局限。

    图2. 其他两种ICC模型选择流程

    Li等人10 基于Shrout和Fleiss1 提出的ICC模型,并结合神经成像测量的特点提出了一种模型选择流程 (见图2B)。该流程共分为两步,第一步是确定测试效应 (test effect,即本节前述评分者效应或重复测量效应) 是否可以忽略。该步骤通过检验判断,若值不显著,表明测试效应可以忽略,此时使用单向随机效应模型,即计算ICC(1,1)或ICC(1,);若值显著,表明测试效应不能忽略,此时需要使用双向模型。第二步是确定测试效应是否是随机的。如果测试效应是随机效应,则使用双向随机效应模型,即计算ICC(2,1)或ICC(2,);若不确定测试效应是否是随机效应,应当选择双向混合效应模型,即计算ICC(3,1)或ICC(3,)。

    认知行为任务中ICC的选择基本可以按上述流程进行,但研究者还有额外的考虑。Li等人10 认为,如果需要将结果推广到所有可能的测试中,且关心重复测量的绝对一致性,则需要使用ICC(2,1)或ICC(2,);而如果不将结果推广到所有可能的测试中,或者关注重复测量的一致性,则ICC(3,1)或ICC(3,)更合适。此外,Parsons等人4 建议,Shrout和Fleiss1 提出的基于双向混合效应模型的ICC(3,1)和ICC(2,1)最适合评估认知行为任务的重测信度 (即表2中属于“双向混合效应模型-个体测量”的两个公式),且最好同时报告这两个估计,以方便比较测量的一致性和绝对一致性。

    三、ICC结果的解释

    ICC理论上的取值范围在0~1之间,但在一些偶然的情况下,如被试样本量较小时,ICC实际取值可能会超出0~1的范围,这使得该值无法解释。由于ICC值依赖于样本 (sample-dependent),故在控制了诸如“评分者之间无相关”、“数据方差有限”等不可靠来源后,能够较好地避免这些情况发生2,8,11,12。当出现负值时,研究者建议报告这一负值,然后参照信度等于0时的实际意义来解释 (此时,0通常包含在置信区间中)4,10

    ICC值越大,代表被试间的异质性越高,测量误差越小8,12。ICC=0时,代表所有被试完全同质 (被试间差异为0) 或评分者间的评价完全不一致12;ICC=1代表评分者之间的评价完全一致 (即数据集相同)2。那么,究竟多大的ICC值才能被认为“信度高”呢?一种观点认为,ICC小于0.5,代表信度很差 (poor);ICC介于0.5和0.75之间,信度中等 (moderate/fair);ICC介于0.75和0.9之间,信度较好 (good);ICC大于0.9,信度极佳 (excellent)2。另一种观点认为,ICC小于0.4,代表信度很差 (poor);ICC介于0.4和0.6之间,信度中等 (moderate/fair);ICC介于0.6和0.75之间,信度较好 (good);ICC大于0.75,信度极佳 (excellent)5

    值得注意的是,我们最终得到的ICC值都来自于ICC的计算式,这个结果只是ICC真实值 (即表2中ICC定义式的结果) 的一致但有偏 (偏低) 的估计 (Consistent but biased estimate),只有在完整的实验重复无数次时,其计算式得到的结果才等于真正的ICC值,即定义式的结果1,8。但实际上,实验不可能重复无数次,因此需要通过统计推断来验证所获得的ICC值是否足够好,此时不仅要报告具体的ICC值,还需要同时报告相应的置信区间,因为它能够提供更多的信息2,4。但是,研究者不建议报告值,因为这可能造成一种误解——值显著,代表测量信度高4

    关于ICC结果的报告,尽管没有标准的模板,但需要包含有关ICC估计的详细信息,如分析流程 (代码),例如2:使用SPSS 23.0 (SPSS Inc, Chicago, IL) 估计ICC及其95%置信区间。ICC的计算基于个体测量和绝对一致性的双向随机效应模型。衡量评分者一致性的ICC值为0.932,95% CI=[0.879, 0.965],表明该信度值在“较好”到“极佳”之间。

    关于上例中ICC值究竟属于“较好”还是“极佳”,从其具体数值看,显然属于“极佳” (超过0.9);但更好的解释是基于其置信区间做出推断,即该信度值在“较好”到“极佳”之间,因为置信区间下限0.879低于0.9,只是“较好”,而上限0.965超过0.9,属于“极佳”2。其他标准化的报告模板参见Parsons4 和Perinetti5

    四、举例

    例1. 焦虑测量的评分者间信度

    例子介绍:本例来自R包irr的自带数据集,3名评分者评价20名被试的焦虑水平14。评分为单题项测量,分值从1 (一点也不焦虑) 到6 (极其焦虑)。3位评分者的评分变量分别记录为rater1,rater2,rater3。如何求评分者间信度?

    数据的前期处理:该数据是统计包的自带数据,无需前期转换处理。

    ICC的选择与计算:3位评分者可以看做从更大的总体中随机选取的,且他们对所有被试的焦虑程度做了评估,故最好使用双向随机效应模型。评分是单题测量,使用个体测量更合适。该类评估侧重评价被试实际的焦虑水平,而非被试在其群体中的相对位置,故评估绝对一致性更合理。因此,本例需要报告双向随机效应模型下个体测量的ICC(A,1)。将数据导入后,使用irr包的icc()函数计算ICC。其他的计算方法参见文件ICC_calculation.Rmd.

    require(irr)
    icc(anxiety, model = "twoway"type = "agreement", unit = "single")

    该函数仅输出相应模型下的ICC值,包括其模型设定、样本量、相关检验以及ICC的点估计和区间估计

    Single Score Intraclass Correlation
    Model: twoway
    Type : agreement
    Subjects = 20
    Raters = 3
    ICC(A,1) = 0.198
    F-Test, H0: r0 = 0 ; H1: r0 > 0
    F(19,39.7) = 1.83 , p = 0.0543
    95%-Confidence Interval for ICC Population Values:
    -0.039 < ICC < 0.494

    结果报告:使用R语言的irr包 (Gamer et al., 2019) 计算ICC,用于评价3名评分者对20名被试焦虑水平的评估。使用双向随机效应模型下的个体测量,发现3位评分者的绝对一致性较差,ICC(A,1)=0.20,95% CI=[-0.039, 0.494]14

    例2. Stroop任务的重测信度

    例子介绍:本例是Parsons等人4 文章中的案例,数据取自Hedge等人 (2018) 文章中的Stroop任务。该任务中,被试需要判断屏幕中央单词的颜色,并按键反应。在一致条件 (congruent trail) 下,单词含义与颜色一致;在不一致条件 (incongruent trail) 下,单词含义与颜色不一致。每种条件各执行240试次。研究者感兴趣的因变量是:不一致条件下的反应时与一致条件下反应时的差值 (RT cost)。在首测完成3周后,被试需要接受重测,两次测量的因变量分别记录为Stroop_1和Stroop_2。如何求重测信度?

    数据的前期处理:根据Parsons等人4 文章中在线补充材料(https://osf.io/9jp65/)提供的代码,将原始数据转换成用于计算ICC的数据,并根据以下代码导出为csv文件(此步骤已完成):

    install.packages("writexl")
    library(writexl)
    write.csv(summary,file="c:\\Users\\hp\\Desktop\\summary.csv",row.names=FALSE)
    # 此处使用"\\"以避免出现错误
    # 此处使用Windows系统路径请根据实际情况修改。请替换“file=”后的文件存储地址

    ICC的选择与计算:如前所述,根据Parsons等人4的建议,需要计算并报告双向混合效应模型下的ICC(3,1)和ICC(2,1)。将数据导入后,使用psych包的ICC()函数计算ICC。其他的计算方法参见文件ICC_calculation.Rmd.

    require(psych)
    ICC(summary[,c("Stroop_1","Stroop_2")])

    该函数能够输出Shrout和Fleiss1提出的6种ICC的结果。在该结果中展示了ICC及相关的统计检验。其中,第一列表示ICC的类别(type),第二列表示重测信度的点估计(ICC),而最后两列表示重测信度估计的95%置信区间(lower & upper bound)。

    结果报告:使用R语言的Psych包(Revelle, 2018),用组内相关系数(ICCs)估计了在第一次和第二次测试阶段之间,Stroop任务的重测信度。我们报告了双向混合效应模型下绝对一致性ICC(2,1)和一致性ICC(3,1)的结果(即上方输出结果的第二和第三行)。在绝对一致性条件下估计的ICC(2,1)值为0.64,95% CI=[0.31, 0.80];在一致性条件下估计的ICC(3,1)值为0.72,95% CI=[0.61, 0.80]4

    五、其他议题

    1. ICC子模型之间的关系

    在相同测量类型和一致性定义的前提下,基于双向随机效应模型和双向混合效应模型计算出的ICC在数值上相等(尽管结果解释不同);在相同模型和一致性定义的前提下,基于平均测量的ICC值比基于个体测量的要大(公式中分母更小);在相同模型和测量类型的前提下,一致性测量的ICC比绝对一致性的ICC要大(公式中分母更小)1,2,3,12。当评分者效应不存在时,ICC(1),ICC(A,1)和ICC(C,1)的值近似相等,ICC(),ICC(A,)和ICC(C,)的值也近似相等;但当评分者效应存在时,ICC(1) < ICC(A,1) < ICC(C,1)8

    2. ICC与Pearson相关系数,Cronbach’s α和K-R 20的关系

    Shrout和Fleiss1认为,双向混合效应模型中的ICC(C,)等于Cronbach’s α,而McGraw和Wong3认为是双向随机效应模型中的ICC(C,)等于Cronbach’s α。由于这两个模型中ICC(C,)计算式相同,故可认为双向模型中的ICC(C,)即为Cronbach’s α。当数据为二分类(dichotomous)计分时,上述双向混合效应模型中的ICC(C,)等于K-R 201

    从本质上说,ICC和Pearson 都用于衡量相关关系,它们的不同在于:在任意模型和测量类型中,ICC(A,1)/ICC(A,)考虑评分者效应,是严格的一致性指数,任何变动都会造成其降低();ICC(C,1)/ICC(C,)不考虑评分者效应,属于“可加性指数”(Additivity index),即y在多大程度上可通过加上一个常数得到();而相关系数属于“线性指数”(Linearity index),即在多大程度上可通过线性变换得到()3

    以图4为例,横纵坐标为两位评分者的评分。当两位评分者的评分完全相等时,所有数据点都落在线A上,此时ICC(A,1)/ICC(A,)、ICC(C,1)/ICC(C,)和Pearson 均为1;当第一位评分者的评分一直低于第二位评分者(相差一个常数)时,所有数据都落在线B上,此时由于存在评分者效应,所以ICC(A,1)/ICC(A,)不等于1,但由于不考虑评分者效应,ICC(C,1)/ICC(C,)和Pearson 仍为1;当第一位评分者的评分是第二位评分者的二倍时(数据落在线C上),由于两人评分的方差不同,而ICC是基于“方差相等”的假设构建的,故此时两种ICC均不等于1,但Pearson 没有这种假设,所以Pearson 依然为112

    通俗的说,在图3中,只要数据形成一条直线,Pearson 就会等于1;但只有数据落在45°线的任一平行线上,ICC(C,1)/ICC(C,)才等于1;当且仅当数据落在45°线上时,ICC(A,1)/ICC(A,)才等于1。ICC与Pearson 的关系还可以参考Koo和Li2文章中的图2(此处的图4)。

    图3. 不同的相关关系
    图4. Koo和Li文章中关于ICC和Pearson r关系的描述

    3. ICC分析中样本量的问题

    与通常假设检验中计算样本量所需指定的参数(效应量effect size,统计检验力power,显著性水平α)不同,ICC样本量分析过程中需要指定预期的ICC值(来自于前人研究或者预研究pilot study)、预期的置信区间宽度(相当于指定效应量,通常是预期ICC的小数倍,如0.4×ICC或0.8×ICC)和置信度(confidence level,通常为90%,95%,99%)。通过蒙特卡洛模拟,在不同的被试和评分者数量的条件下,生成ICC和置信区间宽度之间关系的曲线图,将上述预期指定的值放入图中进行对照,从而确定较为合适的样本量。值得注意的是,需要获得的样本量不仅是被试数量,还有评分者的数量。一般来说,对于任何给定的ICC,4~5位评分者就能够最大限度地减小置信区间宽度(即提高精确度)。此外,增加被试的数量比增加评分者的数量更能提高研究的效率和精确度13。随着被试数量的增加,ICC也增加(该结论可以通过使用如下研究中的数据加以验证:https://osf.io/preprints/psyarxiv/9cm7z,相关分析参见其补充材料)。也有研究者建议,ICC分析中至少需要30名异质性的被试以及最少3位评分者2。在重测信度研究中,将上述评分者数量替换为重复测量的次数即可。该领域的研究并非特别完善,但可参考Gwet13对于ICC研究中样本量计算的详细描述。

    4. 分类变量中的评分者一致性

    ICC主要用于评估顺序或连续数据的评分者一致性7,但也有研究者认为ICC只能用于连续数据5。不管怎样,ICC都不适用于评价类别变量(Categorical variables)之间评分者一致性,此时需要使用kappa系数。Kappa系数取值范围为-1~+1,+1表明评分者之间完全一致,-1表明完全不一致或量表存在反向计分,0代表评分者之间的一致性低于偶然情况下的一致性7

    究竟多大的kappa值才能表示一致性高呢?图5的3种观点供参考7,12

    图5.  kappa的临界值


    与ICC类似,kappa系数也包括多种变体。最经典的Cohen’s kappa用于衡量两名评分者在无序二分类或多分类(nominal/categorical)变量中评价的一致性。加权Cohen’s kappa适用于评估顺序(ordinal)变量时两名评分者的一致性,加权方式有线性和二次方加权,二次方加权kappa等于双向混合效应模型下的ICC(C,1),二者可以互换7,12。Light’s kappa适用于评估多名评分者评分的一致性,在数值上等于所有可能的两位评分者之间kappa的算术平均值(即将多名评分者进行两两配对,每一对都能算出一个kappa,这些kappa的算术平均值即为Light’s kappa)。Fleiss’ kappa是对Cohen’s kappa的扩展,适用于评价两名或多名评分者在分类或顺序变量中评分的一致性,以及评估嵌套设计中评分者的一致性(即每一名被试由不同的评分者小组进行评分)7,12,14。Hallgren7的文章(表7)对kappa系数的变体做了总结,Kassambara14、Gwet13和de Vet等人12的著作对不同kappa的概念、特点和计算均做了较为详细的介绍。

    5. 多水平模型(Multilevel Model)中的ICC

    多水平模型(Multilevel Model),或叫做线性混合模型(Linear Mixed Model, LMM)、阶层线性模型(Hierarchical Linear Model),是一种用于处理具有嵌套结构的数据(如学生嵌套于班级,测量嵌套于个人)的方法。如对一组被试的焦虑水平进行多次测量,研究者想知道被试焦虑随时间变化的趋势。在这组被试中,每一个人都接受若干次测验,这种数据就具有嵌套结构(若干次测验嵌套于被试),因此需要使用多水平模型进行分析。在这个数据中,总体的变异来自两个部分,一是每次测验之间(“组”内)的变异,一是个体之间(“组”间)的差异,这些变异可以通过方差分析获得。在进行多水平建模之前,需要满足一个前提,即数据的组间差异足够大。而用于衡量组间差异的指标正是ICC。

    前述提及,单向随机效应模型下的ICC用于嵌套设计中一致性的分析,这种嵌套设计的数据结构(表1B)与上述需要使用多水平建模的数据结构相同。在多水平模型与信度分析中,使用ICC(1)的目标相同,但表述不同。多水平模型使用ICC(1)评估组间(个体间)的差异性(也可以说是组内(或个体内测量)的一致性),而信度分析使用ICC(1)评估评分者之间的一致性,由于评分者嵌套于被试,评估评分者的一致性就等于评估前述的组内一致性。需要注意的是,此时多水平模型中使用的ICC为ICC(1)。此外,多水平模型还使用ICC(2)作为衡量群组聚合值的信度,它是对上述ICC(1)在群组规模上的调整。在样本量足够大时,ICC(2)可通过斯皮尔曼-布朗公式推导而来,实际上等于单向随机效应模型下的ICC()。在多水平模型下,上述ICC(1)小于0.059意味着小的组内相关,在0.059~0.138之间意味着中等的组内相关,高于0.138时属于高度组内相关。在出现中等组内相关时(即ICC>0.059),就需要采用多水平分析。

    6. 非完整或非平衡观测设计(Incomplete or unbalanced observational designs)中的ICC

    以上介绍的ICC计算和选择均基于完整或平衡的观察设计(Complete or balanced observational designs),但实际研究中常见的是,出于降低研究成本或减轻评分者工作量的考虑,或实验过程中意外情况导致的数据缺失,此时研究者可能主动或被迫使用非完整或非平衡观测设计(Incomplete or unbalanced observational designs,见表1D)来评估评分者一致性6。此时如何选择合适的ICC模型呢?Ten Hove等人6从概化理论视角出发,将非完整或非平衡的观察设计纳入考虑,更新了经典的ICC选择框架(图6)。第一步(Step 1)依然是根据实验设计选择模型,交叉设计选双向模型,嵌套设计选单向模型。第二步(Step 2)与之前不同,需要选择完成ICC计算后,后续的数据分析中统计推断的目标。绝对推断(Absolute inference)指的是将被试具体的得分与某一固定的标准(fixed criteria)进行比较(如判定学生考试是否及格),此时计算ICC需要考虑评分者效应;相对推断(Relative inferences)是基于被试相对位置(relative position)进行的统计分析(如相关分析、回归分析、方差分析、因子分析、广义线性模型分析等),此时不考虑评分者效应。绝对推断条件下计算出的ICC比相对推断下的要小。第三步(Step 3)是选择使用个体测量还是平均测量,这与经典ICC选择流程中的相同。最后一步(Step 4)选择观测是否完整或评分者是否平衡。当每个评分者对每个被试都作出评分时(没有缺失值,如表1A),此时研究设计就是完整(Complete)的;不完整(Incomplete)观测设计是指对不同被试来说,评分者不同,即表1A中存在缺失值。而平衡(Balanced)设计指的是评分者的数量在所有被试那里都相等;非平衡(Unbalanced)设计是评分者的数量随着被试的变化而变化6。更多关于非完整/非平衡设计下ICC的理论、计算及应用举例,可参考ten Hove等人6的文章。


    注:ICC框中上标a表示该ICC由Bartko(1966)定义,b表示该ICC由Shrout和Fleiss(1979)定义,c表示该ICC由McGraw和Wong(1996)定义,d表示该ICC由Putka等人(2008)定义,e表示该ICC此前并未被定义。该图中的误差方差(白色框)与ten Hove等人6的写法略有不同。本文使用表示被试间变异(ten Hove等人使用 表示),表示评分者间变异(ten Hove等人使用 表示),表示评分者与被试交互效应的变异(ten Hove等人使用 表示),表示交互项与误差项之和(ten Hove等人使用表示)。
    图6.  考虑非完整或非平衡观测设计的更新的ICC选择流程

    六、总结

    本文对ICC的概念、发展以及模型选择做了回顾,并展示了其在临床研究和认知研究中的应用,并简要概括了与ICC相关的重要问题。ICC作为一个重要的信度指数,需要按照研究设计选择合理的变体进行使用,同时要注意样本量等问题。在结果报告时应尽量详细,从而促进结果的可重复性。

    感谢Meta-Self Lab的成员对本文提出的意见和建议。

    文末福利:可至 https://osf.io/srt5a/ 获取额外的材料,包括更清晰的图表、示例数据代码、公式推导以及使用SPSS计算ICC的方法。

    参考文献

    1. Shrout, P. E., & Fleiss, J. L. (1979). Intraclass Correlations: Uses in Assessing Rater Reliability. Psychological Bulletin, 86(2), 420–428. https://doi.org/10.1037//0033-2909.86.2.420
    2. Koo, T. K., & Li, M. Y. (2016). A Guideline of Selecting and Reporting Intraclass Correlation Coefficients for Reliability Research. Journal of Chiropractic Medicine, 15(2), 155–163. https://doi.org/10.1016/j.jcm.2016.02.012
    3. McGraw, K. O., & Wong, S. P. (1996). Forming inferences about some intraclass correlation coefficients. Psychological Methods, 1(1), 30–46. https://doi.org/10.1037/1082-989X.1.1.30
    4. Parsons, S., Kruijt, A.-W., & Fox, E. (2019). Psychological Science Needs a Standard Practice of Reporting the Reliability of Cognitive-Behavioral Measurements. Advances in Methods and Practices in Psychological Science, 2(4), 378–395. https://doi.org/10.1177/2515245919879695
    5. Perinetti, G. (2018). StaTips Part IV: Selection, interpretation and reporting of the intraclass correlation coefficient. South European Journal of Orthodontics and Dentofacial Research, 5(1), 3–5. https://doi.org/10.5937/sejodr5-17434
    6. ten Hove, D., Jorgensen, T. D., & Van Der Ark, L. A. (2022). Updated guidelines on selecting an intraclass correlation coefficient for interrater reliability, with applications to incomplete observational designs. Psychological Methods. https://doi.org/10.1037/met0000516
    7. Hallgren, K. A. (2012). Computing Inter-Rater Reliability for Observational Data: An Overview and Tutorial. Tutorials in Quantitative Methods for Psychology, 8(1), 23–34.https://doi.org/10.20982/tqmp.08.1.p023
    8. Liljequist, D., Elfving, B., & Skavberg Roaldsen, K. (2019). Intraclass correlation – A discussion and demonstration of basic features. PLoS ONE, 14(7), e0219854. https://doi.org/10.1371/journal.pone.0219854
    9. Qin, S., Nelson, L., McLeod, L., Eremenco, S., & Coons, S. J. (2019). Assessing test–retest reliability of patient-reported outcome measures using intraclass correlation coefficients: Recommendations for selecting and documenting the analytical formula. Quality of Life Research, 28(4), 1029–1033. https://doi.org/10.1007/s11136-018-2076-0
    10. Li, L., Zeng, L., Lin, Z.-J., Cazzell, M., & Liu, H. (2015). Tutorial on use of intraclass correlation coefficients for assessing intertest reliability and its application in functional near-infrared spectroscopy–based brain imaging. Journal of Biomedical Optics, 20(5), 050801. https://doi.org/10.1117/1.JBO.20.5.050801
    11. Lahey, M. A., Downey, R. G., & Saal, F. E. (1983). Intraclass Correlations: There’s More There Than Meets the Eye. Psychological Bulletin, 93(3), 586–595. https:// https://doi.org/10.1037/0033-2909.93.3.586.
    12. de Vet, H. C. W., Terwee, C. B., Mokkink, L. B., & Knol, D. L. (2011). Measurement in medicine: A practical guide. Cambridge University Press.
    13. Gwet, K. L. (2014). Handbook of inter-rater reliability: The definitive guide to measuring the extent of agreement among raters (4th ed.). Advanced analytics.
    14. Kassambara, A. (2019). Inter-rater reliability essentials: Practical guide in R. Datanovia.


    撰写:田柳青

    校对:胡传鹏,蔡玉清

    排版:朱珊珊


    OpenScience
    Chinese Open Science Network, a network for Transparent, Open, & Reproducible Science.开放科学中文社区,传播透明、开放和可重复的基础研究理念和实践。
     最新文章