认知诊断理论
第一讲:认知诊断理论的基本介绍
相信大家都做过一些心理量表,也肯定都参加过一些考试。那么当我们完成了这些测评之后,我们都会获得一个结果:可能是一个量表的得分,可能是一个试卷的总分。那么,我们有没有想过,这些分数是怎么得到的?这个分数又反映了什么?它到底能不能真实地反映出我的某些特质或能力呢?
测验理论的发展
1.1
经典测验理论
大家最熟悉的可能就是考试卷子上的分数,每一道题目的得分相加就是卷面总分,而这种测量评定的方式,就是基于经典测验理论来进行的。
经典测验理论(Classical Test Theory, CTT)围绕着真分数的概念构建了第一代心理测量学的理论框架。经典测验理论认为测量所得观察分数(记为X)等于真分数(记为T)加上误差分数(记为E)。其中,真分数包括目标真分数(记为V)和非目标真分数(系统误差分数,记为I),误差分数是随机误差影响的结果(罗照盛,2019)。
T = V + IX = T + E = V + I + E
经典测验理论是一种应用极其广泛的心理与教育测量学理论,但仍存在一些不足:
观察分数等权重线性累加的不合理性;
分析结果依赖样本(测验对被试的评价依赖于测验的具体项目组合和项目数量、测验及项目的性能指标的估计依赖于具体的被试样本);
被试能力与项目参数两个指标含义的非同一性;
测量误差估计的不精确和笼统性。
1.2
项目反应理论
那么我们能不能解决经典测验理论的不足,使测量结果更加精细呢?
作为现代测量理论代表之一的项目反应理论(Item Response Theory, IRT),其逻辑是通过概率函数的形式(见图1,仅以2PL模型的表达式为例展示概率函数的形式,不做具体介绍)来描述项目作答结果是如何受到被试能力水平和项目特性联合作用的影响(罗照盛,2019)。项目反应理论通过数学模型的运算,能够统一估计出被试的能力水平或者潜在心理特质水平,以及项目的计量学参数(如难度、区分度等)。
图1. 2PL-IRT模型表达式
作为现代测量理论的代表之一,项目反应理论具有以下优势:
被试能力参数与项目参与具有不变性的特征;
被试能力参数与项目难度参数具有统一的量尺;
可以针对不同被试精确估计每个项目以及测验的测量误差;
可以得到题目表现的详细描述。项目反应理论弥补了经典测量理论的不足,也一直是测量学领域的主要研究方向之一。
1.3
认知诊断理论
现在,我们又有一个新的问题,同一个分数或者潜在能力水平的被试,他们的认知结构、知识掌握情况是否一样?
在以往的测验中,关注的焦点多是考生的分数或潜在能力,而对于分数或能力背后隐藏的心理加工过程和认知结构,以往的测量理论无法提供进一步的信息。在心理测量学中,认知诊断评估(Cognitive Diagnosis Assessment, CDA)作为新一代的心理与教育测评技术,在评价被试的时候不再是给其赋予一个笼统的总分(如CTT)或者潜在能力分数(如IRT),而是可以对被试的认知过程、加工技能或知识结构进行诊断与评估(郑天鹏等,2023),进而提供多维潜在特质(如技能、素养、人格特质等,统称为属性)的评价结果(秦海江,郭磊,2023)。
通过对于被试认知结构的分析,我们可以更加清楚的知道每一个被试在被测量的内容上的优势和劣势,可以真正强化过程性评价,实现有反馈的综合评价。因此,认知诊断评估在新时代教育评价改革背景下,在国际和国内均得到了广泛的关注与深入研究。
(概化理论在国内的介绍和应用较少,故此处不做详细介绍)
下面我们以一个实际的数学试题测试为例介绍认知诊断评估和传统评估方法的区别:
“3 + 4 * 5 - 6 =”面对这样一道数学题,在经典测验理论框架下,做对得分1分,做错得0分,最终我们得到的是考生得1分还是0分的结果(被试总分越高,能力越高);在项目反应理论框架下,我们可以通过模型估计得到被试的潜在能力(被试潜在能力越高,答对题目的概率越大)。
首先,我们会根据这道题目的内容确定其考查的知识点:即这道题考察了加法、减法、乘法、四则运算法则这四个知识点;接着,我们通过选择合适的认知诊断模型进行诊断,得到被试的属性掌握模式(可以理解为每一个考试在这四个知识点上的掌握情况)。
一般而言,我们会用一个向量来表示被试的掌握情况,如学生A [1, 1, 0, 0],学生B [1, 1, 1, 0],学生C [1, 1, 1, 1]。向量的四个元素分别代表了上述的四个知识点,1表示掌握,0表示没有掌握,这样每一个学生在每一个知识点上的掌握情况就一目了然了!
研究内容
认知诊断评价理论的主要研究内容主要涉及以下几个方面
2.1
领域认知模型的构建
2.2
认知诊断测验的命制
2.3
Q矩阵的界定
2.4
如何选择合适的认知诊断模型
2.5
其他方面
认知诊断计算机化自适应测验、认知诊断测验等值、认知诊断测验缺失数据的处理等。
认知诊断评估的实际应用
除了测量理论领域的探究,也有不少研究者尝试将认知诊断评估应用于心理学的不同领域。下面以Ouyang等(2023)发表在Child Development上的论文为例,简要阐述认知诊断评估在发展心理学中是如何解决实际研究问题的。
3.1
研究问题
该研究主要探究了依据儿童的数学技能,使用认知诊断模型可以识别出哪些数学学习障碍(MLD)的亚类型,以及不同MLD亚类型的语言和空间技能前因。
3.2
研究设计
研究对象为来自芬兰1839名儿童(966名男孩),他们从学前阶段(6岁)到四年级(10岁左右)接受了追踪调查。99名儿童被诊断为MLD,420名被诊断为低成绩者(LA)。
任务和测量:通过三项数学任务(计数任务、基本算术概念任务和数与数量映射任务)来测量儿童的数学技能,并通过认知-语言前因(如语音意识、字母知识、空间可视化、接收性词汇、快速命名)来测量前因。
认知诊断模型:使用了认知诊断评估的方法,通过Q矩阵构建数学任务与认知属性的对应关系,确定儿童在特定数学技能上的掌握状态(见图3)。研究还使用了DINA、DINO和G-DINA模型对数据进行拟合分析,最终选用了G-DINA模型。
图3. Q矩阵设定情况(Ouyang et al., 2023)
3.3
研究结果
仅算术流利性障碍亚类型(the arithmetic fluency deficit only subtype):占MLD儿童的40%。这些儿童在算术流利性方面存在困难,但在计数、基本算术概念和数与数量映射方面没有明显障碍。
计数障碍亚类型(the counting deficit subtype):占22%。这些儿童在数数技能方面表现较差。
广泛性障碍亚类型(the pervasive deficit subtype):占12%。这些儿童在所有三个认知属性上(计数、基本算术概念和数与数量映射)都存在障碍。
符号障碍亚类型(the symbolic deficit subtype):占8%。这些儿童在数数和数与数量映射方面表现较差。
计数和概念障碍亚类型(the counting and concept deficit subtype):占8%。这些儿童在计数和基本算术概念方面表现较差。
3.4
研究结论
认知诊断模型能够有效识别出不同的MLD亚类型,并且这种方法相较于传统的聚类分析(Cluster Analysis)具有更好的可靠性和效度。认知诊断模型通过提供更细致的认知属性信息,能够帮助研究人员更好地理解不同亚类型儿童的数学技能障碍。
不同的MLD亚类型表现出不同的数学技能障碍,并与语言和空间技能相关联。特别是具有计数和数与数量映射障碍的儿童,其语言和空间技能较差,这表明这些认知因素在MLD亚类型的形成中起着关键作用。
研究结果表明,通过理解MLD亚类型的语言和空间前因,能够为每个亚类型设计更有针对性的干预措施,从而帮助MLD儿童更好地克服数学学习障碍。
(点击图片可直接跳转直播课程的详细介绍)