陈德枝:深度解读学前教育质量评价的信度、效度和公平性--基于《教育与心理测量标准》

文摘   2024-09-05 17:20   上海  

朋友你来了,记得先点后朴教育®关注我哦~

· 陈德枝 ·

浙江师范大学儿童发展与教育学院副教授

《后朴幼教人专业学习笔记》专栏 · 第2082

6036字丨阅读时间约12分钟

学前教育质量评价是支持、促进学前教育高质量发展的重要手段。


关注评价的信度

意味着我们要重视评价标准的科学性与与实施过程的合理性,由此教育评价结果才具有内部一致性;


关注评价的效度

意味着我们重视对评价结果的解读与运用,由此评价更具有导向性作用,真正是促进发展,而非仅仅作为筛选评级的手段;


关注评价的公平性

意味着我们重视评价者主观性对评价造成的偏差,更注重各幼儿园发展现实水平,而非臆断。


       



正文


学前教育质量评价是学前教育事业改革和发展的重要议题。


信度 (Reliability)、效度 (Valiability) 和公平性 (Fairness) 作为学前教育质量评价的基本测量学属性,是评价科学性和权威性的重要基础和基本保障。


本文基于2014年美国教育研究学会、美国心理学会和美国国家教育测量委员会颁布的《教育与心理测量标准》中对信度、效度和公平性的界定,探索学前教育质量评价的基本测量学属性,旨在为幼儿园保育教育质量细则的构建、学前教育质量评价方法和过程的规范以及幼儿园保育教育质量的提升提供方向指引。



一、学前教育质量评价的

信度及研究进展


1.学前教育质量评价的信度


信度:

指重复测试结果的一致性。


学前教育质量评价的信度:

指评价者采用相同的标准对幼儿园进行重复评价,以使结果趋于一致或稳定。


基于学前教育质量评价目前采用的评价方法,信度的影响因素主要来自评价内容和评价者。

学前教育质量评价通常围绕评价量表或标准展开,因此评价量表或标准的可信性也是质量评价信度的影响因素之一。


另外,学前教育质量评价多采用评价者现场测评的方式。虽然对评价者进行了统一、严格的测评培训,但由评价者主观评价引起的误差依然是影响测评结果准确性的重要因素。


2.学前教育质量评价信度的研究进展


短时间内有规模地组织评价者对幼儿园进行重复测评具有一定难度。


当前有关保教质量评价的信度估计主要采用经典测量理论信度系数估计的常见方法,如内部一致性α系数、概化系数、评分者一致性百分比等。


几种常见的国内外保教质量评价工具,如中国托幼机构教育质量评价量表 (C-ECERS)、中国幼儿园教育质量评价量表、幼儿园教育质量评价手册、走向优质——中国幼儿园教育质量评价标准、幼儿学习环境评量表 (Early Childhood Environmental Rating Scale) 系列、课堂评估评分系统 (CLassroom Assessment Scoring System)、照料者参与性评量表 (Caregiver Involvement Scale)、幼儿园教育质量评估 (Preschool Program Quality Assessment) 以及持续共享思维和情绪情感健康评量表 (Sustained Shared Thinking and Emotional Wellbeingscale) 等均采用α系数表征量表评价内容的一致性。



中国托幼机构教育质量评价量表还采用概化系数分析量表内容的信度。


评分者一致性百分比或评分者相关系数是学前教育质量评价报告中评价者一致性的常用统计量,如中国托幼机构教育质量评价量表、幼儿学习环境评量表系列和课堂评估评分系统等均采用该方法估计评分者一致性等。


另外,近年来项目反应理论 (IRT) 也逐步被用于质量评价信度分析,如多侧面拉希模型 (MFRM) 方法多被用于中国托幼机构教育质量评价量表的评价者信度等。



二、学前教育质量评价的

效度及研究进展


1.学前教育质量评价的效度


效度:

指测评结果被实证和理论支持所解释的程度。


学前教育质量评价的效度:

是指评价结果被来自幼儿园保教质量的实证和理论支持所解释的程度。



具体而言,学前教育质量评价的效度通常围绕学前教育质量评价内容及内在结构、评价过程、评价结果与其他变量的关系、评价结果的解释和应用五个方面展开。


而在实践中则围绕内容效度、反应过程效度、结构效度和校标关联效度四个方面展开。


内容效度:

以评价项目或指标的表述、呈现形式、管理和评分规则等为取证来源,并以专家判断为依据。


反应过程效度:

其取证主要来自评价者的评分过程与测评结果预期解释的一致性程度。


结构效度:

指评价内容的内在结构与预先假设的结构是否一致,通常采用实证研究来探索和验证结构效度。


校标关联效度:

常把儿童发展水平作为与其他变量的关系取证。


已有研究一般采用儿童语言、数学和情感社会性发展水平为其他变量,探讨质量与这些发展变量的关系来佐证质量评价的有效性。


2.学前教育质量评价效度的研究进展


一直以来作为学前教育质量评价效度研究的关注点,结构效度通常采用探索性因素 (EFA) 和验证性因素 (CFA) 分析学前教育质量评价工具的潜在内部结构。


如探索性因素和验证性因素的分析结果表明,幼儿学习环境评量表主要评价两个潜在因子:结构性质量和过程性质量。



由于评价量表和样本量的不同以及探索性因素方法本身的限制,研究所得结论可能有所不同。


有研究结果显示幼儿园保教质量由儿童课程和活动的结构与支持、教职人员与幼儿间的互动及对教师专业成长和家长需求的支持三个潜在结构组成。


来自与其他变量关系的效度取证研究也是学前教育质量评价效度研究的热点。


受儿童情感社会性测量等所限,当前效度取证的其他变量更多采用的是儿童语言和数学认知发展,并通过求取这些变量与质量评价结果的关系来探讨效度。


采用的分析方法由简单的二元相关到复杂的回归分析,如多水平回归模型等。


近年来,幼儿园保教质量的纵向追踪和增值评价已成为学前教育质量评价效度研究的一大趋势。


内容效度主要用于统计和分析专家评判结果的一致性。另外,已有文献中仅有少量研究对过程效度进行了初步探讨。


这些研究主要采用项目反应理论的等级反应模型 (Grade Response Model)、一般分步评分模型 (Generalized Partial Rating Model) 等多级计分方法探讨照料者参与性评量表和幼儿学习环境评量表的过程效度。


过程效度之所以被忽略,一方面可能是因为过程效度的分析方法还不够简便和大众化;另一方面则是因为过程效度概念本身还未引起足够的重视。


在评价结果解释和应用的有效性方面,美国的质量评价和提升系统 (Quality Rating and Improving System) 不仅涉及不同的评价工具,同时还对来自不同地区和不同文化背景的幼儿园进行评价和比较,为学前教育政策制定和质量提升提供参考。


国内也有对来自全国各地区各类不同样态的幼儿园进行学前教育质量和幼儿园课程质量的比较工作。



以上都是对测评结果解释和应用的宏观关注,具体针对某所幼儿园或某个班级质量评价结果的诊断性解释以及用于改进和提升保育教育质量的应用,还有待实践的深入探索。



三、学前教育质量评价的

公平性及研究进展


1.学前教育质量评价的公平性


公平性:

指测试对所有预测个体具有相同的结构和意义。


学前教育质量评价的公平性:

是指评价的结构和意义不会随着参评幼儿园的类型或所在地等的不同而发生变化。即无论是具有不同的类型特征还是来自不同的群组,最终都有相同的质量评价结构和意义。



基于测量标准对公平性的界定,学前教育质量评价的公平性主要包含以下四个方面:评价过程的公平性没有评价偏差评价结构的公平性评价结果解释的有效性


具体而言,评价过程的公平性指在评价内容的设计、开发和管理,乃至评价流程和赋分规则等方面,都要最大限度地减少对测评结果解释有效性的影响。


因此,在学前教育质量评价标准的开发和应用中,要明确说明评价结果的有效性解释,并界定参评幼儿园的个体和群体特征,如幼儿园规模、幼儿园办园性质和幼儿园所在地 (城镇和乡村) 等,以减少这些特征和群组变量对评价公平性的影响。


公平性意味着没有测评偏差,是学前教育质量评价结果有效性解释的基本保障。然而,实践中无法完全消除测评偏差,通常是将偏差大小界定在可接受的范围内。



学前教育质量评价测评内容的潜在结构主要包含结构性和过程性质量。


评价结构的公平性指确保该结构对所有参评幼儿园是相同的。


公平性还包含测评结果解释的有效性。


为保障学前教育质量评价的公平性,评价开发人员和研究者还需收集和提供支持评价公平性的相关依据,并根据评价本身的局限性明确表达评价结果的预期解释和用途。


由于评价项目或指标编制的有限性以及评价方法和流程本身的局限性等,评价的公平性会因此受到影响。如学前教育质量评价通常采用观察法,评价结果中往往都存在评价者的主观性,因而对评价结果的解释和应用都需综合且慎重考虑这些因素。


可见,测评结果解释的有效性主要强调对测评工具、人员和过程等进行基本的公平性支持,以保障效度探讨中提及的测评结果解释和应用的有效性。


2.学前教育质量评价公平性的研究进展


学前教育质量评价的公平性目前还未引起广泛关注,相应的研究探索也未真正起步。


尽管如此,研究者在编制和开发评价内容时,对测评内容的界定和应用范畴的考量以及说明均关注了评价过程的公平性。如各量表手册的操作说明等都附有详细的指标解读或赋分说明,有些还标注了不适用的指标或项目等。


另外,在有关测评结构的公平性方面,有研究针对不同类型幼儿园 (如城市和乡村幼儿园) 的测评潜在结构进行了讨论。


与已有研究结果一致,不同类型的学前教育质量评价具有相同的潜在结构。


在测评结果解释的有效性方面,如美国的质量评价和提升系统在两个不同的州展开质量测评,在测评标准和流程、参与者和政策决策者等方面提出测评建议,即提供测评公平性的信息依据和支持,以最终保障测评结果解释的有效性。


而在有关测评偏差的公平性上,已有文献还鲜有报告。这不仅表明学前教育质量评价的公平性还有大量空白有待探索,也从另一角度说明学前教育质量评价的科学性还需公平性方面的补充和巩固。



四、学前教育质量评价

三个测量学属性间的

相互关系


信度、效度和公平性三个测量学属性间存在相互制约、相辅相成的关系。


首先,良好的信度是评价有效性的前提。


学前教育质量评价的信度包含评价内容的可信性和评价过程的可信性。


评价过程的可信性主要指由评价者的主观评价造成的评价误差。


因而,减少评价误差和提高评价者信度是提高学前教育质量评价信度和效度的重要举措。反过来,学前教育质量评价的效度也会影响其信度,评价效度高意味着评价结果信度越高。


其次,学前教育质量评价的效度是公平性的重要前提,同时公平性又是评价效度的重要体现。


学前教育质量评价的效度不仅指评价内容、评价过程和其他变量关系的有效性,还包含评价结构和评价结果解释的有效性等。


而测评同结构性和评价结果解释的有效性也是评价公平性的重要内涵。因此,学前教育质量评价的效度与公平性相辅相成,相互影响。


最后,信度和公平性之间也会互相影响。



一方面,学前教育质量评价的信度是测评同结构性和评价结果解释有效性的重要前提。


评价的信度低将直接影响评价结构和评价结果解释的有效性。


与此同时,信度也是减少测评偏差的重要基础。随着评价内容和评价者信度的提高或评价误差的减少,质量评价的公平性会有所增强。



另一方面,学前教育质量评价的公平性也会影响其信度。


公平性高意味着评价内容、评价过程和评价技术等的可信性和有效性高,测评偏差比较小,间接表明测评信度高 (见图1)。



只有同时提高信度、效度和公平性才能真正保障保教质量评价的科学性和权威性,才能为学前教育质量提升提供坚实的测量学依据。



五、学前教育质量评价

测量学属性的研究展望


1.学前教育质量评价信度的研究展望


信度的估计通常采用内部一致性系数或概化系数,由于这两种分析和估计信度的方法都基于经典测量理论 (CTT),所以存在着信度估计值随着样本量而发生变化的问题。而这会给评价工具或标准的使用带来不小的挑战。


首先:

每次使用都要估计信度大小,尤其是当样本量不够大或针对单所幼儿园评价时,基于经典测量理论的方法就显得十分有限。


其次:

内部一致性系数或概化系数都基于总量表或其中的子量表,无法估计某个具体的评价项目或指标的可信性,难以为评价项目或标准的修订和规范提供详细的信度信息。


学前教育质量评价中评价者信度受到越来越多的关注,如评价者一致性百分比或评价结果的相关系数常常用于报告评价者间的一致性。


严格来说,这些方法都无法准确评估评价者信度,只能统计评价者间的一致性,而评价者间的一致性和评价者信度是两个完全不同的概念。


近年来,项目反应理论在学前教育质量评价属性分析中的应用逐渐增多。这不仅为某个具体项目或指标的信度估计提供了可实现的方法和技术,也为估计评价者信度提供了相应的方法和技术。


但是,已有研究主要是用参数方法进行分析,并且都需要建立在很强的数学假设前提下。


不同于参数方法需要建立于强假设,非参数方法假设弱,且适合于小样本等情况,用于分析学前教育质量评价的信度或是将来更合适的选择。


2.学前教育质量评价效度的研究展望


内容效度、结构效度和实证效度以及与其他变量的关系等是目前学前教育质量评价效度研究的主要内容。


未来可以考虑不同领域或方向的研究者对内容效度的理解与思考,为内容效度的取证提供更充实的测量学依据。


在讨论学前教育质量评价的内在结构效度时,已有研究常常采用探索性因素法 (EFA) 和验证性因素法 (CFA)。


与信度估计方法相同,这些方法都是基于经典测量理论。因而,同样存在着依赖随机抽样和无法适应样本量小的实际应用情景问题。


另外,探索性因素法方法在公因子抽取个数和命名中存在一定的主观色彩,也是学前教育质量评价的内在结构目前还存在其他观点的主要原因。


未来在探索内在结构方面可以尝试其他方法,如探索性因素法和项目反应理论相结合的全息项目因素分析 (FIFA)。


更重要的是未来需结合中国文化背景和中国幼儿园保育教育特点,构建具有中国文化特色的学前教育质量内在结构。



与其他变量的关系是学前教育质量评价效度研究的重点。如前文所述,已有的大量讨论均集中在保育教育质量与儿童发展,如语言、数学和情感社会性等方面的关系。


依据儿童发展的生态观,未来在讨论时可适当兼顾其他变量,如家庭结构、家庭经济收入以及社区环境等对儿童发展的影响。与此同时,还需关注到学前教育质量对儿童发展的长期影响和效应,即追踪探索。


另外,在方法上基于项目反应理论展开学前教育质量和儿童发展的长期追踪与监测或是未来的一大趋势。


学前教育质量评价的效度研究虽然有大量的实证支持,但这些取证主要来自内容效度和结构效度,而在评价过程和结果解释的有效性上仍存在大量空白。


未来,评价过程的有效性,尤其是评价者的有效性或许是学前教育质量评价测量学属性研究的重点之一。


这将为学前教育质量评价评委库的建立和培训等提供测量学属性参考。



对评价结果的有效解释和应用通常是学前教育质量评价容易被忽略的环节。


因此,如何通过解释评价结果促进学前教育质量不断改进和提升,是效度研究即将面临的一大挑战。


3.学前教育质量评价公平性的研究展望


纵观已有文献,学前教育质量评价的公平性探索刚刚起步。


未来一段时间内,基于测量学视角探讨公平性将是学前教育质量评价测量学属性研究的重要内容。这些研究将会聚焦于以下几个方面。


首先:

是基于测量学的学前教育质量评价公平性的界定,包括对评价内容、评价方法、评价过程和结果等的公平性界定。


其次:

是衡量公平性大小的分析方法。


目前,已有分析方法主要围绕评价项目或指标、评价量表和评价者三个不同方面对测评偏差进行分析。


例如,项目功能差异 (Different Item Function) 检验方法针对测评项目的功能性差异进行检验,而测验功能性差异 (Different Testing Function) 和评价者功能性差异 (Different Rater Function) 则针对量表和评价者的公平性进行检验。



未来,这些不同角度的分析方法将是探讨学前教育质量评价公平性的基本思路和技术。


再次:

测评内在结构对所有测评对象的同一性不仅是学前教育质量评价效度研究的主要内容,也是公平性的主要表征。


消除测评对象如幼儿园的特征变量和组群变量的影响,提高测评的公平性也是未来公平性属性研究的主要方向。


最后:

相同评价结果解释的有效性是公平性的重要保障,如何有效、公平地解释和应用评价结果将是学前教育质量评价未来不可或缺的内容。


有品质的专业内容分享,尊重原创。

本文作者系陈德枝教授,版权归原作者所有,文章在此仅为幼教人学习交流,如有侵权,请联系我们删除。文章排版设计及“后老师®说”笔记解读版权为“后朴教育®”所有,如需转载,请明确备注出处。




快点亮这颗爱幼的心吧!


后朴教育
后朴教育让教育更专业:成专业教师,润智慧家长,育幸福儿童。后朴教育是以学前教育领域课程文化软实力质量内涵式发展为核心定制化的园所文化建设、园本课程建设、教科研指导咨询、教师专业发展系统培训及产品为一体, 为学前教育专业赋能的社会型教育企业。
 最新文章