第122期“我来读文献”活动第二阶段线上论坛于9月13日19:00举行,本期活动关注《面向教师的课堂语言测评》一书,由领读专家闵尚超教授为读者答疑解惑。
一不小心错过活动?想了解更多内容?小编为您倾情分享本次线上论坛的干货,欢迎阅读学习!
《面向教师的课堂语言测评》
(点击图片 购买本书)
作者:Lyle Bachman & Barbara Damböck
译者:何莲珍、闵尚超
书号:978-7-5213-4887-3
出版社:外语教学与研究出版社
定价:85.90元
所属系列:语言测试与评估专题研究丛书
01
闵尚超,浙江大学外国语学院教授、博士生导师,中国英汉语比较研究会语言测试与评价专业委员会常务理事,亚洲语言测试学会提名委员会委员。研究方向为语言测试与评估,担任国际期刊Language Testing、Language Assessment Quarterly的编委。近年来发表SSCI、CSSCI论文30余篇;出版专著2部;主持国家社科基金项目等各类项目6项;获省部级奖项3项。
02
1. 如何设计测评任务模板?包括哪些步骤?设计测评任务模板的意义是什么?
闵教授:设计测评任务主要包括五个步骤:
(1)选择目标语使用任务。这是研发测评任务模板的基础,我们希望通过测评任务诱发的学生表现能够概推到学生的目标语使用域中。
(2)描述目标语使用任务。通常我们会用场景、输入、预期应答这三组任务特征描述目标语使用任务。
(3)修改目标语使用任务,研制测评任务模板。这是因为目标语使用任务本身比较可能比较复杂、耗时,且无法帮助我们获取学生个体的测评记录。
(4)研制记录/评定学生表现的方法。我们需要设计一种记录学生表现的方法,明确测评记录类型,以及评分标准。
(5)从有意义、概推性、公正性、一致性和可行性等测评特征方面对测评任务模板进行评价。这五个任务特征分别解决以下问题:
- 基于该任务模板的测评任务在多大程度上能诱发想要考查的能力?(有意义)
- 基于该任务模板的测评任务与目标语使用任务的对应关系有多紧密?(概推性)
- 基于该任务模板的测评任务如何避免偏颇?(公正性)
- 测评记录的一致性如何?(一致性)
- 测评任务施测和评分的可操作性如何?(可行性)
设计测评任务模板的意义在于:
(1)测评任务模板能提供结构化的测评设计方法。
(2)通过测评任务模板将测评任务与测评使用论证(Assessment Use Argument,简称AUA)联系起来,可以确保用测评任务模板研发的测评任务能支持有意义、概推性、公正性和一致性等测评特征,并且这些任务具有可行性。
根据测评任务模板可以研发多项测评任务,如本书图9.1所示。
2. 什么是蓝图?如何用蓝图指导测评研发?
闵教授:蓝图是一份详细的方案,规定测评的内容和格式以及施测的程序和指令。本书表10.1给出了蓝图的组成部分。篇幅所限,有关蓝图的示例请见本书第141-145页。
对于如何使用蓝图指导测评研发,我们通常有以下情景和做法:
(1)由一位老师研发的测评。通过将多个测评任务模板组合成蓝图,老师可以有效设计出涵盖多任务的课堂测评。
(2)由一组老师或不同老师研发的测评。在多个教师合作的情况下(如不同班级的期末考试),使用统一的蓝图能确保测评解释具有一致性和概推性。
(3)不同时间进行的各类长期测评。例如,在学期内进行的多次单元测评可采用相同的蓝图,通过调整任务来反映每个单元的不同教学重点,确保测评结果在学年总成绩中具有连贯性。
3. 为什么说明确施测程序对保障课堂测评很重要?请举例说明在实际课堂中如何通过施测流程避免不公平现象。
闵教授:明确施测流程有助于确保学生在测评中的表现能够真实反映他们的语言能力,并避免因不一致的施测条件而产生的偏差,从而确保测评的公平性。例如,对于听力考试,如果一个小组在嘈杂的环境中进行测评,而另一个小组在安静的环境中进行测评,可能会对学生的表现造成不公平的影响。因此,确保每个小组的测评条件一致是非常重要的。
4. 什么是整体评分量表?什么是分项评分量表?各自有何优缺点?
闵教授:整体评分量表(有时也称为“整体性”量表)指从整体质量或能力水平来对学生的表现进行评分的量表。整体评分量表为学生的测评表现提供一个整体的水平等级或分数。例如,本书表12.3给出了《欧洲语言共同参考框架》作为整体评分量表的示例。
整体评分量表的优点在于:(1)评分快速、直观简便;(2)适合大规模、高风险测评。它的缺点在于:(1)仅给出总分,缺乏细节,无法为学生提供有针对性的反馈;(2)评分主观性较强;(3)不适合课堂测评。
分项评分量表指对学生的表现在多个维度上进行评分,各维度单独评分。分项评分量表为学生在测评中的表现提供几个不同水平等级或不同分数的“概述”。本书表12.4给出了分项评分量表的示例。
分项评分量表的优点在于:(1)细化评分维度,评估更细致;(2)提供详细反馈,帮助理解各项能力表现。它的缺点在于:(1)过程较为复杂,耗时较长;(2)“见树不见林”,评分聚焦测评任务的具体表现,无法反映学生的总体状况;(3)对评分员要求较高,需要更多培训。
5. 如何看待课堂测评中的成绩正态分布?
闵教授:在课堂测评中,我们不应该通过正态分布来给学生评分。正态分布更多的是用在大规模高风险的考试情景下,属于常模参照,在课堂测评中要坚决杜绝。课堂测评中应用常模参照存在如下问题:
(1)即使大多数学生达标,只有少部分能获得高等级。
(2)部分学生即使达到70%的正确率,仍可能得到不及格。
(3)对学生的学习产生负面影响,如引发竞争、削弱合作;打击学生积极性;以排序为基础,无法反应学生是否掌握学习目标。
6. 测评有何后效?测评影响哪些利益相关者?
闵教授:有关测评的后效(washback),本书及第一阶段何莲珍教授的答疑都有提及。这里不再赘述,主要给大家推荐一些相关文献。
(1)Alderson, J. C., & Wall, D. (1993). Does washback exist? Applied Linguistics, 14(2), 115-129.
(2)Ali, M., & Hamid, M. (2020). Teaching English to the test: Why does negative washback exist within secondary education in Bangladesh? Language Assessment Quarterly, 17(2), 129-146.
(3)Cheng, L., Sun, Y., & Ma, J. (2015). Review of washback research literature within Kane’s argument-based validation framework. Language Teaching, 48(4), 436-470.
(4)Messick, S. (1996). Validity and washback in language testing. Language Testing, 13(3), 241-256.
(5)Spratt, M. (2005). Washback and the classroom: The implications for teaching and learning of studies of washback from exams. Language Teaching Research, 9(1), 5-29.
(6)Tsang, C. L., & Issacs, T. (2022). Hong Kong secondary students’ perspectives on selecting test difficulty level and learner washback: Effects of a graded approach to assessment. Language Testing, 39(2), 212-238.
利益相关者(stakeholders)是指可能受测评使用影响或得益于测评使用的人、语言项目或课程,或者机构。我们自己(教师)和我们的学生(考生)始终是利益相关者。此外,就某一项特定的测评而言,利益相关者可能还包括我们的同事、学校管理者、学生家长/监护人、雇主、政府官员和公众等。
7. 使用AUA指导课堂语言测试的最大优势与挑战是什么?
闵教授:AUA框架(见下图,即Figure 5.1)包含测评研发和测评使用这两个双向关系,效度验证贯穿测评始终。AUA框架将预期后效与测评任务表现有效串联起来,形成一个逻辑链。特定测评项目的AUA包括以下四项主张:(1)使用测评的预期后效;(2)预期决策;(3)预期解释;(4)预期测评记录。
Figure 5.1 Inferential links from consequences to assessment performance (Bachman & Palmer 2010: 93)
总体来说AUA可帮助实现两个目的:(1)指导语言测评的研发和使用,并为测评研发全过程中的质量控制提供依据;(2)为测试研发人员(test developers)和决策者(decision makers)提供依据,使他们对测评使用和由此做出的决策所影响的人员负责。
AUA的优势主要体现在如下四个方面:(1)系统性:为课堂语言测评提供系统化、结构化验证过程;(2)实操性:强调测评在实际应用中的合理性;(3)严谨性:强调推理和证据;(4)灵活性:帮助教师调整测评以满足不同教学情境和学习者的需求。
当然,使用AUA研发测评也面临一些挑战,主要体现在如下三个方面:(1)复杂性:需要充足证据;(2)专业性:要求教师具备一定的测评研发素养;(3)一致性:不同教师可能在理解和应用框架时有不同的侧重点,可能导致测评结果可比性下降。
03
1.什么是概推性?本书第70页提到的内容,我不是特别理解,是指测评结果多大程度上能反映学生在测评之外的环境中的语言能力吗?
闵教授:首先,概推性是指基于测评的解释在多大程度上适用于或可延伸到学生的目标语使用域。其中,基于测评的解释是解释考生得到的分数所代表的在考试场景中具备的某种能力;目标使用域(target language use domain)中的语言能力考查考生在真实的语言使用场景当中的语言表现。说直白一点,概推性可以解释为:考生在考试场景中具备某种能力,在真实的使用中是否仍然具备某种能力,是否仍有同样的表现。
2. 为什么研发测评需要使用框架?(比如AUA框架)
闵教授:使用测评框架研发测评,可以在如下四个方面为我们提供指引:
第一,明确测评目标:框架帮助研发者清晰地确定测评的目的和期望结果,确保测评任务与教学目标相匹配,能够有效衡量学生的学习成果。
第二,提高测评的一致性和公平性:通过使用统一的框架,尤其是在多个教师合作或在不同时间进行类似测评时,能确保测评的设计标准一致,使结果具有可比性,并且能公平反映学生的能力水平。
第三,支持决策与反馈:框架帮助研发者在测评的设计过程中进行质量控制,确保测评任务符合要求,并且通过合理的测评记录为学生提供有效的反馈,支持教师的教学决策。
第四,合理性和信度保障:框架为测评的合理性提供了论证工具,帮助开发者通过一系列支撑证据证明测评的设计、使用和决策过程的合理性,从而提高测评的信度和效度,确保测评结果能够正确反映学生的能力。
3. Project-based language learning(PBLL)近期发展迅速,如何把项目化语言学习评价量规与本书的测评任务模板结合?项目成果评比、项目小组内学生互评、教师家长认证投票等如何与AUA结合?项目阶段成果属于形成性评价,项目最终成果属于终结性评价,此理解对吗?
闵教授:PBLL中的评价量规可结合本书中测评任务模板。通过设计针对项目不同阶段的任务模板(如项目成果评比、学生互评等),可以确保测评任务与教学目标紧密结合。例如,在项目进行过程中,使用模板创建阶段性评估任务,帮助学生及时调整和改进。
对于项目阶段成果的评价,如果能够提供持续的反馈,并且这些反馈能够用于后续的教学和学习调整,这种评价可以被视为形成性评价。对于项目最终成果的评价(分数、等级)属于终结性评价。
4. 对于形成性评价,可以由教师和学生共同拟定评分量表,对于终结性评价,只能由教师拟定评分量表,这样理解对吗?另外,终结性决策的测评任务模板与仅用于形成性决策的测评任务模板有何区别?
闵教授:对于形成性评价,教师和学生可以共同拟定评分量表,目的是通过合作明确学习目标并促进学生自我反思和进步。但对于终结性评价,由于其涉及重要的决策(如升学或认证),评分量表的制定通常由教师单独完成,以确保标准化和公正性。
前面讲过,用于形成性决策和用于终结性决策的测评任务模板所包含的部分是相同的,主要区别在于对评价量表的设计,通常对于形成性评价,我们会设计更详细的分项评分量表而不是整体评分量表,更注重提供反馈和调整,任务设计灵活,更多关注过程和学习进展。而对于终结性评价,我们通常是用标准化整体评分量表,关注最终结果,具有较高的可靠性和概推性,用于做出重要的课程学习决策。
04
第122期我来读文献 | 《面向教师的课堂语言测评》(领读专家:何莲珍教授、闵尚超教授)
新书速递 | 《面向教师的课堂语言测评》(语言测试与评估专题研究丛书)
新书速递 | 《语言测试重点问题研究》(全国高等学校外语教师丛书)
新书速递 | 《产出导向法中师生合作评价》(产出导向法理论与实践研究丛书)
更多内容
敬请关注
同名视频号
外研社官方旗舰店
@外研社外语学术科研