如何使用AUA研发课堂语言测评？

学术 2024-10-19 21:58 北京

第122期“我来读文献”活动第二阶段线上论坛于9月13日19:00举行，本期活动关注《面向教师的课堂语言测评》一书，由领读专家闵尚超教授为读者答疑解惑。

一不小心错过活动？想了解更多内容？小编为您倾情分享本次线上论坛的干货，欢迎阅读学习！

《面向教师的课堂语言测评》

（点击图片购买本书）

作者：Lyle Bachman & Barbara Damböck

译者：何莲珍、闵尚超

书号：978-7-5213-4887-3

出版社：外语教学与研究出版社

定价：85.90元

所属系列：语言测试与评估专题研究丛书

领读专家

闵尚超，浙江大学外国语学院教授、博士生导师，中国英汉语比较研究会语言测试与评价专业委员会常务理事，亚洲语言测试学会提名委员会委员。研究方向为语言测试与评估，担任国际期刊Language Testing、Language Assessment Quarterly的编委。近年来发表SSCI、CSSCI论文30余篇；出版专著2部；主持国家社科基金项目等各类项目6项；获省部级奖项3项。

思考题

1. 如何设计测评任务模板？包括哪些步骤？设计测评任务模板的意义是什么？

闵教授：设计测评任务主要包括五个步骤：

（1）选择目标语使用任务。这是研发测评任务模板的基础，我们希望通过测评任务诱发的学生表现能够概推到学生的目标语使用域中。

（2）描述目标语使用任务。通常我们会用场景、输入、预期应答这三组任务特征描述目标语使用任务。

（3）修改目标语使用任务，研制测评任务模板。这是因为目标语使用任务本身比较可能比较复杂、耗时，且无法帮助我们获取学生个体的测评记录。

（4）研制记录/评定学生表现的方法。我们需要设计一种记录学生表现的方法，明确测评记录类型，以及评分标准。

（5）从有意义、概推性、公正性、一致性和可行性等测评特征方面对测评任务模板进行评价。这五个任务特征分别解决以下问题：
- 基于该任务模板的测评任务在多大程度上能诱发想要考查的能力？（有意义）
- 基于该任务模板的测评任务与目标语使用任务的对应关系有多紧密？（概推性）
- 基于该任务模板的测评任务如何避免偏颇？（公正性）
- 测评记录的一致性如何？（一致性）
- 测评任务施测和评分的可操作性如何？（可行性）

设计测评任务模板的意义在于：

（1）测评任务模板能提供结构化的测评设计方法。

（2）通过测评任务模板将测评任务与测评使用论证（Assessment Use Argument，简称AUA）联系起来，可以确保用测评任务模板研发的测评任务能支持有意义、概推性、公正性和一致性等测评特征，并且这些任务具有可行性。

根据测评任务模板可以研发多项测评任务，如本书图9.1所示。

2. 什么是蓝图？如何用蓝图指导测评研发？

闵教授：蓝图是一份详细的方案，规定测评的内容和格式以及施测的程序和指令。本书表10.1给出了蓝图的组成部分。篇幅所限，有关蓝图的示例请见本书第141-145页。

对于如何使用蓝图指导测评研发，我们通常有以下情景和做法：

（1）由一位老师研发的测评。通过将多个测评任务模板组合成蓝图，老师可以有效设计出涵盖多任务的课堂测评。

（2）由一组老师或不同老师研发的测评。在多个教师合作的情况下（如不同班级的期末考试），使用统一的蓝图能确保测评解释具有一致性和概推性。

（3）不同时间进行的各类长期测评。例如，在学期内进行的多次单元测评可采用相同的蓝图，通过调整任务来反映每个单元的不同教学重点，确保测评结果在学年总成绩中具有连贯性。

3. 为什么说明确施测程序对保障课堂测评很重要？请举例说明在实际课堂中如何通过施测流程避免不公平现象。

闵教授：明确施测流程有助于确保学生在测评中的表现能够真实反映他们的语言能力，并避免因不一致的施测条件而产生的偏差，从而确保测评的公平性。例如，对于听力考试，如果一个小组在嘈杂的环境中进行测评，而另一个小组在安静的环境中进行测评，可能会对学生的表现造成不公平的影响。因此，确保每个小组的测评条件一致是非常重要的。

4. 什么是整体评分量表？什么是分项评分量表？各自有何优缺点？

闵教授：整体评分量表（有时也称为“整体性”量表）指从整体质量或能力水平来对学生的表现进行评分的量表。整体评分量表为学生的测评表现提供一个整体的水平等级或分数。例如，本书表12.3给出了《欧洲语言共同参考框架》作为整体评分量表的示例。

整体评分量表的优点在于：（1）评分快速、直观简便；（2）适合大规模、高风险测评。它的缺点在于：（1）仅给出总分，缺乏细节，无法为学生提供有针对性的反馈；（2）评分主观性较强；（3）不适合课堂测评。

分项评分量表指对学生的表现在多个维度上进行评分，各维度单独评分。分项评分量表为学生在测评中的表现提供几个不同水平等级或不同分数的“概述”。本书表12.4给出了分项评分量表的示例。

分项评分量表的优点在于：（1）细化评分维度，评估更细致；（2）提供详细反馈，帮助理解各项能力表现。它的缺点在于：（1）过程较为复杂，耗时较长；（2）“见树不见林”，评分聚焦测评任务的具体表现，无法反映学生的总体状况；（3）对评分员要求较高，需要更多培训。

5. 如何看待课堂测评中的成绩正态分布？

闵教授：在课堂测评中，我们不应该通过正态分布来给学生评分。正态分布更多的是用在大规模高风险的考试情景下，属于常模参照，在课堂测评中要坚决杜绝。课堂测评中应用常模参照存在如下问题：

（1）即使大多数学生达标，只有少部分能获得高等级。

（2）部分学生即使达到70%的正确率，仍可能得到不及格。

（3）对学生的学习产生负面影响，如引发竞争、削弱合作；打击学生积极性；以排序为基础，无法反应学生是否掌握学习目标。

6. 测评有何后效？测评影响哪些利益相关者？

闵教授：有关测评的后效（washback），本书及第一阶段何莲珍教授的答疑都有提及。这里不再赘述，主要给大家推荐一些相关文献。

（1）Alderson, J. C., & Wall, D. (1993). Does washback exist? Applied Linguistics, 14(2), 115-129.

（2）Ali, M., & Hamid, M. (2020). Teaching English to the test: Why does negative washback exist within secondary education in Bangladesh? Language Assessment Quarterly, 17(2), 129-146.

（3）Cheng, L., Sun, Y., & Ma, J. (2015). Review of washback research literature within Kane’s argument-based validation framework. Language Teaching, 48(4), 436-470.

（4）Messick, S. (1996). Validity and washback in language testing. Language Testing, 13(3), 241-256.

（5）Spratt, M. (2005). Washback and the classroom: The implications for teaching and learning of studies of washback from exams. Language Teaching Research, 9(1), 5-29.

（6）Tsang, C. L., & Issacs, T. (2022). Hong Kong secondary students’ perspectives on selecting test difficulty level and learner washback: Effects of a graded approach to assessment. Language Testing, 39(2), 212-238.

利益相关者（stakeholders）是指可能受测评使用影响或得益于测评使用的人、语言项目或课程，或者机构。我们自己（教师）和我们的学生（考生）始终是利益相关者。此外，就某一项特定的测评而言，利益相关者可能还包括我们的同事、学校管理者、学生家长/监护人、雇主、政府官员和公众等。

7. 使用AUA指导课堂语言测试的最大优势与挑战是什么？

闵教授：AUA框架（见下图，即Figure 5.1）包含测评研发和测评使用这两个双向关系，效度验证贯穿测评始终。AUA框架将预期后效与测评任务表现有效串联起来，形成一个逻辑链。特定测评项目的AUA包括以下四项主张：（1）使用测评的预期后效；（2）预期决策；（3）预期解释；（4）预期测评记录。

Figure 5.1 Inferential links from consequences to assessment performance (Bachman & Palmer 2010: 93)

总体来说AUA可帮助实现两个目的：（1）指导语言测评的研发和使用，并为测评研发全过程中的质量控制提供依据；（2）为测试研发人员（test developers）和决策者（decision makers）提供依据，使他们对测评使用和由此做出的决策所影响的人员负责。

AUA的优势主要体现在如下四个方面：（1）系统性：为课堂语言测评提供系统化、结构化验证过程；（2）实操性：强调测评在实际应用中的合理性；（3）严谨性：强调推理和证据；（4）灵活性：帮助教师调整测评以满足不同教学情境和学习者的需求。

当然，使用AUA研发测评也面临一些挑战，主要体现在如下三个方面：（1）复杂性：需要充足证据；（2）专业性：要求教师具备一定的测评研发素养；（3）一致性：不同教师可能在理解和应用框架时有不同的侧重点，可能导致测评结果可比性下降。

读者提问

1．什么是概推性？本书第70页提到的内容，我不是特别理解，是指测评结果多大程度上能反映学生在测评之外的环境中的语言能力吗？

闵教授：首先，概推性是指基于测评的解释在多大程度上适用于或可延伸到学生的目标语使用域。其中，基于测评的解释是解释考生得到的分数所代表的在考试场景中具备的某种能力；目标使用域（target language use domain）中的语言能力考查考生在真实的语言使用场景当中的语言表现。说直白一点，概推性可以解释为：考生在考试场景中具备某种能力，在真实的使用中是否仍然具备某种能力，是否仍有同样的表现。

2. 为什么研发测评需要使用框架？（比如AUA框架）

闵教授：使用测评框架研发测评，可以在如下四个方面为我们提供指引：

第一，明确测评目标：框架帮助研发者清晰地确定测评的目的和期望结果，确保测评任务与教学目标相匹配，能够有效衡量学生的学习成果。

第二，提高测评的一致性和公平性：通过使用统一的框架，尤其是在多个教师合作或在不同时间进行类似测评时，能确保测评的设计标准一致，使结果具有可比性，并且能公平反映学生的能力水平。

第三，支持决策与反馈：框架帮助研发者在测评的设计过程中进行质量控制，确保测评任务符合要求，并且通过合理的测评记录为学生提供有效的反馈，支持教师的教学决策。

第四，合理性和信度保障：框架为测评的合理性提供了论证工具，帮助开发者通过一系列支撑证据证明测评的设计、使用和决策过程的合理性，从而提高测评的信度和效度，确保测评结果能够正确反映学生的能力。

3. Project-based language learning（PBLL）近期发展迅速，如何把项目化语言学习评价量规与本书的测评任务模板结合？项目成果评比、项目小组内学生互评、教师家长认证投票等如何与AUA结合？项目阶段成果属于形成性评价，项目最终成果属于终结性评价，此理解对吗？

闵教授：PBLL中的评价量规可结合本书中测评任务模板。通过设计针对项目不同阶段的任务模板（如项目成果评比、学生互评等），可以确保测评任务与教学目标紧密结合。例如，在项目进行过程中，使用模板创建阶段性评估任务，帮助学生及时调整和改进。

对于项目阶段成果的评价，如果能够提供持续的反馈，并且这些反馈能够用于后续的教学和学习调整，这种评价可以被视为形成性评价。对于项目最终成果的评价（分数、等级）属于终结性评价。

4. 对于形成性评价，可以由教师和学生共同拟定评分量表，对于终结性评价，只能由教师拟定评分量表，这样理解对吗？另外，终结性决策的测评任务模板与仅用于形成性决策的测评任务模板有何区别？

闵教授：对于形成性评价，教师和学生可以共同拟定评分量表，目的是通过合作明确学习目标并促进学生自我反思和进步。但对于终结性评价，由于其涉及重要的决策（如升学或认证），评分量表的制定通常由教师单独完成，以确保标准化和公正性。

前面讲过，用于形成性决策和用于终结性决策的测评任务模板所包含的部分是相同的，主要区别在于对评价量表的设计，通常对于形成性评价，我们会设计更详细的分项评分量表而不是整体评分量表，更注重提供反馈和调整，任务设计灵活，更多关注过程和学习进展。而对于终结性评价，我们通常是用标准化整体评分量表，关注最终结果，具有较高的可靠性和概推性，用于做出重要的课程学习决策。

相关阅读

何莲珍教授：什么是AUA？一起走进课堂语言测评新方法

第122期我来读文献 | 《面向教师的课堂语言测评》（领读专家：何莲珍教授、闵尚超教授）

如何使用课堂语言测评？预期后效是关键！

新书速递 | 《面向教师的课堂语言测评》（语言测试与评估专题研究丛书）

“语言测试与评估专题研究丛书”已出版图书

前沿热点 | 推动教学评一体化：语言测评实践与研究

语言测评 | “剑桥语言测试研究丛书”

新书速递 | 《语言测试重点问题研究》（全国高等学校外语教师丛书）

新书速递 | 《产出导向法中师生合作评价》（产出导向法理论与实践研究丛书）

更多内容

敬请关注

同名视频号

外研社官方旗舰店

@外研社外语学术科研

http://mp.weixin.qq.com/s?__biz=MjM5ODcwMjgzMw==&mid=2651663855&idx=2&sn=aade26e880d118617dc62ab0056f7c12

外研社外语学术科研

iResearch外语学术科研网是面向外语教师的大型外语类学术科研支持网站，提供专业、实际、有效的科研支持与便捷的“一站式”服务。包括学术动态、科研指导、文献推荐、科研工具和科研问答等核心板块。

最新文章

即将上架！外研社外语学术新书抢先看

张虹教授：深入解读前沿论文，系统探讨质性研究（三）

刊讯 | 《现代外语》2025年第1期目录及摘要

非英语语种教学研究新视角：产出导向法的应用与挑战

二号通知（具体地点确定） | AI赋能下的社会文化理论与二语课堂教学研究研修班（12月7—8日，广州/线上）

活动预告 | 对话智慧教学：打造“强互动”和“元气感”的英语课堂

新书速递（限时优惠） | 《翻译教学研究》（外语学科核心话题前沿研究文库）

“Key Topics文库·翻译学核心话题系列丛书·应用翻译研究”新书出版（书评招募）

教研动态 | 外研社“专门用途英语教学与科研能力提升研修班”在空军军医大学顺利举办

全国第十一届专门用途英语研讨会顺利召开

国际研修丨高校教师国际化教学能力提升与数字化教学创新——新加坡寒假研修班开启报名

从选题到刊发——产出导向法在非英语语种教学中的应用探讨

读书三味丨技术赋能外语教材新形态，教研谱写外语教育新生态——《新形态外语教材研究》读书心得（文/姜伟）

刊讯 | 《外语研究》2024年第5期目录及摘要

大语言模型引领外语教学新风尚

北京外国语大学中国外语与教育研究中心黄大年式教师团队10月活动

2024年11月外语学科学术活动一览

数字素养 | 数字技术赋能教师发展与学科专业建设创新粤澳湾区研修班成功举办

双十一 | 高英图书惊喜大促，全场特惠等你来！

一号通知 | 产教融合与数字赋能背景下的外语教育教学创新研讨会暨广西本科高校英语类教学指导委员会2024年会

会讯 | AsiaTEFL 2024 Webinar 4

第十三届全国法律语言学研讨会暨中国英汉语比较研究会法律语言学专业委员会年会在中国政法大学召开

2025年“外语教育研究新星培育”云共同体成员邀募通知

混合式教学能否解决教育的时空难题？

期刊好文 | 基于纠正性反馈的口译学习投入研究（文/詹成、黄静）

三号通知 | 第九届全国高校俄语专业教学法学术研讨会

新书速递（限时特惠） | 《外国语言文学学科知识体系创新研究》

第二届全国外语教材研究学术研讨会暨中外语言文化比较学会外语教材研究专业委员会成立大会（四号通知）

刊讯 | 《外语导刊》（原《解放军外国语学院学报》）2024年第5期目录及摘要

推动全球外语学科的交流与对话——Key Topics文库英文版启航

期刊好文 | 高校英语教师反馈素养现状调查与分析（文/张志武、徐锦芬）

获奖名单公布｜第二届“外研U词杯”全国大学生英语词汇智慧学习大赛

4号通知（议程更新+直播）｜第14届外语写作教学与研究国际研讨会

国际研修丨AI赋能教学创新与数字素养提升——新西兰寒假研修班开启报名

“外语+人工智能”背景下的中国文化育人体系建设研修班暨东华理工大学外语教学创新开放课堂成功举办

2024年国家社会科学基金年度项目立项结果公布

2024年外研社“教学之星”大赛全国总决赛方案公布！

报名倒计时 | 外语教育中的跨文化能力培养与研究（11月6—16日，线上）

刊讯 | 《第二语言学习研究》第十八辑目录及提要

交叉融合、协同创新：全面提高人才自主培养质量——2024中国英语教学研讨会成功召开