考试和评估有何不同？

文摘 2024-07-24 19:12 中国香港

点击蓝字谢谢关注

首先，从我的教学经验来谈一谈考试和评估的概念。我现在任教的学校采用的是美国课程。我在这所学校工作了两年，从最初的陌生到现在逐渐熟悉，而在这个过程中，对我来说最具挑战的是考试和评估的频率和强度。

一个学年的教学涉及十个不同的话题，每个话题都有相应的评估。大约每4-6个星期进行一次考试，轮流涵盖听力、口语、阅读和写作。其中，阅读和写作作为语言知识的考察出现在每个话题学习结束后，而听力和口语的评估则通常轮流进行。每学年要进行两次学生评语，因此，设计在第一个和第二个学期结束之前的评估需要包括听说读写四个方面。

学校的美国课程是基于标准的课程（standard-based），学生的成绩评语也围绕着这些标准展开。所有的评估都要明确地测评学生是否达到特定的标准。这样一来，传统的听说读写综合考试不再适用，因为需要在每项中文范畴（听、说、读、写）中审视审查题目是否有效地测评了特定标准。曾经有一位同事做得特别细致，将阅读评估中的题目按理解层次（词汇、句子、段落、信息推断等）分类，将零散在试卷中的题目分成不同类型，这种细致带来了更精确的评估，但也增加了阅卷的负担。传统的阅读试卷只需要给出总分，确认是否达标，而现在需要为不同类型的题目单独评分，增加了复杂性。然而，这种精细评估的好处在于让学生清楚地了解自己的优点和需要改进的地方。

我之前工作的学校，采用的是加拿大课程，一年分为四个学期，每学期进行一次考试，平时的阅读和作业也在最终成绩中占一定比例，这促使学生重视日常的阅读和功课。再之前任职的两所学校则采用IB课程，小学阶段没有考试，只进行前测、进展评估和基于项目的总结评估，学生成绩表基于平时所有课业、作业、课堂活动观察以及老师的专业判断。

有没有注意到我提到了两个不同的词语：“考试”和“评估”？它们有何不同？简单来说，“考试”通常与分数挂钩。根据Thomas Guskey的说法，仅使用分数时，“即使是准确的、任务相关的分数也不能提高学生的学习。学生无法从附加在学习证据上的字母、数字或词语（如ABCD级、1234分、“优秀”或“合格”等）中获得进步。只有在分数与提供个性化评论以指导和改进学习方向相结合时，它们才能提高成绩，促进学习进步”（Guskey，2019）。

然而，“评估”并不总是包括成绩，分数只是评估的一部分。“评估”通过反馈和评语引导学生的下一步学习，例如家庭作业、课堂作业和日常观察，是教学中的重要组成部分，为老师们提供备课和调整教学方向的信息。老师们每天都在评估：学生学会了吗？教学目标是否已经实现？是否有更好的方法来帮助学生掌握学习内容？

总的来说，考试的评分反映学生的学习进度和成果，而评估则是更深入地了解学生的进步和理解情况。说得更具体一点，当你拿到一份学生的中文考试卷时，你只能看到听说读写这四项的简单评分；但当你拿到一份评估卷时，不仅会看到听说读写每项的分数，还会了解到更多信息：学生在这次考试中表现不佳的具体原因是什么？下一步可以如何改进？学生可以采取哪些措施来提高？这些信息以不同的形式传达，比如评估标准表（rubrics）或老师详细的评语。

说了这么多，其实就一句话：无论课程和考试的形式如何变化，都应确保纯粹以最终评分为依据的考试占比尽量少（一成便足够）。学习的过程应当侧重于多样化的评估方式，利用这些评估来指导教学的调整与改进方向，同时也清晰地向学生传达下一步的学习目标和方向。

接下来，我们探讨另一个问题：隔多久考试最好？每个学校考试和评估的频率各不相同，有的学校一学年进行十几次考试，甚至一课一考；有的则一学年四次大考，平时穿插计分或不计分的听写、小测验、作业等；还有的一年两次；更有学校仅采用进展评估和评语，完全摒弃了考试形式。那么，考试和评估对学习究竟是有益还是有害？是频繁些好还是少一些好呢？

苏霍姆林斯基

我们应当让评分次数减少，但每次评分都应具有分量、富有意义。

引文：[苏] B.A.苏霍姆林斯基著，于长霖译，《给教师的建议》，磨铁图书，2021年版，第52页。

在《给教师的建议》一书中，苏霍姆林斯基提到，他从未给学生在课堂上的回答打分，但进展评估在教学中占据了重要位置。进展评估涵盖了多种形式，如回答问题、补充同学答案、作业、阅读或实践性任务。每节课，他都会细心评估学生是否达到了学习目标，若学生尚未准备好，他不会轻易评价其知识水平，而是根据进展评估的结果，致力于帮助学生哪怕取得一点进步。

经过一段时间的学习后，他会告知学生即将进行打分，促使学生主动回顾相关知识。苏霍姆林斯基还强调了记忆知识的重要性，因为“重复是学习之母”，但在评估时应避免提出仅需简单重复教师讲解或背诵书本内容的问题。

面对未掌握好知识的学生，苏霍姆林斯基从不轻易给予不及格的成绩。他始终鼓励学生相信自己的能力，避免学生因失去信心而陷入沮丧和抑郁，这些负面情绪会阻碍学生的进步。他认为，“这些负面情绪会导致负责产生情感动因和情绪思维色彩的脑皮质下层核心区停止刺激大脑工作”。

总结苏霍姆林斯基的评分理念如下：

总结性评估应少而精，深刻反映学生在一段时间学习后运用和转化知识的熟练程度，这应建立在深入理解和重复练习的基础上，而非单纯依赖机械记忆。
进展评估则应频繁进行，甚至可以每日进行，以准确观察每个学生对学习目标的掌握情况，并根据学生的学习状况随时调整教学策略，助力学生不断进步。
当学生未及格时，不应急于给出分数，而应寻找方法帮助学生在现有基础上取得微小但实质的进步。这可以通过辅导后重考或设计符合学生水平的差异化评估内容来实现。因为“成功的乐趣是一种强大的情感力量，孩子想要做得更好的意愿正源于此”。若学生失去了这份内在动力，任何教育技巧都将难以奏效。

池谷裕二

要想巩固记忆，就不能忽视测试的重要性。

引文：[日] 池谷裕二著，高宇涵译，《考试脑科学：脑科学中的高效记忆法》，人民邮电出版社，2021年版，第53页。

在《考试脑科学》一书中，通过一项单词记忆实验揭示了一个重要发现：让所有参与者学习一遍40个陌生的斯瓦西里语单词后，立即进行测试，结果无人满分。随后，将这些参与者分为四个小组，采用不同方法继续记忆这些单词，以探究最佳记忆策略。

第1组：如果没有拿到满分，他们需要重新背诵这40个单词，并再次接受与之前相同的全面测试。这个过程重复进行，直至获得满分为止。

第2组则相对轻松，他们只需背诵在上次测试中出错的单词，但随后仍需接受全部单词的测试。这一过程不断重复，直到满分达成。

第3组与第1组相似，重新记忆时需要涵盖全部的40个单词，但之后的测试仅针对上次测试中出错的单词进行。如此循环，直至不再出错。

第4组采用的方法在学校或补习班中较为常见，即仅针对上次测试中出错的单词进行复习，并在测试时也只考察这些出错的部分。重复此过程，直至完全掌握。

那么，哪一组能最快地记住所有单词呢？令人惊讶的是，实验结果显示，各组在重复记忆单词的次数上并无显著差异。

然而，不过令人意外的是，在1周后对参与者进行再次测试时，成绩却呈现出明显的差距：第1组和第2组的成绩保持在80分左右，而第3组和第4组的成绩则大幅下滑至35分左右。

原因很明显：第 1 组和第 2 组在重新测试时都考查了全部的单词。而第 3 组虽然重新背了全部的单词，但是却只测试了之前出错的部分。

这个结果反映了人脑的本质：人脑的模式是“输出依赖型”。背单词的行为相当于输入，提取保存于大脑中的单词去解答试题的行为则相当于输出。我们要让海马体产生错觉，以为短时间内多次输入的信息一定是必须记住的重要信息——“这个信息竟然会被如此频繁地调用，看来必须要记住它才行。”

对于教育者而言，这一实验带来了重要启示：要想让学生有效的记忆，仅仅侧重“输入“的填鸭式学习方法，效率远远低于灵活运用”输出“所学知识的学习方法。在课堂上，鼓励学生参与讨论比单纯听讲更为有效；让学生运用所学知识进行创造或解题，比反复阅读教科书更有意义。

更重要的是，合理且频繁的测试安排，能够有效帮助学生巩固记忆。

这个结论与上面苏霍姆林斯基的理念相违背吗？一点都不。苏霍姆林斯基提倡学生要在记忆中储存基础知识，他在长达30多年的学校工作中发现了一条独特的教育规律：要让学生牢牢记住基本的真理，因为它们是知识的根基。他是这样教低年级孩子识字的：

列出构成知识和读写能力基础的2000～2500个核心字词；
课前，在黑板上写下三个“今日词语”；
孩子进入教室后，立刻在词汇本上记下这些词。他们仔细思考这些词，并在旁边写下一些同根词（整个过程会持续三四分钟）；
教会学生自我教育和自我检测：在回家的路上要回忆一下，今天记了哪三个词，它们是怎么写的。在记忆中重新描绘一下这些词。早晨起床后立刻回忆一下这些词的写法，并根据回忆在练习本上写下它们；
在课堂上一个接一个地做各式各样的练习，以便学生学过的正字规则可以被系统地复习、运用。

这不正是侧重“输出”的学习吗？“输出”，不仅局限于狭义的自我检测和测验（这些测验不一定需要计入最终成绩），它还可以是深入的思考、知识的关联，以及在实际中反复的运用。

一项研究

测试和测验可以显著提高长期记忆。

在2023年一项研究中，三位有教师和研究员经验的作者对各种类型的测试、测验和知识游戏赞不绝口，因为”测试效应“：当测试和测验经过适当设计且不会带来恐惧感时，它们可以显著提高“长期记忆，并为未来的提取知识创造更强大的检索路径”。

参考：Murphy, D.H., Little, J.L. & Bjork, E.L. The Value of Using Tests in Education as Tools for Learning—Not Just for Assessment. Educ Psychol Rev 35, 89 (2023). https://doi.org/10.1007/s10648-023-09808-3

这项研究对测试的机制及其对学习的影响进行了详细而有趣的探讨。以下是一些要点：

多样化

为了最大限度地提高学生的参与度，频繁对学生进行测验，但不要让形式变得单调。作者们认可的测试格式包括：多项选择题、提示回忆测试、点击器、填空题、简答题和知识竞赛。

竞争性

在设计多项选择题或判断题时，选择“竞争性的备选答案”。例如，在提问“哪颗陆地行星最热？时，给出“金星、火星和水星”而不是“金星、天王星和土星”，因为“天王星和土星不是陆地行星”。作者们假设，竞争性的备选答案要求学生仔细审查所有选项，导致他们检索和考虑更多已学内容。

预测测试

根据研究人员的说法，在学生开始学习之前，测验他们尚未学习的材料，“即使学生不能正确回答任何一个问题”，却可以改善长期表现。值得注意的是，前测还可以“在随后的课程中减少分心”，让学生的学习更有针对性。前测也能帮助老师调整教学，设计差异化教学的内容和评估方式。

社交化

要求学生以小组形式参加测试可以提高记忆和动力，同时减轻焦虑。作者们建议，考虑集中于特定问题而不是开放性问题，因为学生在合作过程中有时“可能不太准确地回忆和记住信息”。我们在课堂上运用的很多IT工具，就是这种方法，如Kahoot!, Quizlet, Quizizz等。

传递下去

教导学生进行自我测试，可以通过“在不查看任何笔记的情况下总结课堂的要点”，或者通过“小型学习小组的方式，学生互相测试对方——许多学生已经在进行这样的活动”来实现。也就是找个小伙伴，互相考对方需要记住的知识。

如果你读到这里，非常感谢你花时间阅读我的分享。最后，我想分享一下我将要采取的行动：

两次总结性评估

每个学年的十个话题教学安排中，上学期和下学期分别在完成三到四个话题的教学后，安排一个“有分量、有意义”的总结性评估，以反映出学生在一段时间学习后，运用、转化知识的熟练度（proficiency）。评估应避免重复、背诵和机械记忆的结果。总结性评估后，结合学生平时的表现来撰写评语。对于最后两个话题的教学，由于临近放暑假，会安排测验，但此类测验不计分，其成绩可作为下一年度教师教学的参考。

进展性评估

在日常教学中，我会安排各种不计分的测试形式，例如听写字词等，以帮助学生加强对基础知识的记忆和掌握，同时也使教师能够更清晰地了解每位学生的学习状况，从而调整教学目标和内容，实现有效的差异化教学。对于话题1-3和5-7，完成每个话题的教学后，我可以安排基础知识的读写评估（需设计多样化和具有竞争性的题型），同时配合听说小任务。虽然这些评估属于进展性评估的范畴，但为了减轻学生在总结性评估中的复习和记忆压力，并帮助学生更好地“巩固记忆”，这些评估结果也可录入评分系统中。

词汇本

结合构成知识和读写能力基础的汉字，我将会为每个话题列出必须掌握读写的汉字，开学后给每个学生发一个词汇本。每天，我会选一名学生在上课开始时，在白板上写下三个“今日词语”；所有学生应立即拿出词汇本，记录下这些词语，并标注其拼音、意思、组词，同时采用有创意的方法思考如何记忆这些字词。每周结束时，还可以进行这些词语的听写测试，以强化学生的记忆。

END

Esther 教学记

分享点赞在看｜记得三连哦

关注我｜一起从优秀到卓越

http://mp.weixin.qq.com/s?__biz=MzkxOTcyOTg4OA==&mid=2247483729&idx=1&sn=666a4311ad8590779d9175e1147e0d57

Esther 教学记

为教好学生努力成长，从普通进阶优秀老师，从优秀到卓越教师。