编者按:原文作者是英国南安普敦大学教育系考试与评价组的哈里·托兰斯教授(Harry Torrancc)。 原文就1985年召开的英国教育研究协会会议上关于考试结果分析问题进行的辩论进行了详尽的评述,并发表了作者关于考试对学校评价的作用的见解。由于教育评价还是一门年轻的科学,这里发表原文的摘译,仅介绍有关问题的六个方面的主要论点,以引起读者对这些问题的关心和进行研究的兴趣。原文刊载于 《Educational Review》, Vol.38,No1,1986。(《教育评论》 1986年第一期)。
考试在学校评价中能起什么作用(译文)
(英)哈里·托兰斯 著
眭平 译
前 言
在对学校教育效益问题的研究中,我们必须充分认识到考试成绩的作用,是将考试成绩与教育评价结合起来考虑,或是只注意到了问题的一个方面。我们还必须注意评定 (assessment)和评价 (evaluation)的区别:评定的目的旨在说明受教育者的情况,他们实际具有和可能达到的成就;评价的目的在于说明教育者为受教育者服务的情况。 因此,评定只能是综合性评价的一部分;并且,设计的评定技术如果不是为了描述每个学生实际掌握了什么,而是作为一种甄别手段的话,那么,甚至连这点评价作用也起不到。本文着重讨论考试成绩在评价中的作用,注意力将放在运用各 种评定方法和考试进行学校评价时遇到的困难上。
一、关于考试成绩的讨论
1980年英国颁布的教育法,强制规定公布考分,使得考分问题成为学校评价和学校教育效益性讨论论中的话题。之所以这么规定,是根据这样的假 定:考分是学校教学成就的一项有效“指示器”;作为家长,有权了解孩子的分数,并据此对各校进行比较。公布考试成绩显然把人们的注意力集中到 了分数上,人们便将考分作为度量学生学业成绩的主要尺度。近来,这一趋势已越来越明显了。
但这一做法引起了争论,许多人都强调,不应通过考分对学校教育进行简单的比较,因为分数的许多变化来自教学之外的种种因素,尤其是学生们的入学成绩和所处的社会经济环境,是考分发生变化的关键性变量。例如:学生的入学考分越高,其中中产阶级的子女越多,入学后考试的成功率也就可能越高。
利用考试分数对学校教育的效益进行评价,无疑存在着问题,即各种评定和考试本身的信度和效度的问题。考分的这一用途,已受到了许多人的批评,它被认为是一种过时的度量方式,它对于某一特定的课程情况没有作出任何说明,对如何提高学校工作的效率也提不出任何建议;不仅如此, 即使仅将考分作为衡量学生学业成绩好坏的尺度,也是成问题的。
二、考试成绩的信度和效度
早在三十年代,就有人对阅卷者打分的可信性提出了怀疑。以后的许多年中,人们不断地对考试打分的准确性产生疑问。到了七十年代,人们认识到传统的口试和笔试已显得既不客观,也不可信;考试内容的有效性受到主观因素影响的危害,预计的效度是不会高的,不同的阅卷人所打的分数也缺乏可比性。当然,不是所有的考试都是“传统的” 论文题,含有多项选择题及诸如此类的试卷开始被采用。尽管如此,人们对这种试卷的价值并 不乐观。“我们只能说,这一重要问题的研究状况令人极端失望,我们做了许多努力,试图在考试中增加客观测量的分量,但对于客观试卷的有效性我们仍然知之甚少”(Ingenkhamp英根凯姆,1977)。 墨菲( Murphy,1978) 还提醒我们,阅卷人之间的信度仅是一场考试总信度的一个方 面。因为,即使评分者们的意见已取得一致,但考分变化的幅度仍是很大的,考分会随着考试科目、考试类型和试题的数量等不同而发生变化。
三、能力测验的信度和效度
从教学方面来看,能力测验的可利用性也不十分清晰。自1944年的教育法之后,11岁以上儿童的能力测验和成就测验在全国广泛流行。然而,不论从心理学的观点,还是从社会学的观点来看,它们的信度和效度都是不高的。对于它们,我们也应抱有上述对于考试和评分所抱的谨慎态度。1973年,梅汉(Mehan)研究了儿童对语言测验的反应后指出,造成儿童答错题的原因有许多,特别是需要他们用不同的方法来回答问题时最易出错,因为测验的设计者事先假定所有的答案应是一律的和明确的,而这样的假定事实上并不正确。因此,传统的测验技术不能判定造成儿童答案错误的原因,是由于他们缺乏能力呢,还是由于他们选择了另一种同样正确的解释。1983年,斯蒂尔勒 (Stierer)对测试进行了人类学的研究后发现:教师、学校、考委会只重视标准分,然而许许多多的学校和班级要保持相同的测试条件显然是困难的。1975年,有人进一步对测验项目进行了研究,认为:一个测验项目的分类内容同试题本身的特性往往并无多少关系,而是同考生回答这个问题时所具有的学习经验的特点有关。在这种情形下,要求考生回答一个题目,以便测出在所有考生身上所具有的相同能力,这是一个相当因难的任务。
以上研究结果使我们注意到,围绕着如何设计切实有效的考试确实遇到了不少困难。所以,考试和测验的用途及其解释决不象评论家们所认为的那样明白易懂,对通过学生之间和学校之间考分的比较和评价,进而评价学校的工作来说,这些考试数据并非特别有效和可信。因此,除了经过慎重 的研究之外,我们必须谨防在一切场合任意地使用考分作为度量的标准。
四、考试与课程评价
将问题推进一步,考分对于课程的全面评价 (即教师们感兴趣的:学生究竟学会了什么,没有学会什么,以及教师能为此做些什么)而言,也并无什么大作用。早几年,怀斯曼(Wiseman)和皮金 (Pidgeon)就明确认为:需要通过清晰而详细的可测量的目标来设计和发展课程。这些目标的测量则为学校的课程评价提供了基础。他们认为:“现有的测量手段还不能为教师感兴趣的目的提供精确的数据,这些手段多半是为达到评定和比较个人能力的目的而准备的。在评定中,最关心的问题是测出一组学生的综合能力,而课程评价另有一种完全不同 的方法。”
五、评价和提高学校工作的效率
这个题目把我们带到了考分的作用这个问题上。考分本身提供的信息资料既太少,又太迟。教学法的改革年复一年地进行,如果改变教学方法仅仅是为了提高分数,那么这种改革可能只是满足了考委会的要求,而没有从教育目标和教育资源的总体上去考虑。这样的考分只能告诉我们发生了什么事这一点信息,但不能告诉我们它是如何发生的和为什么会发生。有人考察了除考试而外的学校其它工作,提醒我们应注意考分以外的评价手段和方法,如同行的观察,局外人的评论及其它形式。还有一些研究者认为,通过民主的、有启发性的、相应于教学大纲的教育评价的辦论,可以推论出每个学校所处的水平。如麦克唐纳 (Mac Donald) 认为:“为学生尽可能地提供与其环境相一致的学习机会,是学校的责任。这是一种可供说明的学校模式的基础一一它是一个过程而不是一种生产模式,这种过程模式中的程序是涉及教育评论过程的”。又如西蒙斯 (Simmons)认为:“我们需要知道学生应学会而未学会的知识有多少,更需要了解在教学过程中发生了什么,我们期望知道这样的教学会产生什么结果,以及教学的成功与不足。根据教学过程进行的教育评价让学校证明他们合理存在的原因,即为儿童学习和提高教学质量创造机会。”
六、立足于校内的评价
1982年,哥尔斯坦 (Goldstein)说,如果受更多控制的考试之间很难有可比性的话,那么人们将使用不同的标准来解释考分,而不是使用现在的比较程序。由于以学校为基础的考试已广泛展开,所以打分和平衡的经验以及考虑工作背景和工作成果之间的联系也将更广泛一些,这样对考试成绩的信度和效度就可以公开地详细审查,进行简单易行的讨论和辩论,而不至于被统计数字所蒙蔽。
在校内考试中,自我评价已以类似的方式在非正式地凭着或多或少的直觉进行着。活动的动力源于学科内部的每个教师,活动的场所存在于教师之间。在与同僚们的讨论中,教师们事实上会尽可能地从客观评价中获取许多东西,以改进今后的工作。但评价不应停留在闲谈的水准上,而应更为系统化、更为集中才是。
回到开始的题目上来,为了改进学校工作,我们需要对课程开展对话,在这个领域里,关键的问题并不在于我们能对考分做出多少合理的解释,而在于我们如何组织考试,尤其是教师要介入评价过程,以便促进自我评价和改革教学实践。
(注:本文原载于1987年第1期《考试研究》杂志,译者单位:南京市教委)
(南京浦口老火车站)
眭平,女,1961年8月生,江苏丹阳人。江苏省督学,江苏省教育基金会常务副理事长。在南京市教育局职教处,江苏省教育厅职教处、师资处、财务处(教育财务结算中心)、组织处等多个岗位工作,江苏省教育厅(省委教育工委)原二级巡视员。