题名:浅谈初中英语学业水平考试试题质量评估
作者:林敦来 | 北京师范大学
摘要:初中英语学业水平考试是一项高风险考试。本文从实践角度出发,选择评估者容易获取的试题为评估对象,借鉴语言测试学相关理论,从宏观到微观逐步收集试题的效度证据,包括测试素材的价值取向、测试目的考量、内容效度证据、情境效度证据、认知效度证据和命题技术与规范六个方面,以期对试题质量形成一个综合的评估意见。本文中基于理论建构的观测点对试题评估有较强的操作性,能够为命题评估者对初中英语学业水平考试的试题质量评估提供便利和可靠的工具。
关键词:初中英语学业水平考试;试题评估;效度证据
本文发表于《英语学习》2024年10月刊第4—10页。
引言
初中英语学业水平考试(以下简称“中考英语”)是初中阶段最重要的一项终结性测试。它依据《义务教育英语课程标准(2022 年版)》(以下简称《义教新课标》)命制,是对学生完成九年义务教育后英语学业水平的检验,也是高一级学校录取人才的重要依据。因此,其试题质量对该项测试的分数解释和分数使用都具有极其重要的影响。测试是一项综合性系统工程,一项完整的测试系统至少包含测试目的明确、测试级别定位、测试构念界定、测试规范和任务撰写、试测与试题评估、正式施测、分数推断、教学决策等环节(Fulcher,2010)。这个过程会产生一系列文件,如试题、多维细目表、成绩分析报告等。但一般情况下,非测试核心人员往往只能获得试题。本文基于通常情况下仅能获得试题的现实,以实践为出发点,浅谈在仅能获得试题(不包括评分细则)的情况下,如何对中考英语命题质量开展评估。以下从宏观层面和微观层面两个角度来展开讨论。
宏观层面的评估
从宏观层面上来评估试题时,评估者应首先考虑测试中素材的价值取向;其次,评估者要考虑测试目的,进而从内容效度的角度来评估试题的质量。
1
测试素材的价值取向
测试是一种社会行为,发生在特定的社会情境中,发挥特定的社会功能,如促进社会公平、实现教育机会均等。测试也从来不是价值中立的,它本质上是一种政治行为(Fulcher,2009)。《教育部关于加强初中学业水平考试命题工作的意见》(以下简称《意见》)第一条为“坚持正确导向”,其中将落实立德树人根本任务放在首要位置。《意见》提出,考试命题工作要坚持正确政治方向,牢固树立“四个意识”,坚定“四个自信”,坚决做到“两个维护”。注重加强对学生理想信念、爱国主义、品德修养、知识见识、奋斗精神、综合素质等方面的考查,积极培育和践行社会主义核心价值观,弘扬中华优秀传统文化、革命文化和社会主义先进文化,引导学生树立正确的国家观、民族观、历史观、文化观和宗教观,促进学生德智体美劳全面发展(教育部,2019)。这些内容与《义教新课标》的育人理念是完全吻合的。
在测试素材的价值取向方面,评估者要通过阅读试题中的素材,来判定试题内容的价值取向是否与《意见》和《义教新课标》的内容吻合。具体操作性表格可参考表1。评估者可以对试题中的素材进行编号,先判断其是否坚持正确的政治方向,再通过通读素材,归纳其所传递的核心意义,并将之归属于不同类别,如体现社会主义核心价值观、弘扬中华优秀传统文化等。
2
从测试目的出发的评估
上下滑动阅读
从语言测试学角度来说,不论是设计一项测试,还是评估一项测试,首先要考虑的是测试目的。Ingram(1968:70)曾说过:“所有的测试都有其目的。如果没有清晰地陈述测试目的,那么这项测试不会是一项好的测试。”Carroll(1961:314)也指出:“语言测试的目的是提供信息,以帮助人们就可能的行动方案作出明智的决定。”但这些决定是多种多样的,并且需要人们针对测试的每种预期用途作出非常具体的决定。从操作层面上看,Fulcher(2010)认为,测试者如果没有清晰地陈述测试目的,在选择测试的内容和形式时就无法提供令人信服的理据。具体来说,测试者对测试目的的陈述应该包含目标测试群体的信息和他们的水平范围、目标语言使用域、知识技能能力的范围等(Fulcher & Davidson,2007)。对测试目的的陈述为测试构念(即测试的能力是什么)和内容的选择提供理据,在预期分数解释和分数使用之间搭起桥梁。
就中考英语来说,根据《义教新课标》的规定,它承担了双重的考试目的:一方面检测义务教育阶段结束时学生的学业成就,另一方面为高一级学校招生录取提供依据。此外,它也为评价区域和学校教学质量提供参考,还包含改进教育质量和教学方式的价值取向。从测试学角度来说,中考英语是一项终结性测试,兼具学习认证(certification)和选拔(selection)的功能;也是一项高风险考试,因为其分数使用会关系到考生能否毕业、是否有机会进入下一个阶段的学习。同时,该考试还承担教育问责(accountability)的功能。
因此,从考试目的的角度来评估中考英语试题质量时,评估者可以考虑试题在依标命题方面的执行情况和试题难度控制情况。王蔷、葛晓培(2024)对依标命题做了详细的解读。笔者认为,从试题出发,评估者可以借助表2来对试题质量进行相应的评估。课程理念落实情况中,评估者要关注试题是否体现对核心素养的考查;是否体现以主题为引领,以不同类型的语篇为依托的考查;是否为学生提供真实情境和真实问题,指向主题意义的探究;是否与《义教新课标》提倡的教学方法相匹配。课程目标覆盖情况则需要评估者评判试题在多大程度上涵盖语言能力、思维品质三级学段目标的内容,并兼顾对文化意识和学习能力的考查。在课程内容涵盖情况方面,需要评估者评判试题在主题、语篇类型、语言知识、文化知识、语言技能方面在多大程度上综合反映了《义教新课标》三级的内容和能力要求。学业质量标准的体现情况则需要评估者考量试题背后考查的构念与三级学业质量标准之间是否有对应的关系。在评级方面可采用四级李克特量表。0代表完全不符合,1代表基本不符合,2代表基本符合,3代表完全符合。总分8以上就可以认定为比较积极的评价结果。
从试题的难度把控上看,既要有反映初中学段结束后,学生应该达到的最低要求的题目,体现试题的基础性,实现学习认证的功能;也要有反映《义教新课标》所规定的初中学段较高目标达成情况的试题,实现选拔的功能。这里有一个特别值得注意的地方:针对主观性试题,特别是开放性强的主观性试题,在评分标准制定中,分步计分中较低层级的得分情况也可以纳入基础性考查目标。试题的总体难度预估为0.65—0.75是比较理想的。
3
内容效度证据
在阅读一套试题时,读者得到的最直接的印象就是测试内容。而对测试内容的判断是测试效度验证的一个重要组成部分。内容效度考察的是一项测试在多大程度上测量了欲测的技能或行为(Mousavi,2012)。内容效度主要从内容相关性和内容覆盖面两个维度考察(Bachman,1990)。对内容相关性的考察需要细化目标行为领域及其任务,特别是需要细化测试方法;对内容覆盖面的考察指的则是考察测试中的任务在多大程度上能够充分地代表目标行为领域(Mousavi,2012)。考察试卷的内容效度,可以通过审阅多维细目表来比对《义教新课标》与考试内容之间的匹配性。通常情况下,多维细目表未公布,因此评估者也可以通过逐题审阅试题,参考林敦来等(2024a)关于多维细目表编制的建议,反推考试内容,从而建构起试题与《义教新课标》之间的内容匹配情况。如表3所示,评估者可根据题目情况建构试卷结构、分值分布、考查内容、题型分布、输入材料特征等。在完成表3的基础上,评估者可判断试题对《义教新课标》要求内容取样的代表性和覆盖程度。考虑到涉及评估者的主观判断,因此建议采用双人或多人背对背互评。当评估者遇到不同意见时,应详细研讨以达成一致意见。
微观层面的评估
在从宏观层面对试题进行判断之后,评估者可对试题做进一步的深入分析。笔者认为,在微观层面,我们首先可以借鉴Weir(2005)提出的效度验证的社会认知框架来评估试题的质量。首先,情境效度证据是命题评估者可以参考的重要方面;其次,认知效度证据也同样起到重要作用。
1
情境效度证据
上下滑动阅读
关于情境(context),Weir(1993)的论述颇具启发意义。他认为,情境作为交际语言能力的决定性因素是至关重要的。情境必须是考生和专家考官一致认同的可用于评估特定语言能力的合适条件。在测试这些能力时,测试者应尽可能获得正常执行任务的条件。Weir(1993)还指出,测试者应该有意识地努力在测试中建立尽可能多的现实生活场景,且这些生活场景应该被测试者及其同行视为是可行的和具有典型的。如果测试任务反映了现实生活中的重要情境和操作任务,那么测试者在进行分数解释时,就更容易推断考生可以运用英语完成什么任务。除非采取措施识别和纳入反映现实生活中重要情境和操作任务的特征,否则测试者很难推断在未来目标条件下考生的语言能力是怎样的。
情境效度可以从任务设定(考试指令、语言使用目的、应答模式、评分标准、权重、题目顺序、测试时间安排)和任务要求(语篇模式、交流渠道、语篇长度、信息本质、话题知识、输入输出特征、写作对象)两大方面去评估(参阅Weir,2005)。这里对部分内容进行解释。语言使用目的的适切性对考生调用元认知策略进行作答是很重要的。例如,广告的目的是劝说大众购买产品,测试者如果采用广告作为阅读素材,在命题时应该围绕劝说购买这个目的去设置题目。语篇模式会影响测试构念。例如,测试者欲测试考生的互动能力,则需要采用考官与考生现场互动的语篇模式,考官需要针对考生的口语产出改变措辞和应答内容,以适应即时性的交流。这时,考官按脚本提问的语篇模式就不合适了。在书面交流渠道方面,测试者往往会运用图表等方式传递信息。但是这些多模态的内容如果运用不当,可能会造成考生的理解困难。信息本质则指信息的具体程度和抽象程度。表4详细列出情境效度证据评估的观测点。通过评估者的判断,可以定位有问题的题目,作为试题质量的驳证呈现。
2
认知效度证据
上下滑动阅读
Weir(2005)框架中的认知效度对试题评估同样具有重要的启发意义。Khalifa 和Weir(2009)建构了阅读的认知框架,其中主要的认知过程包含词汇识别、词汇通达、句法解析、建构小句和句子层面的命题意义、推断、融合新信息建构心理模型、创建语篇层面的意义表征和创建跨语篇层面的意义表征。Field(2025)建构的听力认知框架包含三个阶段,即话语解析(含输入材料解码、词汇检索、句法解析)、意义单元(意义建构)和语篇含义(语篇意义建构)。在写作方面,Shaw 和Weir(2007)对写作的认知做了阐释,包含宏观规划、组织、微观规划、转换、监控和修订。通过评估题目对考生认知层次的考查,评估者可以更加清晰地了解题目是否达到测试者预期的认知层级。表5呈现了题目考查的认知层面的评估表。需要指出的是,在判断对应题目时,评估者应该采纳该题目考查的最高认知层次。也就是说,在阅读中考查了语言层面的意义表征,就自然包含了对词汇识别、词汇通达等比它更加初阶的成分的考查。通过对应题目数量以及赋分的比例,评估者可以较为清晰地统计出试题所测试的认知层级的分布情况,并依此判断试题对考生认知层次的考查是否符合《义教新课标》对该学段学生思维品质方面的要求。
3
命题技术与规范
上下滑动阅读
林敦来等(2024b)基于选择题的设计原则,对中考英语命题中选择题命制质量的常见问题进行了分析。评估者可以依据该框架对试题中的选择应答型试题(含匹配题、判断正误题、选择题等)的质量进行评估。具体评估指标详见表6。
Haladyna 和Rodriguez(2013)对建构应答题型的命题原则做了阐释,详见表7。该表从内容、格式和风格、指示语撰写、情境等方面对建构应答题目的命题原则进行了规定。在内容方面,强调了测试的构念要清晰、测试的认知要符合初中学段学生的认知要求,以及试题中对相同构念的处理应具有可比性。
表8详细列出建构应答题目命题技术与规范的观测点,由于建构应答题目一般考查学生综合运用语言来解决问题的能力,能够更直接地体现对核心素养的考查,其质量评估也体现多层多维的特征。因此笔者认为,对题目质量的评估应采用评级的方式呈现。在内容维度中,除了对构念和认知能力的评判,还包含了对相同构念的处理是否具有可比性的问题。Bachman 和Palmer(2010)介绍了三种不同的构念界定方式,即纯语言构念、语言构念加话题构念,以及语言融合话题构念。在中考英语命题实践方面,如果测试者在书面表达中选择的构念是写作能力且不包含话题知识,那么在阅读表达开放性试题中如果考查写作能力,就不应该把话题知识纳入构念。建构应答题目命题技术与规范的评估也需要采用双人或者多人背对背评估的方式,有不同意见需要进行商讨达成一致,最终得分在22以上的试题可认为是质量较高的题目。
结语
本文以中考英语试题为出发点,讨论如何开展中考英语命题质量评估的问题。本文提出的方法主要靠评估者作为专业人士进行专业判断,需要评估者拥有相应的评价素养,对课程标准、语言能力标准、测试方法的优缺点和命题规范,以及语言测试学的基本概念有深入的认识。命题评估工作一般建议以3—5人的专家团队来开展,最好包含有语言测试研究背景的人士、课程专家、一线教师和教研员等。本文提出的评估方法也适用于测试者在题目开发阶段对试题质量进行评估,以期改进试题质量。
—
作者简介
林敦来
北京师范大学外国语言文学学院副院长、教授、博士生导师。
主要研究方向为语言测试与评价。
本文系国家社科基金项目“核心素养下的国家义务教育质量监测英语指标体系和范型题研究”(项目编号:22BYY091)的成果。
以上内容摘自《英语学习》2024年第10期“热点·观点”栏目,页码4—11。因公众号篇幅所限,本文未呈现文章参考文献,完整内容可通过纸刊或在数据库下载阅读。文章版权归《英语学习》所有,欢迎分享本文到朋友圈。其他任何学术平台若有转载需要,请在后台联系小编。
关注“外研测评”微信公众号并设置星标,第一时间获取测评资源与动态~
点击下方卡片关注我们~
点分享
点收藏
点在看
点赞