AUTHOR
作者简介
摘要:综合素质评价是教育评价改革的“深水区”,也是实现高质量教育的“发展区”。在人工智能快速发展的背景下,综合素质评价需要遵循四大原则,即在“以育人为导向”的目标引领下,通过设计“教—学—评”一体化的评价框架,采用综合评价与个性化评价相结合的方式,运用数智化的动态评价形式,构建完备的综合素质评价体系。然而,实践中教育大数据技术发展滞后往往导致综合评价难以“平衡”,评价系统的智能推荐能力不足使得个性化评价难以“求异”,这些困境限制了评价育人功能的发挥。为此,文章提出以“第四代评价”为理论基础,结合“OSEMN”大数据分析框架和“1+N 分布式智能体系统”结构,构建“教—学—评”一体化的人工智能教育大模型,赋能综合素质评价。未来教育教学中,教师应在预训练与微调阶段优化模型的评价能力,通过多种途径促进人机和谐共处,推动大模型与综合素质评价深度融合。
关键词:综合素质评价;教育大模型;第四代评价;分布式智能体
引 言
综合素质评价的发展与挑战
(一)综合素质评价评什么?
早期评价体系侧重于“人才选拔”功能,关注学生的突出表现,如奖励和成就等。2014 年,综合素质评价被正式纳入新高考改革体系,成为“两依据一参考”中的“一参考”,评价体系逐渐科学化和系统化,不仅明确了德、智、体、美、劳五育为评价核心要素,确立了学生综合素质档案为评价形式,同时引入多样化的评价方式,以期全面搜集学生的发展数据(中华人民共和国国务院, 2014)。然而,人工智能的迅速发展再次打乱了人类与机器的分工,这对人类发展提出了更高的素养要求,推动综合素质评价体系朝着新的方向发展,并在实践过程中形成了四大原则。
1. 以育人为导向
ChatGPT、Gemini 等生成式人工智能将人类从基础问答和文案撰写等一般性知识工作中解放出来,机器逐渐承担更多重复性和机械性任务。这标志着教育已从满足工业社会对标准化技能人才的需求,真正转向后现代社会对个体主体性的重视(周玲等, 2023)。评价作为教育的风向标,对人才培养有重要的引领作用。综合素质评价应从传统的“对人的评价”转向“为了人的评价”(任国平等,2021),注重评价的育人功能(刘志军,2016),以期通过构建“以育人为导向”的综合素质评价体系,关注学生的个体需求,促进个性全面发展。
2. “教—学—评”一体化
《义务教育课程方案(2022 年版)》提出,要强化考试标准与课程标准、教学之间的一致性,推动“教—学—评”一体化发展,强调三者的结合,构建良性循环的人才培育系统。因此,“教—学—评”一体化可以作为重要的评价原则,指导智能时代综合素质评价体系的整体设计。首先,整体设计需要建立以五育为基础的评价体系,将教学目标、学习内容与评价标准紧密衔接。其次,评价体系通过科学合理的指标和方法,为教师与学生提供及时有效的反馈。教师根据评价反馈调整教学策略和方法,实现“以评促教”;学生通过评价了解自身的优势和不足,明确努力方向,实现“以评促学”。再次,教学与学习之间应形成动态互动关系。教师关注学生的学习需求和进展,灵活调整教学内容与节奏,实现“以学定教”;学生在教师的引导下,积极参与学习活动,发展自主学习能力,实现“以教引学”。最后,教与学不断互动,达成评价目标。三位一体的“教—学—评”系统使得评价不仅是对学习成果的检验,更是促进教学改进和学生成长的动力,有效发挥评价育人功能。
3. 综合评价与个性化评价并重
为促进学生全面且有个性的发展,评价体系建设需要兼顾“综合评价”和“个性化评价”。这两类评价方式分别对应教育评价中的三个核心概念(张会杰等,2020)。其中,综合评价侧重于学习的评价(Assessment of Learning, AoL),关注总结性评价的全面性;个性化评价侧重于学习性评价(Assessment for Learning, AfL)和学习式评价(Assessment as Learning, AaL),前者关注学生综合素质的变化和差异,以实现评价的诊断功能;后者关注评价的学习功能,即学生在学习中学会自我评价,通过自我评价促进内在反思与自我调节学习。
4. 数智化动态评价
有效开展综合评价与个性化评价,亟需采用数智化动态评价。传统的实体学生档案由教师主观填写,往往表现为单一片面的评价,常导致评价结果滞后且模糊(檀慧玲等, 2023)。有效的综合素质评价,可通过数智化技术实现,实时搜集与分析数据,构建个性化的动态评价机制,确保评价的全面性、个性化与发展性,突破传统评价中数据缺乏动态整合和反馈缺少个性化等局限。
综上所述,综合素质评价应在“以育人为导向”的目标引领下,通过“教—学—评”一体化的设计框架,采用综合评价与个性化评价相结合的方式,运用数智化的动态评价形式,实时、准确、全面地评价学生德智体美劳五育发展水平,促进学生全面且个性化的发展,充分发挥评价的育人功能。
(二)综合素质评价的技术难题
构建“以育人为导向”的评价体系面临诸多技术挑战,主要集中在“平衡”与“求异”方面。
1. 大数据技术发展滞后,综合评价难“平衡”
全面且平衡地处理与学生素质相关的大数据是实现综合评价的关键。然而,现有大数据技术难以达成这一“平衡性”目标。一方面,评价的全面性要求有效整合多源异构数据,以充分展现学生的多维度素质数据,但非结构化数据(如图片、文本、视频等)的解析与处理过程复杂,多源数据的整合难度高。另一方面,评价的全面性要求全面考量“五育”,但各“育”数据的搜集难度各异。例如,与美育相比,智育数据搜集相对简便。这常引发数据不平衡问题,即某“育”的数据量稀缺。在处理此类数据时,分类算法的分类器往往忽视少数类数据,导致数据难以有效分类与计算,影响评价的公平与全面。总体而言,大数据技术难以支撑“教—学—评”一体化下综合评价对“数据平衡”的计算需求(柳夕浪, 2023)。
2. 智能推荐能力有限,个性化评价难“求异”
个性化评价的关键在于对学生综合素质数据进行个性化分析,提供针对性发展建议,以充分发挥评价的诊断与激励功能。然而,现有推荐技术多聚焦群体间的相似性,输出统一化的学习建议,表现为“求同”,忽略个体间的差异性,即“求异”需求。常用的智能推荐技术主要是基于内容的推荐方法与协同过滤推荐方法(吴正洋等, 2022)。基于内容推荐方法属静态方法,即根据学生的特点标签,如年级、性别等,输出模版化建议。它虽然考虑群体间的差异,但对个体差异关注不足。协同过滤推荐方法基于学生个体与评价建议之间的交互历史,找到相似群体输出相近建议。这一方法虽然实现了动态推荐,但主要依赖历史数据,忽略了学生的实时需求,不具备动态评价能力。这表明传统推荐技术难以满足综合素质评价“求异”的个性化推荐需求。
模型构建
通用大模型为解决上述技术难题提供了可能。它凭借强大的数据理解与文本生成能力,在评价准确度(Bucol & Sangkawong, 2024; Lu, et al., 2024)和效率(Fuller, et al., 2024) 等方面的表现可与人类媲美,一定程度上能应对综合评价与个性化评价的技术难题。然而,通用大模型的元训练数据集常缺乏教育专业术语,如五育评价、素质评价等,导致模型术语理解易出现偏差,影响评价的有效性 (Fu, et al., 2024)。为充分满足综合素质评价要求,本研究利用人工智能教育大模型赋能综合素质评价。
人工智能教育大模型指利用海量教育数据训练的、可完成多种教育任务的大规模人工智能模型(吴永和等, 2024 ;刘邦奇等, 2024)。其工作原理为在预训练阶段学习与教育相关的问答模式与规律(表现为教育特性),在应用阶段根据问题需求生成回答并执行多种任务(表现为生成特性),如模拟师生间的交流、撰写文稿。大模型的核心技术是 2017 年提出的 Transformer 架构,即通过自注意力机制和位置编码方法,优化模型对序列关系的理解,加速并行计算,显著提高模型的训练效率和性能(Vaswani, et al., 2017)。当然,要明确的是,只有确认人工智能教育大模型究竟具有何种能力可以解决综合评价与个性化评价的前提后,才能以此为依据讨论人工智能教育大模型的构建问题。
(一)何以可能:人工智能教育大模型的综合素质评价能力分析
1. 强大理解能力,实现综合评价
基于超大规模训练数据与 Transformer 架构,人工智能教育大模型展现出卓越的理解能力,能充分理解与综合素质相关的数据。首先,在多模态数据处理上,模型将图片、视频、音频等数据形式转化为文本信息,解决多源异构数据的处理难题。其次,在不平衡数据分析中,人工智能教育大模型利用自注意力机制与位置编码,捕捉上下文序列关系,准确把握语境与意义,并基于评价框架输出总结性信息,避免少数类数据被忽视,较好地解决综合评价中的难点。
2. 智能推荐能力,实现个性化评价
人工智能教育大模型将预训练阶段积累的知识与能力迁移至推荐场景,展现出优秀的智能推荐能力。模型可根据学生需求提供针对性反馈,具有分数评定、评级预测、评论总结、解释生成、顺序推荐和直接推荐等功能(Liu, et al., 2023),体现了它在个性化推荐方面的优势。即便在“冷启动”场景下,模型也能利用预训练习得的能力生成有效建议(Di Palma, et al., 2023)。
然而,实现个性化推荐的关键在于模型是否具备记忆能力。人工智能教育大模型通过多头自注意力和缓存机制可进行长记忆处理,通过分析学生的互动历史和偏好,提供精准评价与定制化反馈(Liu, et al., 2023)。此外,模型还可根据学生的发展现状直接生成适合的学习材料或题目,以提升其综合素质(Zirar, 2023)。
(二)何以实现:构建面向“教—学—评”一体化的人工智能教育大模型
1. 理论支撑
本研究尝试发包容“教—学—评”一体化的人工智能教育大模型,以实现综合素质评价的育人功能。换言之,开启新学习阶段,需对教学、学习与评价进行三位一体的动态重构,体现评价的“建构”与“循环”特点。为此,本研究将“第四代评价” (FGE/4GE)理论作为模型构建的逻辑基础。第四代评价由埃德加•古巴和杨•林肯(Guba & Lincoln, 1989)提出,又被称为 “建构主义评价 ”(constructivist evaluation),是一种基于建构主义范式的评价方式。区别于第一代注重测量、第二代注重描述、第三代注重判断,第四代评价强调评价的协商建构,有效解决前三代评价的管理主义倾向问题,并赋予被评价者参与评价的权利。第四代评价通过组织相关评价主体协作讨论数据信息,共同构建评价结论,并纳入新评价数据进行诠释与辩证循环,以输出发展性评价结论。这符合生成式人工智能人机对话特点,也满足“教—学—评”一体化的“循环建构”需求(Lay & Papadopoulos, 2007)。
2. 模型框架
鉴于人工智能教育大模型的运算基础与评价过程均根植于大数据分析,本研究采用“OSEMN(obtain,scrub,explore,model,interpret)大数据分析生命周期”(Byrne, 2017)构建“教—学—评”一体化人工智能教育大模型的基本框架,并新增“用户交互层(User)”,将评价结果应用于优化教师教学策略与学生学习方法,从而推动“教—学—评”一体化发展(见图 1)。大模型框架由六个层级组成,确保数据从收集、处理、分析、建模到解释与用户交互的全流程一体化。
1)基于多模态的数据获取层是实现评价育人功能的数据基础。第四代评价基于相对主义本体论,认为评价无客观真理,所谓“现实”与“真理”取决于评价内容的丰富性与评价者的建构。为充分开展综合素质评价,数据获取层通过有感化(如电脑、平板、手机等)和无感化(如点阵笔、高清摄像头等)物理终端设备,搜集学生素质的多模态数据,构建学生素质表现的数据全景视图。
2)整合数据预处理层、数据探索层与模型建构层的“1+N”分布式智能体系统是实现评价育人功能的核心架构。第四代评价的方法论为解释学—辩证主义(Hermeneutic-Dialecticism) ,主要包含发现和同化两个阶段,即先对学生素质数据进行认知理解,然后辩证分析得出有效评价。这两个阶段分别在“数据探索层”与“模型建构层”中进行,属于“数据认知”环节。然而,“数据感知”是“数据认知”的前提,需在数据预处理层开展。
人工智能教育大模型具备多模态数据的感知与认知能力,但同时处理这两项任务会增加计算压力,影响长期评价跟踪的任务效率。为此,本研究提出采用“1+N 分布式智能体系统”计算架构,将大模型的感知与认知能力解耦,以提升数据处理效率(陈露等, 2023)。在该架构中,大模型作为“认知中枢”,将感知任务分配给其它小模型,如音频转文本模型、视频转文本模型。这些模型分布在数据预处理层,当不同模态和格式的数据被转为文本数据后,再由人工智能教育大模型进行认知处理,形成 1 个认知模型与 N 个感知模型的分布式结构,增强大模型在综合素质评价中的效能。
数据认知是“教—学—评”一体化教育大模型的关键功能,也是实施第四代评价的主要步骤。在此环节,大模型主要负责数据的解释与辩证。在数据探索层,大模型对已转换为文本的数据进行解释。首先,长文本数据被分词处理转化为短词语,然后通过特征提取转换为向量数值,以便大模型理解;为捕捉词间的上下文关系,该系统使用 Transformer 架构编码向量,并通过分析编码关系,理解文本数据的整体含义,完成“发现”工作。
文本数据被解释后,数据进入模型建构层,执行“同化”任务。大模型依据评价目标为学生构建个性化评价模型,开展素质评价。区别于传统第四代评价由评价方、受益方与受伤害者协商建构,此处的协商建构由认知模型对学生数据进行多角度分析,最终形成综合评价结论。除初次评价外,其余阶段的评价模型都需进入诠释辩证循环,与旧数据模型进行讨论,达成共识后输出形成性评价结论,满足学习性评价需求。
3)面向多元评价的数据解释层是实现评价育人功能的内容载体。区别于前三代评价,第四代评价不仅强调各评价主体的参与,还需向其提供详尽的评价报告。在“教—学—评”一体化的人工智能教育大模型中,教师与学生是主要评价主体,数据解释层需为师生提供针对性反馈。为全面反映学生综合素质与个性特点,评价结果应总结学生在五育方面的表现,并涵盖个人发展特点,形成对学生综合素质的总结性评价(即学习的评价)。其次,评价结论应重视形成性评价(即学习性评价),反映学生的素质成长动态过程。发展建议在评价的育人功能中扮演着关键角色,模型应提供对教师教与学生学的改进建议,体现评价的激励功能(即学习式评价)。对教师的反馈涵盖教学方法、课堂管理和教学内容等方面的评估与建议;对学生的反馈聚焦学习过程和素质发展等方面,并提出具体策略和改进方向,旨在实现“以评促教”与“以评促学”。
4)走向人机共智的用户交互层是发挥评价育人功能的落脚点。“教—学—评”一体化发展是发挥评价育人作用的关键,其背后的决定性因素是人机共智的交互深度。在用户交互层,教师要根据数据解释层提供的评价与建议,结合自身教学经验和教育理念与大模型进行深度的人机交互,迭代优化下一阶段的教与学方案,从而开展新一阶段的“教—学—评”循环。在此过程中,教师应关注教与学之间的互动关系,引导学习发生,并根据学习进展调整教学内容,在动态发展中达成“教—学—评”的良性互动和一体发展。
未来展望
“教—学—评”一体化的人工智能教育大模型在综合素质评价实施中展现出显著优势,同时也带来新的挑战。推动综合素质评价与人工智能教育大模型的深度融合,提升大模型的评价质量并优化人机交互体验,仍是未来研究的重要方向。
(一)提供个性化高质量反馈
尽管大模型的评价能力接近真人教师,但目前的反馈质量仍未达到经验丰富教师的水平(Steiss, et al., 2024)。提高反馈质量需优化大模型训练的两个关键阶段:预训练和微调。在预训练阶段,教师需增加高质量评价对话的数据量,并通过奖励机制将高质量评价排序前置,强化模型生成优质反馈。此外,2024 年 9 月发布的 Open AIo1 证实,自我对弈强化学习(self-play reinforcement learning)能显著提升模型对专业问题回答的准确性(Jin, et al., 2023)。据此,教师可通过引入强化学习技术优化模型的评价准确性。在微调阶段,指令微调技术通过提供详细的任务描述,帮助模型准确理解任务要求,提高生成优质评价反馈的概率。同时,提供高质量的对话样本也可唤醒模型在预训练阶段习得的评价模式。
(二)构建人机协作和谐生态
技术作为一把双刃剑,对人类社会的影响是双面的。为构建人机协作的和谐生态,教师与学生必须学会正确使用大模型。第一,外部的政策制定和规范约束必不可少。考虑到生成式人工智能无法保证所生成内容的正确性,教师应限制低龄学生使用人工智能,以免学到错误的知识。联合国教科文组织 2023 年 7 月发布的《教育与研究领域生成式人工智能指南》,建议 13 岁以上的学生才可使用人工智能工具。其次,政策应强调算法的透明性与可解释性,防止算法黑箱与信息茧房等对学生个性化发展的影响。第二,企业应规范生成式人工智能平台设计,确保用户在使用前知晓工具功能与局限,即人工智能所生成的评价不可盲信;保障用户数据隐私安全,防止数据泄露对人机关系造成负面影响。第三,开展生成式人工智能培训,提升教师与学生的智能素养,帮助他们了解人工智能的原理与适用场景,避免发生“人工智能欺骗”等伦理问题。值得注意的是,相较于教师,学生对生成式人工智能抱有更积极的使用态度,这或许是因教师知识水平高,使其能更深刻地认识到大模型的潜在负面影响(Kamoun, et al., 2023)。因此,培训应重视学生对人工智能的全面理解。最后,使用者本人应持谨慎、辩证的态度,将人工智能作为评价的辅助工具,而非决策工具。总体而言,在技术与教育融合过程中,教师不仅要探索如何利用技术推动教育转型,还需审慎考虑技术可能带来的公平、隐私和伦理等问题,以期实现人与技术真正和谐共存。
更多资讯