人工智能时代,学校的标准化选拔还有效吗?

文摘   2024-07-31 16:30   江苏  


去年,全球人工智能领域著名华人科学家李飞飞在一次公开演讲中说道:“从我在斯坦福大学任教以来,我一直对大学的招生办公室感到好奇。终于有一天,他们想找我聊一聊ChatGPT对招生的影响。我先问了我11岁的儿子:有了ChatGPT之后,我们应该如何筛选学生?如果申请人用ChatGPT写了一个非常棒的应用程序,我们还应该录取他吗?


“我11岁的儿子思考了一会儿回答道:我认为你们应该录取2000名最会使用ChatGPT的学生。


“一开始,我以为这是一个愚蠢的答案,但后来,我认为这个想法非常有趣。这一代的孩子们已经将人工智能视为一种工具,一个11岁的孩子不会考虑这意味着什么,但这恰恰在提醒我们已经不能把人工智能排除在教育之外。


当人工智能成为下一代人的新日常,传统的教育筛选机制是否还有效,我们还能从中找到优秀的人才吗?


萨尔曼·可汗(Salman Khan)是孟加拉和印度移民后裔,在麻省理工学院获得数学学士、电气工程与计算机科学学士及硕士学位后,在哈佛商学院获得了工商管理硕士。在一次对表妹的远程辅导后,他将授课实况制成视频传上网站分享,收到好评如潮。于是他在2009年辞去金融分析师的工作,专心建设旨在为全球学生提供免费在线教育的“可汗学院”。


作为可汗学院的创始人,萨尔曼·可汗应OpenAI联合创始人山姆·奥特曼(Sam Altman)之邀,成为世界上首批GPT-4测试者,深度体验了人工智能与教育的全方位融合,从而形成了他的独特思考。


萨尔曼·可汗在他的新书《教育新语》中陈述了这样一个观点:人工智能并没有给大学招生带来新的问题,而是迫使我们认识到现有大学招生机制的不足,同时提供了积极变革的可能性。


在这本书里,他探讨了“在人工智能时代应该教什么”和“如何有效学习”这两个核心问题,并提供了大量具体的案例,展示了人工智能在家庭教育和课堂内外的实际应用。他不仅分析了人工智能在个性化学习、课程设计、学生评估和教育公平性方面的应用,还着重讨论了人工智能对家庭教育的影响,指导家长如何在家庭环境中应用人工智能工具,更好地引导孩子学习,培养孩子自主学习的能力。


文摘编自《教育新语》,经出版社授权刊发。



原文作者丨[美]萨尔曼·可汗


《教育新语:人工智能时代教什么,怎么学》,[美]萨尔曼·可汗 著,万海鹏 / 王琦 译,中信出版集团,2024年7月。



我们还需要标准化测试吗?


在美国,抨击标准化测试已成为一种时尚。每个州都在每个学年结束时进行“总结性”测试,以衡量学生和学校的表现。人们经常批评这些测试过于狭隘,因为它们只针对生活中真正重要的东西的一小部分。这可能会给教育工作者造成压力,缩小他们在课堂上关注的范围。


这还不是全部。还有人认为,这些测试占用了学习时间,并且不具有可操作性。等到分数出来的时候,已经没有什么动力去关心他们在测试中的表现。另外,成绩的人口统计学差异也可能导致对某些群体或学校的偏见。随着教育变得越来越具有政治色彩,这些考试实际评估的内容缺乏透明度,这让人们产生了怀疑。


但事实上,如果我们要进行评价,标准化测试可以说更公平,因为它对每个人都适用相同的标准(与“非标准化”的评价相比)。如果问题在于测试所评估的内容太过狭隘,那么解决方案就应该扩大评估的范围并使其更加丰富,而不是完全放弃这些测试。同样,如果批评的焦点是可操作性或透明度,我们应该使测试更具可操作性和更透明。


最重要的是,尽管标准化测试并不完美,但取消这些测试真的会使事情变得更公平吗?如果一所为少数群体提供服务的学校不知道他们的学生在哪些方面落后以及如何落后,那么他们如何着手解决问题?对教育工作者、学生和家庭来说,知道自己的差距难道不是更好吗?无论如何,这些不足最终都会显现出来,很可能发生在多年以后,而那时再要弥补就难上加难了。更应该思考的是如何改进标准化测试,而不是试图完全取消它。


传统的标准化测试缺乏透明度和灵活性,这既是因为创建测试项目的费用高昂,也是因为这些项目必须确保安全;如果其中任何一个项目泄密,整个测试就会失效。另一方面,如果你有一个易于访问的在线平台,可以从一个庞大的题库中进行自适应测试,那么你就可以让更多的利益相关者随时尝试测试,而不会破坏测试。这 是因为自适应测试会根据每个学生在之前问题上的表现,为他们提供不同的问题序列。两个学生不太可能看到同一套题目。


生成式人工智能具有帮助解决所有这些问题的潜力。大语言模型还不足以完全独立创作出高质量的测试题目,但它们可以帮助出题人/审题人提高工作效率。最终,这将使我们能够用同样的资源设计出更多的试题,从而实现新一轮更加透明、更易获取的评价。


在历史上,要广泛评价这些更细微的任务,成本高得令人望而却步。即使是最基本的开放式试题,也需要专业的人类评审员使用复杂的评分标准和系统来确保一致性。类似于博士论文答辩或求职面试的更丰富的评价历来无法大规模进行。最新一代的大语言模型有可能让我们以更经济、更普适的方式进行这类丰富的评价。


当然,使用人工智能进行评价可能会引起人们的警惕。如果人工智能存在无法立即察觉的偏见怎么办?如果它犯了错误怎么办?我试图将这种假设与现状进行比较。目前的评价是由深思熟虑但容易犯错的人类完成的,他们都带有自己的偏见。


这并不是说我们应该盲目地认可人工智能评价。事实上,很多人会利用它做出一些糟糕的、充满偏见的评价。不过,通过适当的关怀、透明度和监管措施,我们就能降低风险,开发出比现在的评价更丰富、更准确、更公平的评价方式。这将对整个教育系统产生积极的影响,重新打开优质教育的大门,促使教育系统更加关注人的全面发展。





大学的筛选机制

还有效吗?


在美国,大学的筛选机制包括日常的学习成绩、标准化测试、课外活动、论文和推荐信。除了难以更改结果的学习成绩和标准化测试,课外活动、论文和推荐信一直是作弊的重灾区,在大语言模型出现之前就已如此。


2019年3月12日,美国破获了一起大学招生舞弊案,数十名富豪权贵被指控通过贿赂和欺诈手段,帮助子女进入包括耶鲁、斯坦福、加州洛杉矶分校等顶尖名校,这就是著名的“校园蓝调”丑闻。


“校园蓝调”的核心人物名叫威廉·辛格,他创办了一家名为“升学专家”(The Edge College Consulting)的咨询公司,专门伪造虚假的申请材料,专门帮助富裕家庭的孩子进入名校。


事实上,无论存不存在舞弊,富裕的学生都会在申请学校的阶段得到极大帮助。在硅谷,顶级顾问的收费大约是每小时400美元。协助一名学生完成一个大学录取周期的费用可达数万美元。这些水平较高的顾问会就如何处理课外活动和论文题目向学生提供建议,帮助选择大学,并就早期的论文草稿向学生提供周到的反馈。他们可能会对学生的论文进行大量修改,实质上是在替学生写论文。


显然,像ChatGPT这样的工具更容易为负担不起高价顾问的广大人群所使用。从积极的一面来看,生成式人工智能可以帮助缩小贫富差距。从消极的一面看,道德水平较低的学生很可能会尝试突破极限,使道德水平较高的学生处于不利地位。


招生负责人需要考虑的新问题是,学生提供的材料是否还具有说服力?


要解决这个问题,首先值得质疑的是,为什么要把论文和推荐信作为招生的一部分。在大多数国家,进入名牌大学是一个相当客观的过程。在印度,印度理工学院(IITs)的录取完全基于联合入学考试(JEE)。印度理工学院招收考试分数最高的学生,但也为一些代表性不足的群体设置配额。分数最高的学生不仅可以选择自己心仪的校区,还可以优先选择专业,录取不涉及论文、推荐信或课外活动等任何主观因素。


当然,美国的顶尖学府面临的情况有些不同,它们的申请者众多,如果只按照成绩排序,它们可以招到远超他们计划数量的,拥有完美成绩的学生。这迫使它们不得不采取一些主观的方式去评价学生,即通过论文、课外活动和推荐信来衡量学生的个性和背景。


学生是否克服了困难?他们看起来有协作精神吗?他们将来是否有可能对世界产生影响?对十七八岁的年轻人来说,这些都是很大、很深奥的问题。很多人都会怀疑,招生官能否根据一些受外界影响较大的文章和推荐信来判断学生的这些品质。


课外活动可以说是学生领导力或社会责任感更具体的体现,但这也很难判断。学生是靠自己的努力赢得了国际科学展吗?他们的研究课题是心脏病,而他们的母亲是一名心脏病学家,这是巧合吗?志愿者的工作是实质性工作,还是只是听起来让人印象深刻的工作?


这一切都导致了美国竞争激烈的大学招生中的随机性,任何参与过这一过程的人都清楚这一点。许多最聪明、最善于合作、最有才华的人被拒绝的次数远远超出了人们的预期。


访问任何一所顶尖大学,你都会遇到许多令人印象深刻的年轻人。同时,你也可能会遇到许多在学业上挣扎的学生,或者似乎没有体现出谦逊、协作或领导力等特质的学生。大多数人认为,这些学生非常善于在论文中构建关于自己的叙事,并在系统中进行博弈,或者他们的家庭很善于雇人帮他们做这件事。


我们需要有更标准化的方法来评价“软技能”,如领导力、协作和同理心。如果这些评价能够与准确评价学生学术能力的方法结合起来,将会更加美妙。这种思路早在人工智能出现之前就已经存在,但人工智能将把事情推向另一个高度。


纪录片《公正 》(Justice,2009)画面。

想象一下,如果全国每个人都有同一个老师。这个老师其实是一个很好的仲裁者,生成式人工智能就会是这个新老师。


人工智能代理甚至有可能亲自为学生担保,就像熟悉学生的老师一样。你可以这样想像 Khanmigo这样的人工智能助手已经与你合作了一段时间,它了解你的优势和爱好,并能拟真地描绘出有关你的动态图景。到了申请大学的时候,人工智能可以为你写推荐信。每一位使用该平台的学生的推荐信都是标准化的,只是它根据与每一位学习者相处的经验拥有不同的记忆。


过去,招生面试通常由与学生居住在同一地区的校友进行,并不是对所有候选学生进行统一面试,而且面试结果也存在相当大的差异。他们可以帮助招生官筛选出有明显问题的申请者,但对大部分在纸面上看起来很优秀的学生来说,面试起到的筛选作用很有限。


人工智能使这一过程的可扩展性、一致性和可审计性大大提高。在这种情况下,人工智能可以持续地总结学生与面试人员的互动情况,并根据招生办公室创建的评分标准从多个维度对其进行评分。


当然,这会引发双向偏见的担忧。有些偏见是你想要看到的。你希望这个过程人工智能将偏向于有思想、善于合作的年轻人,而不是出现性别、种族、宗教或地域偏见。百分之百无偏见的解决方案似乎是不可能的,但这不应该成为障碍。相反,任何人工智能系统都需要明显优于现实招生体系,而现实招生体系通常会涉及各种偏见。


这不是随便说说的,2023年6月29日,美国最高法院以6比2的投票结果裁定,哈佛大学的种族平衡招生政策歧视亚裔申请人,违反了美国宪法第十四修正案的平等保护条款。


这项诉讼持续了将近十年的时间,原告是学生公平录取组织(Students for Fair Admissions,简称SFFA)。2014年11月17日,该组织指控哈佛大学在本科生录取过程中对亚裔美国申请人采取了种族歧视政策,导致亚裔学生被录取的可能性低于其他族裔的学生。


事实上,在2018年联邦最高法院审理的一起案件中,明确证实哈佛大学的招生官一直对亚裔美国人申请者的个性特征评分较低,甚至常常武断地推翻面试官的观察结果。哈佛大学的录取程序从“学术”“课外”“体育”“个人”和“整体”五个方面对申请者进行评分,按照1到6分对学生进行排名,1分为最好。


白人申请者的个人评分高于亚裔美国人,21.3% 的白人申请者能获得1分或2分,而亚裔美国人只有17.6%的人获此分数。校友面试官给亚裔美国人的个人评分与白人申请者相当,但招生办公室给亚裔美国人的评分是所有种族群体中最差的。


在这场重大诉讼之后,这些数据才浮出水面。在大多数情况下,这个非常不透明的过程中蕴含的偏见被很好地隐藏了起来。基于人工智能的面试官和评审员的强大之处在于它们可以被审计。你可以用具有相同资质、不同人口统计学特征的申请者对它们进行测试,并公布结果,以确保不同种族、性别或背景之间的一致性。


人工智能并没有给大学招生带来新的问题,而是迫使我们认识到现有大学招生的不足,同时提供了积极变革的可能性。审慎地使用人工智能,再加上一点不断求索的勇气,或许能让我们迈向一个更加公平、更加透明的世界。



首席创鉴局
聚焦前沿一线专精特新企业,助力决策投资