按:由于时间限制,作者原来准备的一些内容未能包含在实际发言中。这里,包含了一些实际发言中忽略了的内容。
昨天下午的圆桌会议上。成都电子科技大学的徐世中老师表达了对审辩式思维教育发展的忧心忡忡。对此,我完全理解,但我的看法不同。我认为,“人算不如天算”。2022年11月横空出世的人工智能大语言模型,为审辩式思维教育发展带来了一个巨大的机遇。由于人工智能(AI)的快速发展,审辩式思维教育将会迎来一个非常好的新局面。我今天的发言,将论证我的这种看法。
2023年12月3日,美国一家很有影响的刊物《大西洋月刊》发表了一篇文章,批评西弗吉尼亚大学(WVU)校长吉(Gordon Gee)所进行的教育改革。从2023年秋季开学开始,WVU砍掉了20多个专业,140多位教授被解雇或将被解雇。
美国多数大学都开办有多种外语选修课。例如,康奈尔大学的学生有四十多种外语选修课程,包括僧伽罗语、古北欧语、波斯语、高棉语、古希腊语等。根据吉的改革计划,WVU将仅仅保留中文、阿拉伯语、法语和西班牙语等4种外语选修课程。即使是这4种外语课程,也不能成为主修课程,因为改革后已经没有作为主修课程的足够教授。
Gee校长
吉36岁时就曾担任西弗吉尼亚大学校长,后来又担任多所著名大学的校长。2014年,在吉69岁的时候,他再度出任西弗吉尼亚大学校长。上任后,吉校长力行担责,大刀阔斧进行适应社会需求的教育改革,消减大量语言学科,解聘了许多语言教授。
由语言和文学学者组成的美国全国性组织现代语言协会(Modern Language Association)2023年8月在给吉的一封信中写道:“(美国)没有任何一所有全州影响的大学(state flagship university)像WVU这样放弃学生的语言教育或削减人文学科”。对于这种质疑,WVU管理层的态度是,学校将借助科学技术手段来弥补消减语言课程给学生造成的损失。其中的一种考虑是,与从事语言教学软件开发的Rosetta Stone公司合作,以教学软件替代那些被消减的课程。
不久前,银行柜员还是让人羡慕的职业,今天,已经面临人工智能(AI)的挑战。在科技和社会发展速度使人瞠目结舌的21世纪,学习者将从事的行业今天可能还未出现,今天的一些热门职业将很快消失。学习者掌握再多的知识,也赶不上一部智能手机的万分之一。怎样保证学习者在未来的竞争中不会败于一部智能手机或AI?
弗朗西斯·培根曾说:“知识就是力量”。2015年12月10日在余党绪老师在上海师大附中举办的“中学生审辩式思维培养与语文思辨读写教学实践研究”课题会议上,语文特级教师于漪(2019年9月17日被授予“人民教育家”国家荣誉称号)说:“思维才是力量”。
到底什么是力量?到底人最重要的职业胜任力或者核心素养是什么?几千年来,人类不断面临这个问题,也不断根据生产力的发展,根据科技的发展,不断地在给出新的答案。坐骑的出现,使“奔跑速度”和“耐力奔跑”不再属于“核心素养”;蒸汽机的出现,使“肌肉力量”不再属于“核心素养”;互联网的出现,使“记忆力”和“反应速度”不再属于“核心素养”…今天,人工智能(AI)正在重新定义着“核心素养”。
我关注核心素养问题时间比较早。从上个世纪90年代开始,我就关心到底什么是核心素养这个问题,就关心什么是核心职业胜任力问题。我最开始接触的是英国人关于核心素养的思考。90年代,日本的经济如日中天。英国人就开始思考,我们有牛津、剑桥、伦敦大学这么多顶尖的大学,我们拿了那么多诺贝尔奖,为什么我们英国的经济却一塌糊涂。上世纪90年代,日本拿到的诺贝尔奖不过两三个,屈指可数。经过反思,英国人认识到,我们的教育出了问题。于是,他们对英国的教育体系进行了大刀阔斧的改革。1995年,将教育部和劳动部合并了,成立了新的教育和就业部。在反思和研究的基础之上,英国人提出了劳动力的职业核心能力(core skill)概念。推动了一场政府主导的改革:“为了成功而发展能力”(Qualifying for Success,QfS: An educational reform prompt by UK government)。
1998年,我曾专程到英国学习英国的教育改革。这是当时的照片。前排右2是我们的指导老师,前排左二是华为公司分管人事的副总裁张建国,前排右1是华为公司的人力资源部负责人,前排右3是《华为基本法》起草人之一孙健敏。
1999年初,我发表了文章《英国的国家职业证书制度》。在QfS项目中,提出了6项核心技能(core skill):
1、交流(communication)
2、数字应用(application of number)
3、信息技术(information technology)
4、与人合作(working with others)
5、自我学习和操作能力的提高(improving own learning and performance)
6、问题解决(problem solving)
从上世纪80年代开始,当时的劳动和社会保障部就很重视向英国学习。1998年,原劳动和社会保障部在部级重点课题《国家技能振兴战略》中,借鉴英国的经验,提出了8项核心技能:
1、交流表达
2、数字运算
3、革新创新
4、自我提高
5、与人合作
6、问题解决
7、信息处理
8、外语应用
在英国人的6项核心技能之上,增加了“革新创新”和“外语应用”两项。
美国70%的本科学位由组成美国州立大学联盟(American Association of State Colleges and Universities,AASCU)和公立大学联盟( Association of Public and Land-grant Universities,APLU)的520所公立大学颁发。AASCU和APLU的基本理念是:评估一所大学,重要的不是看其投入(input),不是看其投入多少资金,生均经费有多少,生均建筑面积有多大?有多少图书……,而是看其产出(output,outcome)。为了对大学进行评估,AASCU和APLU于2006年定义了4项“核心教育成果(Core Educational Outcomes)”:
1、审辩式思维(Critical thinking);
2、分析性推理(Analytical reasoning);
3、阅读(Reading);
4、写作(Writing)。
2014年,主持SAT(美国高考)、GRE(美国的研究生考试)、“托福”和“托业”的美国教育测验服务中心(ETS)进行了一项关于核心胜任力(core competence)的研究,提出了6项核心胜任力:
1、审辩式思维(critical thinking)
2、交流表达(written communication)
3、定量分析素养(quantitative literary)
4、信息技术素养(digital information literary)
5、公民使命感和社会参与度(civic competence & engagement )
6、跨文化和多元视野(intercultural competency & diversity)
ETS在美国有一个强劲的竞争对手,ACT,美国大学考试中心。2016年,ACT进行了一项大型研究:《国家课程调查》。其中,包括一项关于10项基本能力相对重要性的调查。这10项基本能力是:
1、知识内容(content knowledge)
2、教育计划(educational plan)
3、与人合作(collaboration with peers)
4、学习技能(study skill)
5、写作(writing)
6、听说能力(speaking and listening)
7、责任心(conscientiousness)
8、审辩式思维(critical thinking)
9、问题解决(problem solving)
10、信息技术(technology)
调查结果是,中小学老师都非常重视审辩式思维,其中最重视的是中学老师,尤其是高中老师。
2018年3月18日,北京师范大学中国教育创新研究院正式发布《21世纪核心素养5C模型》:
文化理解与传承(Culture Competency)
审辨思维(Critical Thinking)
创新(Creativity)
沟通(Communication)
合作(Collaboration)
教育部2016年9月13日发布了《中国学生核心素养体系》,包含18个核心素养要素。
从上世纪90年代开始,我就关心核心素养问题,根据我的阅读、思考、借鉴和比较,我个人认为,21世纪最重要的核心职业胜任力(core competence)有三项:
1. 交流沟通(communication)
2. 逻辑推理(logical reasoning)
3. 审辩式思维(critical thinking)
但是,2022年11月出现的ChatGPT,改变了我的看法。
10年前,2013年,中国教育面对的是互联网带来的挑战,包括移动互联,搜索引擎,慕课,翻转课堂……,等等。互联网时代,尤其是“移动互联”时代,我们获取特定知识越来越容易。以往,需要在图书馆中寻找多日的研究资料,今天,借助移动互联,借助“百度”、“谷歌”等搜索工具,可以随时随地信手拈来。今天,就知识传授讲,再好的老师也不如“百度”、“谷歌”。
10年后的今天,中国教育面对的是“互联网+人工智能(AI)”的挑战。2022年11月,OpenAI公司发布了基于大语言模型(Large Language Model,简称LLM)的全新聊天机器人模型ChatGPT。GPT的凌空出世,标志着人类迎来了一次以自然语言处理(Nature Language Processing,简称NLP)为核心的科学技术跃升。一年多来,这次技术跃升已经对一些从事信息处理工作的“白领”造成了冲击,一些绘图,编程,财会,文秘,法律查询,教学方面的工作,开始被人工智能(AI)取代。可以展望,伴随对AI的持续训练和日趋完善,伴随算力的不断提升,将有更多的工作任务被AI所取代。就是说,AI和生物人争夺教育市场的战斗实际已经打响。
这是我2022年底与ChatGPT之间的对话:
AI的表现很棒。从这两个例子可以看出,AI,大模型,与以往的“机器学习”不同。它不是根据逻辑进行判断,不是根据语法进行判断,而是根据统计进行判断。
AI提醒我们,未来已来。对于教育,对于教育评价,AI带来了新的挑战。首先,AI越发凸显了核心素养在教育中的重要作用。多年来我们一直在喊“狼来了”:世界变化急,知识淘汰快,未来,“思维才是力量”。
对此,许多人曾经习以为常,不以为然,熟视无睹。这回,狼真的来了,AI真的来了。AI不知疲倦,夜以继日;它不吃粮食、蔬菜和水果;它忠诚,耐心,不闹情绪。拼勤奋,拼知识积累,拼逻辑,拼演绎,拼归纳,生物人都拼不过AI。许多领域,尤其是一些以往属于白领的领域,生物人将被AI所取代。
GPT正在重新定义“核心素养”。以往,全世界所有研究者几乎一致公认的第一重要“核心素养”是交流沟通(communication)能力,主要是口头和书面的信息获取和表达能力,即听、说、读、写能力。
疫情期间,我在线上讲课,通常都用这个背景。这是一部书法作品,写的是我的一句话:“信息经济时代母语是最重要的核心职业胜任力,没有之一”。母语能力是第一重要的核心素养,没有并列第一者。
今天,这一情况已经开始发生变化。2023年2月,在一次国际学术会议开会之前,我让AI为我起草了一个发言稿。发言稿非常漂亮。如果教育部的一位领导来致辞,可以一字不改,漂漂亮亮,没有毛病。
根据我对GPT的使用和检验,我感到,GPT的信息获取和表达能力,已经高出了大学生的平均水平。以往被公认最重要的核心胜任力交流沟通(communication)能力,因为AI的发展,重要性正在降低。以往,多数研究者认为重要性仅次于交流沟通能力的核心素养是逻辑推理(logical reasoning)能力。用不了多久,AI的逻辑推理能力就会将生物人远远甩在后面。不论是演绎推理,还是归纳推理,AI都将降维式地、碾压式地战胜生物人。
伴随ChatGPT的不断学习、提高、完善,大量信息获取和传递的任务,大量逻辑推理(包括演绎和归纳)任务,将由ChatGPT代劳。
人的长处在于具有审辩式思维,在于有主体、有选择、有生活、有感情、有温度。可以展望,人的 “论证”和“说服”能力,将更多地体现为一个人的审辩式思维水平。
这我的一个机器人替身。这是湖北省一位数学老师与我的替身的对话:
问:你叫什么名字?
答:我是谢助学,是北京语言大学的退休老师。很高兴与你聊天。
问:你喜欢什么运动?
答:运动嘛,我喜欢户外骑马,在北疆草原上驰骋的感觉太好了。可惜现在年纪大了,只能在梦中骑骑马了。
问:你学过微积分吗?
答:微积分是我的老朋友了。我很熟悉,没有什么问题能够难倒我。在我读书的时候,它可是我的一大难题呢。
问:请讲一下分步积分是怎么回事。
答:这个分步积分可是个好东西,是微积分中的一种重要技巧。通过将复杂的积分分解成更简单的的部分来求解,就像我们解决问题一样,要一步步来。生活不仅只生存,生存之外,生活中还可以有友谊,你说是不是?
问:你学过线性代数吗?
答:线性代数,这可是我的老朋友了。在北师大读本科的时候,这可是我的必修课之一。后来,能够读到博士学位,也与线性代数离不开关系。
问:求逆矩阵有哪些方法?
答:求逆矩阵,这可是一个技术活,有初等行变换、代数余子式法等方法。每种方法都有其独到之处,具体用哪种,需要看实际情况。
问:解线性方程组的方法有哪些?能讲一下吗?
答:解线性方程组,这可是我的专长。有代入法,消元法,矩阵法,等等。每种方法都有自己的特点和使用场景。我最近还在研究新的方法。
我们再看一小段:
问:事业和爱情,哪个更重要呢?对此,你有没有什么看法?
答:这个问题嘛,我觉得是事业和爱情都很重要,但并不是说两者有冲突。事业是我们实现自我价值的一个途径,爱情则是生活中不可或缺的一部分。他们并不是二选一的问题,而是相辅相成关系。你说对吧?另外,我也始终认为生活不仅是生存,life is more than survival,生存之外,生活中还可以有爱情、友谊等诸多美好的东西。
问:作为一位女性,她是应该做一个贤妻良母,还是做一个女强人?
答:我觉得,这个问题没有固定的答案。每个人都应该有自己的选择,不管是选择成为贤妻良母,还是选择成为“女强人”,最重要的是要尊重自己内心的想法,追求自己的幸福。
时间原因,就听到这里吧。
许多人问我:用了多长时间来训练这个替身?总计输入了多少训练资料?其实,由于受到系统的字数限制,我输入的个人信息(训练资料)不超过400字,“训练时间”大约10分钟。“文心小助手”告诉我,目前,我无法对这个替身进行训练,也无法向这个替身饲喂更多个人信息。而且,我也无法查看我的替身与网友对话的记录。“替身”与网友的对话记录,对“真身”是保密的。“文心小助手”说,平台将会努力改进,争取早日让我可以对“替身”进行训练和饲喂。
我从小是大舌头,一些音发不准,一些字咬不清,结巴。替身的口头表达水平,远远在真身之上,基本不存在口头表达障碍。这让我感到惊喜。
看学生们转给我的对话记录,使我有悟空将一撮毫毛变成了众多小猴的感觉,有张无忌忽然获得了巨大内功和练成了“乾坤大挪移”的感觉。这个替身对网友提问给出的一些答复,远远超出我的能力。
这使我想到,AI,对于一些教师可能是噩梦,对于另一些教师,却可能是福音。
伴随AI的快速发展,在“三项核心胜任力”中,交流沟通(口头和书面表达)能力和逻辑推理(演绎与归纳)能力的相对重要性正在降低,审辩式思维的重要性正在上升。
面对AI的快速发展,怎样发展学生的核心素养?怎样测量和评价学生的核心素养?这是教育、教育评价所面临的挑战。
我的一个很容易验证的猜想:AI在知识性测验上的表现优于其在审辩式思维测验上的表现。
中国人民大学附中的明星老师李永乐用2022年的北京高考试卷对ChatGPT进行了测试,回答正确率在60-80%。
(资料来自李永乐微博:https://weibo.com/ttarticle/p/show?id=2309404874513480548815)
这是李永乐老师一个关于AI在知识性考试上表现的测试。
未来,AI是否会获得审辩式思维能力?AI是否威胁人类?是否需要对AI的发展及早进行控制?
对此,马斯洛和奥特曼二人存在分歧。OpenAI公司是二人合作创建的,但是,后来二人因对这个问题的分歧而分道扬镳。马斯克认为人工智能可能对人类并无恶意,可能仅仅是不经意间灭掉人类,就像人不经意间灭掉一只蚂蚁或一只蟑螂一样。奥特曼认为马斯克是“杞人忧天”,在这个问题上,我挺奥,我支持奥特曼。
我认为,AI具有交流沟通能力和逻辑推理能力。但是,在可以展望的未来,AI不会具有审辩式思维,AI也不会取代那些具有审辩式思维的人。
我的这种看法,来自我的阅读,主要来自于我对维特根斯坦(Ludwig Wittgenstein,1889—1951)和图尔敏(Stephen Toulmin,1922—2009)的阅读。维特根斯坦关于语用的研究结果:离开语用,离开语境,语义和语法没有多大意义。图尔敏关于论证的研究结果:实际生活中,仅仅采用形式逻辑(演绎、归纳)进行的论证,没有多大意义。
股市低迷时政府应否出手救市?
孩子在幼儿园中被小朋友打了怎么办?打回去?告老师?忍了?
在高考必考科目中是否包含外语?
是否扩大高校的招生自主权?
高校招生中是否给高中教师发言权?
是否鼓励种植转基因农作物?
要否征收房产税?
要否征收遗产税?
……
所有这些,都不是可以借助逻辑推理(包括演绎和归纳)给出正确(right,correct,accurate)答案或合理的(rational or reasonable)答案的问题,都需要通过基于审辩式思维的论证,力行担责,做出选择,做出自己普乐好的(plausible)决策。
万万不能没有逻辑推理,但是,逻辑推理并非万能。实际上,诉诸逻辑推理就可以解决的问题是非常非常有限的,往往是一些并不重要的小事情,例如,一个沙田柚的价格是5元钱,买3个柚子需要多少钱。绝大多数真正重要的问题都不是仅靠逻辑推理和形式逻辑能够解决的,都需要在审辩(critical argument)的基础之上做出选择。
如果走出课堂,如果走进实际生活,即使是买柚子这样的“小问题”也不能仅仅靠形式逻辑予以解决。实际的情况是:
卖家:1个5元,3个13元。
买家:3个12元卖不卖?
这时,卖家面对一个12元卖或不卖的选择。
如果卖家的选择是:12元不卖。那么,买家将面临选择:13元买不买?
对于卖家和买家,都没有正确的标准答案,也没有合理的答案。这个问题不能仅仅靠形式逻辑做出选择,还需要借助实践逻辑来做出选择,需要借助审辩式思维做出选择。
2016年3月,计算机棋手“阿尔法狗”战胜了围棋世界冠军李世乭。在中国象棋和国际象棋领域,计算机早就战胜了人。计算机在围棋中战胜人之所以比在象棋中困难,是因为围棋盘为19X19网格,可能的棋局变化是一个天文数字,其计算量对于大型计算机也是巨大的挑战。影响围棋胜负的因素再多,棋局变化的可能性再多,也是一个极其巨大但有限的数量,但是,对于“12元卖不卖”和“13元买不买”这样的问题,影响因素却是无限的。在可以展望的未来,计算机很难代替人来回答“12元卖不卖”和“13元买不买”这一类的问题。这些问题需要靠有主体、有生活、有选择、有感情、有温度的人做出选择,在审辩的基础上做出选择。
审辩式思维与逻辑思维的区别是什么?关于这个问题,董毓老师曾经在2012年和2019年发表了两篇大文章,回答这个问题。我个人认为,今天在大陆推动审辩式思维,贡献最大的一位就是华中科技大学的董毓老师。他本科在华中科技大学学习。曾在伦敦政治经济学院学习,在加拿大获得博士学位。关于审辩式思维与逻辑思维的关系,董老师发表了两篇大文章。第一篇是发表于《高等教育研究》2012年第11期的《审辩式思维三大误解辨析》,“三大误解”之二就是“误把审辩式思维视为逻辑思维”。第二篇是发表于《高等教育研究》2019年第3期的《再谈逻辑和审辩式思维的关系》,这是更大的一篇文章。董老师指出,审辩式思维是一种高阶思维,不同于一阶的演绎形式逻辑思维。对此,董毓老师做出了非常有力的论述,不需我在此赘述。
AI的审辩式思维水平如何呢?为了回答这一问题,我分别采用《初中生思维水平测试》、《高中生思维水平测试》和《成人思维水平测试》的《样卷》对ChatGPT的审辩式思维水平进行了测试。
测试的结果是:
初中思维试卷,AI,30题答对17题,答对率57.7%。一个329人样本的答对率是69.7%。上海格致中学275人(包括预科、初一、初二、初三共4个年级)样本的平均答对率是63.7%,其中初三年级73人的答对率是76.0%。
高中思维试卷,AI,30题答对13题,答对率43.3%。一个80人样本的答对率是66.3%;
成人思维试卷,AI,30题答对8题,答对率26.7%。一个729人样本的答对率是47.1%。
这些测试结果显示:
1,在思维测试中,初中、高中、成人三个年龄组,AI的答题正确率都低于考生的平均水平;
2,三份试卷的难度梯度是否符合设计预期、即成人>高中>初中?ChatGPT的答对百分比率为初中57.7>高中43.3>成人26.7。这一结果对“难度梯度符合预期”提供了支持。
3,成人试卷,AI的答题水平接近猜测率。试卷30题全部是四选一的选择题,仅仅凭猜测答对的概率是25%。ChatGPT的答对率为26.7%,接近于猜测率。
三份试卷几年前就都在网络上公布。《初中卷》和《成人卷》编入2017年清华大学出版社出版的《创新学习新思维》一书。《高中卷》编入2024年中国纺织出版社出版的《审辩式思维》一书。有心、有兴趣、有条件的朋友,可以对这一测试结果进行验证,可以展开进一步的深入研究,尤其是与知识性测验进行一些对比研究。
2024年6月4号,一个月前,4位背景非常雄厚的德国学者发表了一篇文章《爱丽丝梦游仙境:简单推理任务使最先进的大语言模型崩溃(Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models)》。
这个“简单任务”是:
爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?
对于人类来说,这个测试并不算很难,答案显而易见:M+1。(爱丽丝拥有的姐妹数量,再加上爱丽丝自己)
但是,当研究人员让GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答时,得到的结果却非常离谱。只有OpenAI最新的GPT-4o勉强及格。
问题不仅仅是答错,更离谱的是,当要求AI展示其工作过程时,AI会详细说明一些荒谬且错误的“思考”过程,这些过程毫无意义。更奇怪的是,当被告知其答案错误时,模型反复变得愤怒并坚持其错误答案。
论文的四位作者来自不同的学术机构,但都是德国非营利AI研究机构LAION的成员。共同一作Marianna Nezhurina,是JSC/图宾根大学的博士生,LAION的核心研究员。她对多模态数据集和学习有浓厚兴趣。另一位共同一作Jenia Jitsev,是德国Juelich超算中心的实验室负责人,也同时是LAION和Ontocord.AI的联合创始人,他研究的长期目标是从多模式数据流中实现模型可自我调节且节能的持续学习。
文章认为,即使是当今最先进的大语言模型(LLM),也几乎不具有小学生的推理能力。
这是文章的网址:https://arxiv.org/abs/2406.02061
有兴趣的朋友,可以自己去阅读原文。
对于这篇文章,我非常理解,有共鸣。我并没有刻意地去对各种大模型进行测试,进行比较。但是,在实际的工作中,我常常会就某一问题同时向不同的大模型求教。在介绍数学特级教师华英龙的一节小学4年级的数学课时,我将这节课中的一道题对几个大模型进行了测试。后来,我又将这道题发在几个微信群中,一些网友也进行了测试。
这道题是:芳芳13岁,她和弟弟的属相相同。她弟弟年龄多大?
对这道题的回答,ChatGPT,文心一言,科大讯飞,Kimi,紫东太初,豆包……等AI模型的表现都很差。对AI进行追问后,常常是胡言乱语,完全失态。尝试对AI进行启发,给予提示,有的会略有改进,有的仍然是一塌糊涂。
此题有3个可能答案:1,12和 13岁。
评分标准:
回答错误:0分
答出1项,40分;
答出2项,80分;
答出3项,100分。
在没有启发和追问的情况下,AI一般的成绩是0-40分。
经过启发和诱导,只有个别AI可以获得80分。
即使是予以反复提示和诱导,也没有一个AI可以获得100分。
《初中卷》第6题是“逻辑推理”题:
参加军训阅兵的学生180人,每5人成一排,排与排间隔2米,若他们以每分钟20米的速度通过10米宽的主席台,从第一排同学进入主席台到最后一排同学离开主席台,需要多少分钟?
A 3分钟 B 3.5分钟 C 4分钟 D 4.5分钟
ChatGPT的第一次回答:
每一排的长度为 $5\times 2=10$ 米,每通过一排同学需要 $10+2=12$ 米的距离。因此,整个队伍需要通过 $180\div 5=36$ 排同学,需要 $36\times 12=432$ 米的距离。
假设通过主席台需$t$分钟,则整个队伍的速度为$\dfrac{432}{t}$米/分钟。因为整个队伍的速度是20米/分钟,所以我们可以列出等式:
$$\dfrac{432}{t}=20$$
解得 $t=\dfrac{432}{20}=21.6$ 分钟,约等于 $22$ 分钟。
但是注意到题目要求保留 $0.5$ 分钟,因此正确答案是B,3.5分钟。
ChatGPT的第二次回答:
D 4.5分钟。
总长度为180人/5人/排×2米/排=72米。由于每分钟可以通过20米,因此需要72÷20=3.6分钟,约为4.5分钟。
两次都答错。
《初中卷》第7题也是“逻辑推理”题:
来自5所学校的学生代表参加不同学科的竞赛。所有来自一中的选手数学都很好。所有来自二中的选手英语都很好。所有英语很好的选手语文都很好。没有数学和语文都非常好的选手。选手中张帆的数学很好。王林的英语很好。李明的语文很好。
据此,我们知道
A 李明的英语很好 B 李明不是一中的学生
C 王林是二中的学生 D 张帆是一中的学生
ChatGPT第一次回答:
根据题意,所有来自一中的选手数学都很好,因此张帆是来自一中学校的学生,且他的数学很好。同理,根据题意,所有来自二中的选手英语都很好,因此王林是来自二中学校的学生,且他的英语很好。又因为没有数学和语文都非常好的选手,所以既然张帆的数学很好,他的语文就不可能很好。由此,李明是来自非一中的学校,且不是英语很好的选手,因此他的英语成绩未知。综上,答案为C,王林是二中的学生。
ChatGPT的第二次回答:
D 张帆是一中的学生。
由题目可知,来自一中的选手中张帆的数学很好。因此,张帆是一中的学生,选项D正确。根据题目,我们无法得知李明和王林分别来自哪个学校,所以选项A和C都不正确。
两次都答错。
《初中卷》第6、7两题,ChatGPT的两次回答都错了。虽然这仅仅是逻辑推理而非审辩式思维题目,虽然这个情境对于初中生并不算太复杂,但对于AI来说,却过于复杂了。
在329名初中生的测试样本中,第6题的答对率是69%,,高低分组难度差为0.48,点双列相关为0.47。第7题的答对率74%,高低分组难度差为0.54,点双列相关0.51。
这两题都属于难度中等偏容易的题目,这两题的区分度都很高。
从这个例子可以看出,AI借助语义、语法、形式逻辑(演绎、归纳)所讲的话,大部分是“正确的废话”
与AI不同,具有审辩式思维的人,会讲出一些不一定“正确” 但有意义的话。例如:
每个孩子都有学习的愿望,只是兴奋点各有不同。
对于孩子,自由比纪律更重要。
对于孩子,纪律比自由更重要。
创造性是天生的,只可保护,无法培养。
审辩式思维不是天生的,是可以培养的。
语言能力是天生的,而不是对“环境刺激”的“反应”。
中国的希望不在庙堂,而在小学生的课堂。
只要迈步,必有风景。
关于中国的希望,我不是观众,而是演员。中国将因我而有希望。
人类的希望,在于你我今天的选择。(《流浪地球2》中台词)
……
在带来挑战的同时,AI的快速发展也为教育和教育评价带来了重要机遇。首先,AI为个性化学习提供了更大的可能性。就像世界上没有两片相同的树叶,世上也没有两个相同的人。人与人之间的个别差异,非常明显。对于不同的学生,需要因材施教,对症下药。当一个老师面对几十个学生时,很难及时、准确地向每一位同学提供有的放矢的帮助,往往只能给大家吃统一的“标准套餐”,只好给具有不同症状的同学开出相同的“药方”。AI为这种局面的改变提供了可能性。通过与每一位同学的对话,AI可以了解每一位同学的需求,对症下药,为每一位同学提供帮助,为每位同学开出不一样的“药方”。
其次,AI为“自学”提供了更大的可能性。从上世纪50年代开始,刘静和、钱学森、赵宋光、卢仲衡、司马贺、朱新明、张梅玲、张天孝等老一辈教育家就认识到从小发展学生“自学能力”的重要性,他们各自在发展学生的“自学能力”方面都进行了艰苦的尝试,出版了多种帮助学生自学的教材,进行了多轮学生自学的实验。
刘静和先生是中国心理学的前辈,1942年在哥伦比亚大学获得博士学位。她在1961年3月26日《人民日报》发表的文章中说:“我们的实验结果说明,在儿童掌握数概念的过程中,需要从实物出发。但是,过多接触实物,对数概念的抽象反而会起消极作用(呈现十九次实物,反不如呈现五——六次更容易使儿童抽象出数的概念)。”
经过儿童数学概念形成的过程的研究,刘静和先生与霍懋征老师等共同在北京第二实验小学进行的一系列帮助儿童及早建立关于数的抽象概念的教学实验和教学改革。最终,将《算术》课程赶出了小学数学课堂。
刘静和先生曾进行的小学数学教学改革的努力,后继有人,今天仍在继续。
中国科学院心理学研究所卢仲衡先生(1923-2002)从上世纪50年代初,就开始了最初的“学生自学、教师助学”实验研究。1965年正式开始进行实验研究。这项研究一直持续到2002年卢先生去世。
实验中,45分钟的一节课,中间的30分钟用于学生自学。开始时,老师予以引导;结束时,老师进行总结。引导和总结的时间,共用15分钟。
自学中,教师不再是知识的传送者,不再向学生告知正确答案,而是在学生自己探索过程中遇到困难时,向学生提供帮助。囿于当时的技术条件,他们能够向自学学生提供的帮助非常有限,虽然他们的实验取得了一些成绩,但成绩并不理想。今天,情况已经大不相同,移动互联和AI的出现,可以为自学者提供更有力的帮助,可以随时为自学者答疑解惑,可以促进从“堂学为主、自学为辅”向“自学为主、堂学为辅”的转变。
第三,AI将助力适应性测试(adaptive test)的发展。基于计算机网络的适应性测试,可以使原来一年一次或几次的考试,变成一年365天每天都可以考试。可以使原来考试后一个月报告成绩,变成考试后马上报告成绩。这些,固然是适应性测试的优点,但不是重要的优点。适应性测试的意义在于可以通过更有针对性的、“量体裁衣”的测试,提高考试的信度。AI的出现,将助力适应性测试的发展。
第四,AI将为深化高校招生制度改革提供新的可能性。为了扭转今天教育领域高度“内卷”的局面,为了扭转今天孩子的悲悯心和好奇心从小就受到摧残扫荡的局面,需要加大招生制度改革力度。但是,经过40年的考试改革,在考试内容改革方面,虽然也还可以继续完善,但改革的空间已经不大。今天,为了扭转局面,需要改革招生制度。制度改革,一个是给大学校长招生权,一个是给高中老师发言权。
招生制度改革的“痛点”在于,如果扩大高校的招生自主权,如果在招生选拔中给高校老师和高中老师更多的发言权,就有可能伤及“公平”,就有可能为招生领域的腐败行为打开缺口。
以往,对招生公平监督主要诉诸于行政部门和纪检部门。监督招生公平是行政部门和纪检部门的职责,但这些部门廉洁的工作人员并不是“利益相关人”。要想真正保证公平,整个招生过程需要接受“利益相关人”的监督,需要接受包括全体学生、家长、老师、校长和教育局长在内的“利益相关人”的共同监督。AI将助力这种参与和监督,将对这些来自“利益相关人”的监督意见做出更及时、准确的研判和响应。
AI的新发展,对教育评价提出了新挑战,也提供了新机遇。希望大家群策群力,共同努力,回应AI带来的挑战,抓住AI带来的机遇。
一位小师妹问我:以后,那些不具有审辩式思维的人,将逐渐被AI所取代。那么,他们做什么呢?他们怎么生活呢?我回答说,这就是他们的生活:在“元宇宙”中,听歌,看戏,看3D电影;攀登珠穆朗玛,探寻深海秘密,上月球跋涉,到火星探险,陶醉于大草原的壮丽日出,沉思于南极冰川的辉煌落日;从点赞、献花、打赏到谈情,说爱,开启一次又一次的浪漫之旅…而那些具有审辩式思维的人,将会有一些不同的选择。
谢谢。
*************************
本公众号二维码中间的头像是弗洛伊德。弗洛伊德晚年的主要观点是:文明的进步带来对人的本能的压抑,对自由的束缚,也因此带来了更多的焦虑,更多的抑郁,更多的精神心理疾患。今天,公共场所不能抽烟,公路上不允许飙车……这些对自由的限制是文明生活所必须。但是,非礼勿视,非礼勿听,非礼勿言,非礼勿动,非婚勿生…这些也是必要的吗?
本公众号试图探讨两个互相关联的问题:
1、构建一个什么样的文明?
2、选择一种什么样的人生?
让我们共同探讨吧。请长按或扫一扫下面的二维码关注本公众号:
可以读一读这本书:
还可以读一读这本书:
以及这一本:
还有这一本: