AI对决高考全科目：超过一本线

文摘 2024-07-22 12:01 上海

7月17日，上海人工智能实验室公布了7个AI大模型的高考全科目测试结果，测试结果显示，书生・浦语2.0系列文曲星大模型、阿里通义千问大模型Qwen2-72B以及GPT-4o包揽文、理科前三甲；前三名AI“考生”的文、理科成绩分别超过了“一本”“二本”线（以今年高考人数最多的河南省的分数线为参考）。

得分情况

阿里通义千问大模型Qwen2-72B以546分的成绩荣获AI高考“文科状元”，浦语文曲星则以468.5分成为理科第一名，分别超过了“非开源国际插班生”GPT-4o（文科531分，理科467分）。同为国外机构发布的Mixtral 8x22B平均得分最少，弱于国内大模型的高考表现。

评测团队选取河南省录取批次线作为参考，对比了大模型得分与对应分数线。Qwen2-72B、浦语文曲星、GPT-4o的文科成绩均超越“一本线”，展现了大模型在语文、历史、地理、思想政治等科目上深厚的知识储备和理解能力。

理科成绩方面，AI“考生”整体表现弱于文科，体现了大模型在数理推理能力上普遍存在短板，但前三甲的理科成绩均超过二本分数线，具备巨大提升潜力。得益于研究团队在数学推理上的投入，浦语文曲星取得了468.5分的最高理科成绩，超过所有受测模型。

评测特点

全卷考试：进行全卷评分，而不只针对单一题型，且包括带图的高考题。

考前开源：评测覆盖的开源模型均为今年高考前开源的模型，排除泄题的可能性。

老师打分：邀请有高考阅卷经验的老师打分，确保评分和高考尽量一致。

完全公开：生成答案的代码、模型答卷、评分结果完全开源。

老师反馈

阅卷老师们一致认为，大模型与真人考生仍存在差距，虽然对于基础知识的掌握表现出色，但在逻辑推理和知识灵活应用方面，大模型仍然差强人意。具体而言，在作答主观题时，大模型往往无法完整理解题干，不明白代词指向，结果导致答非所问；解答数学题时，解题过程机械且逻辑性差，对于几何题，常出现与空间逻辑相违背的推断；对物理、化学实验理解肤浅，无法准确识别并运用实验器材。

此外，大模型也会伪造虚构内容，编造看似合理但实际不存在的诗句，或在存在明显计算错误的情况下之后不反思，“硬着头皮蒙”一个答案，均给阅卷老师带来了困扰。

来源｜上海人工智能实验室

编写｜张羽翔
审核｜尚健

http://mp.weixin.qq.com/s?__biz=Mzg2MjcwMTI4Nw==&mid=2247491782&idx=1&sn=505db651060d1258b07e45dc33e98086

上海市人工智能与社会发展研究会

上海市人工智能与社会发展研究会官方公众号，聚焦人工智能时代的前沿理论和现实议题，助力国家、城市、组织的数智化转型。

最新文章

美众议院AI工作组拟推行宽松的人工智能立法

智库报告 | 使用AI招聘工具的数据保护注意事项

特朗普当选会对美国AI监管带来什么影响？

美商务、能源两部门发布AI安全开发备忘录

美国电子隐私信息中心向FTC投诉OpenAI滥用消费者数据

美国限制对中国人工智能领域的投资

拜登签署首份人工智能国家安全备忘录

Google发布开源AI文本水印工具

智库报告 | 阻止大型科技公司垄断人工智能

东盟成立区域级CERT应对AI时代的网络威胁

顶级AI模型未达到欧盟AI法案标准

用AI检测AI合规？谷歌公开AI合规检查工具

智库报告 | Gen AI治理：一种360°全景式的弹性政策和监管方法

前沿|AI科学家获得诺贝尔物理学奖

OpenAI等116家企业签署欧盟《人工智能公约》

WEF发布《ChatWTO：生成式AI与国际贸易分析》

Meta、SAP等59家科技公司向欧盟签署公开信

警惕！那些隐藏在你业务中的AI风险

Meta抓取澳大利亚用户帖子训练AI

AI治理：如何应对黑箱透明度和可解释性的挑战？

AI-SPM购买指南：用于保护AI基础设施的9种安全态势管理工具

打击非法AI合成！国家网信办就人工智能生成合成内容标识征求意见

重磅新规！《网络安全技术人工智能生成合成内容标识方法》征求意见稿正式发布

OpenAI最强模型o1来了！多项性能碾压GPT-4o

OpenAI将推出新的AI模型草莓

美国商务部就军民两用AI报告规则征求意见

吸引近三成顶尖AI人才，中国AI创新硬实力如何？

标志性成果出炉！《人工智能安全治理框架》1.0版发布

澳大利亚发布自愿性AI安全标准

重磅！英、美、欧盟将签署首个具法律约束力的AI国际公约

OpenAI估值飙上千亿美元之际，创始人再抛全球AI基建计划

上海市经济和信息化委员会关于征集本市人工智能大模型垂直领域示范开放场景的通知

加州AI法案将尘埃落定，支持者与反对者争论激烈

帝国数据银行：仅有不到20%的日本企业使用生成式人工智能

澳大利亚：政府机构必须披露AI使用情况

白宫提出行动倡议：打击代替真人客服的AI聊天机器人

AI训练争议：X平台面临数据保护机构诉讼挑战

巴西启动40亿美元AI发展计划

X平台因使用个人用户数据训练AI被投诉

美国国务院：人工智能的人权风险管理

亚马逊推出新AI芯片，成本仅为英伟达一半

美欧英联合声明：反对AI市场垄断

挑战ChatGPT：Meta发布最新款大语言模型

微软、谷歌等14家科技巨头成立安全AI联盟

AI对决高考全科目：超过一本线

麻省理工：AI大模型缺乏推理能力

OpenAI收入揭秘：76%来自ChatGPT付费用户

美国提出新法案：打击AI剽窃与伪造

ChatGPT安全漏洞：用户对话可被轻易访问

韩国声明：支持使用自动驾驶汽车数据

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉