大模型参加高考，能否轻松上清北，还是需要复读？

文摘 2024-06-27 19:06 广东

今天涌现出众多大模型，它们的智力到底如何？—— GeekSavvy

过去，每当一个大模型版本的迭代更新，都会有一系列专业的测试，来评估其能力，以确定其在“我们眼中的地位”。今天，极客公园邀请了业界公认大模型能力天花板的 GPT-4o，以及国内8位强有力的对手来参加高考，看看它们的智力是轻轻松松上清北，还是需要复读？

考题：

2024年高考难度最高的新课标Ⅰ卷（高考大省河南使用的全套考题）

考生名单：

测试方法：

本次大模型高考模拟测试采用2024年高考新课标Ⅰ卷，难度级别是本次高考试卷中最大的，文理科满分总分为750分。河南省本科一批文科分数线为521分，理科分数线为511分；河南省本科二批文科分数线为428分，理科分数线为396分。

OpenAI的GPT-4o以562分的成绩勇夺文科状元，豆包、文心4.0分别获得第二第三名；百度的文心4.0以478.5分的成绩摘得理科状元，豆包、GPT-4o分别获得第二第三名。

9个考生的全部成绩统计：

图源来自：极客公园

根据考试结果（如上图），我们可以看到大模型在文科领域表现更加出色，其中 GPT-4o 以 562 分的高分领跑，这一成绩在河南这个高考竞争激烈的省份，足以超过一本线 41 分。紧随其后的是豆包，以 542.5 分的文科成绩稳居一本线之上，接着是文心 4.0 的 537.5 分，以及百小应，恰好达到了文科一本录取分数线的 521 分。在语文作文能力上，大模型的语文作文平均分46.8分，超过学生平均水平，显示出清晰的论述框架和逻辑。

图源来自：极客公园

然而，在理科方面，大模型的表现则略显逊色，最高分仅为 478.5 分，普遍比文科成绩低了 70 至 80 分，数数学最高分为GPT-4o的66分，理综中生物最高分为文心4.0的65分，物理和化学的平均分均不及格，显示出大模型在逻辑推理和复杂问题解决方面的不足。

图源来自：极客公园

在具体科目的表现上，英语无疑是大模型的强项，9个考生的平均分达到了惊人的 132 分（满分 150），几乎所有大模型在客观题上都接近满分，仅在作文部分略有失分。

图源来自：极客公园

与语言类学科形成鲜明对比的是，大模型在数理学科的表现则不尽如人意，无论是数学还是理综（物理、化学、生物），成绩普遍不及格，仅能正确解答部分客观题。在这种情况下，比较不同大模型在理科成绩上的优劣，其参考价值相对有限。

图源来自：极客公园

相比之下，大模型在文科领域的表现则要亮眼得多。例如，GPT-4o、字节豆包、文心 4.0 以及百川 4.0 在历史和政治两门学科上都能达到约 80 分的水平。特别是 GPT-4o 在文综科目上取得的 237 分，已经足以在考生中跻身中上水平。

图源来自：极客公园

这场非常全的国内大模型高考模拟测试，字节跳动的豆包在文科领域取得了令人瞩目的成绩。豆包的成绩不仅超越了一本线21分，而且还是在采用了地狱级难度的河南高考卷。在历史科目上，豆包的得分甚至超过了GPT-4o，显示出其在文科领域的强劲实力。

国内大模型似乎在数据方面具有优势，这在英语科目的成绩上也得到了体现。毕竟，语言翻译是大型语言模型（LLM）的强项，所有模型在这方面的表现都相当出色。

这次测试结果表明，对于文科学生的辅导和学习，国产的LLM，如豆包、文心4.0，已经具备了足够的能力。从文科教育的角度来看，预计明年会有越来越多的教育机构采用LLM进行教学辅助，这对那些教育资源相对匮乏的学生来说无疑是一大利好，尤其是在目前国内大多数LLM服务都是免费提供的情况下。

在理科成绩方面，所有模型都还有提升空间，因为推理和逻辑能力仍是当前LLM研究中的热点和难点。但其实物理和数学等科目对大模型本身来说无法很好完成，但通过调用专业的工具和资源，这些难题是完全能够得到有效解决。我们期待各大公司能够在产品层面进行进一步的优化和创新，以提升大模型在这些数理领域的逻辑推理能力和应用能力。

最后，我们来回答一下这9为考生是否能轻松上清北？结果是，尽管是目前公认能力最强的GPT-4o，还是国内头部大厂和新锐独角兽大模型，轻松上清北还是做不到的，只有在文科领域，GPT-4o、豆包、文心4.0、百小应达到本科一批水平，其他仅达到本科二批水平，而在理科领域，咱这边还是建议复读。

未来已来，将至已至！

http://mp.weixin.qq.com/s?__biz=MzkyNDYwMzg3OA==&mid=2247487317&idx=1&sn=44094124c72d8966f276dc6cc9a60f63

GeekSavvy

GeekSavvy是一个新世代AI极客社区，主要覆盖AI极客、创业者和投资人。我们会用Geek视角👉见识行业趋势、洞察AI产品和预见未来科技风向标🚀！

最新文章

这或许就是每位创业者最真实的经历

大厂裸辞靠AI年入百万后，不会编程的他用AI做出一个爆火App

从硅谷视角看智能体（AI Agent）！

从0到1开始创建全栈Web应用平台并免费运行它！

知识经济结束，已经悄悄来到配置经济！

智能体即将爆发，如何从中获利？

先被画饼再到PUA，我才明白职场的第一课

从0到1完成500万美元的收入经验分享

别再卷国内了，出海，赚美金吧！

一文深度了解Agent智能体以及认知架构

最新深度访谈 | YC CEO对话OpenAI CEO山姆奥特曼

RAG在未来会消失吗？附RAG的5种切分策略

在未来，通才和专家谁更有优势？

腾讯混元又悄悄开源两个模型，MoE和3D模型！

吴恩达 |《The Batch》推出关于AI万圣节特别版文章

首次公布三个月后，OpenAI正式推出ChatGPT search

AI创业的尽头还是广告/营销吗？

我们如何生活在社交媒体矩阵中...

设计为何如此重要，除非你不追求美！

AI能像人一样操控电脑了！熬夜实测Claude新版本，只能说太牛逼！！

打个喷嚏 achei~，谁又在想你了？

初创公司的产品应该开启收费吗？

情绪又可以释放了，「歌词爆改机」它来了！

初创团队正在丢掉自己仅存的一点优势！

揭秘Kimi探索版不好用的背后的原因

Sam Altman再一次被推向风口浪尖，人工智能安全再一次敲响警钟！

从AI搜索开始到AI信息官，我们只想实现一个事情…

OpenAI开源多Agent框架Swarm，熬夜实测整理出几大亮点！

Claude CEO的最新万字长文，比山姆奥特曼更理性实际！

马斯克Robot对话Kimi探索版，一起探索世界

国内首部以“生成式人工智能”为应用背景的知识产权标准，诚邀参编！

YC合伙人谈论如何撰写高转化率冷邮件 | 实用指南件

国外增长大佬专为新手设计的Google SEO 指南丨快速上手

NotebookLM+AI播客到底是什么神仙组合？

来自YC给创业公司商业模式和定价的学习指南

前Uber增长大佬Andrew的产品冷启动实用指南

不懂代码的人也可以用Cursor，5分钟快速完成一个简单的支付页面