今天涌现出众多大模型,它们的智力到底如何?—— GeekSavvy
过去,每当一个大模型版本的迭代更新,都会有一系列专业的测试,来评估其能力,以确定其在“我们眼中的地位”。今天,极客公园邀请了业界公认大模型能力天花板的 GPT-4o,以及国内8位强有力的对手来参加高考,看看它们的智力是轻轻松松上清北,还是需要复读?
考题:
2024年高考难度最高的新课标Ⅰ卷(高考大省河南使用的全套考题)
考生名单:
测试方法:
本次大模型高考模拟测试采用2024年高考新课标Ⅰ卷,难度级别是本次高考试卷中最大的,文理科满分总分为750分。河南省本科一批文科分数线为521分,理科分数线为511分;河南省本科二批文科分数线为428分,理科分数线为396分。
OpenAI的GPT-4o以562分的成绩勇夺文科状元,豆包、文心4.0分别获得第二第三名;百度的文心4.0以478.5分的成绩摘得理科状元,豆包、GPT-4o分别获得第二第三名。
9个考生的全部成绩统计:
图源来自:极客公园
根据考试结果(如上图),我们可以看到大模型在文科领域表现更加出色,其中 GPT-4o 以 562 分的高分领跑,这一成绩在河南这个高考竞争激烈的省份,足以超过一本线 41 分。紧随其后的是豆包,以 542.5 分的文科成绩稳居一本线之上,接着是文心 4.0 的 537.5 分,以及百小应,恰好达到了文科一本录取分数线的 521 分。在语文作文能力上,大模型的语文作文平均分46.8分,超过学生平均水平,显示出清晰的论述框架和逻辑。
图源来自:极客公园
然而,在理科方面,大模型的表现则略显逊色,最高分仅为 478.5 分,普遍比文科成绩低了 70 至 80 分,数数学最高分为GPT-4o的66分,理综中生物最高分为文心4.0的65分,物理和化学的平均分均不及格,显示出大模型在逻辑推理和复杂问题解决方面的不足。
图源来自:极客公园
在具体科目的表现上,英语无疑是大模型的强项,9个考生的平均分达到了惊人的 132 分(满分 150),几乎所有大模型在客观题上都接近满分,仅在作文部分略有失分。
图源来自:极客公园
与语言类学科形成鲜明对比的是,大模型在数理学科的表现则不尽如人意,无论是数学还是理综(物理、化学、生物),成绩普遍不及格,仅能正确解答部分客观题。在这种情况下,比较不同大模型在理科成绩上的优劣,其参考价值相对有限。
图源来自:极客公园
相比之下,大模型在文科领域的表现则要亮眼得多。例如,GPT-4o、字节豆包、文心 4.0 以及百川 4.0 在历史和政治两门学科上都能达到约 80 分的水平。特别是 GPT-4o 在文综科目上取得的 237 分,已经足以在考生中跻身中上水平。
图源来自:极客公园
这场非常全的国内大模型高考模拟测试,字节跳动的豆包在文科领域取得了令人瞩目的成绩。豆包的成绩不仅超越了一本线21分,而且还是在采用了地狱级难度的河南高考卷。在历史科目上,豆包的得分甚至超过了GPT-4o,显示出其在文科领域的强劲实力。
国内大模型似乎在数据方面具有优势,这在英语科目的成绩上也得到了体现。毕竟,语言翻译是大型语言模型(LLM)的强项,所有模型在这方面的表现都相当出色。
这次测试结果表明,对于文科学生的辅导和学习,国产的LLM,如豆包、文心4.0,已经具备了足够的能力。从文科教育的角度来看,预计明年会有越来越多的教育机构采用LLM进行教学辅助,这对那些教育资源相对匮乏的学生来说无疑是一大利好,尤其是在目前国内大多数LLM服务都是免费提供的情况下。
在理科成绩方面,所有模型都还有提升空间,因为推理和逻辑能力仍是当前LLM研究中的热点和难点。但其实物理和数学等科目对大模型本身来说无法很好完成,但通过调用专业的工具和资源,这些难题是完全能够得到有效解决。我们期待各大公司能够在产品层面进行进一步的优化和创新,以提升大模型在这些数理领域的逻辑推理能力和应用能力。
最后,我们来回答一下这9为考生是否能轻松上清北?结果是,尽管是目前公认能力最强的GPT-4o,还是国内头部大厂和新锐独角兽大模型,轻松上清北还是做不到的,只有在文科领域,GPT-4o、豆包、文心4.0、百小应达到本科一批水平,其他仅达到本科二批水平,而在理科领域,咱这边还是建议复读。
未来已来,将至已至!