GPT-4o mini中文基准评测出炉!超越GPT-4,领先GPT-3.5 Turbo 20分

文摘   科技   2024-07-25 16:53   浙江  

本测评结果仅用于学术研究。

7月18日,OpenAI发布了GPT-4o mini,称其为最具成本效益的小型模型,比前沿模型便宜一个数量级,且比GPT-3.5 Turbo便宜60%以上。GPT-4o mini具备卓越的文本智能和多模态推理能力,支持文本和视觉输入,以低成本和低延迟执行广泛任务。官方表示,其在文本智能和多模态推理方面的学术基准超越了GPT-3.5 Turbo和其他小型模型,并支持与GPT-4o相同的语言范围。

公众关注的GPT-4o mini的中文性能问题,作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说,我们采用了中文数学多步推理测评基准(SuperCLUE-Math6,含2024题)中文等级化代码单元测试基准(SuperCLUE-Code3,包含1560个测试用例)GPT-4o mini在数学和编程方面的能力进行了全面评估。

先说结论

结论1:在完成SuperCLUE中文推理任务时,GPT-4o mini的整体得分为76.77分,大幅超过GPT-3.5 Turbo(高20分),略超GPT-4(高0.7分),和GPT-4 Turbo相比有一定提升空间(低3.37分)。

结论2:GPT-4o mini在小学数学多步基准(SC-Math6)上得分89.67分,较GPT-4 提升1.27分,判定为推理等级5,得分更加接近GPT-4o。

结论3:GPT-4o在代码生成单元测试基准(SC-Code3)上得分63.87分,较GPT-4提升0.13分,和GPT-4 Turbo相比有较大的提升空间(低5.7分)。

测评结果
SuperCLUE-Math6

SuperCLUE-Code3

更多模型测评信息,可加入SuperCLUE-GPT-4o mini交流群。


Math6数据集申请方式:

请使用单位邮箱,将数据研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱,并承诺不向第三方提供。

邮箱: contact@superclue.ai,标题是:SuperCLUE-Math6测试集申请

Code3测评申请方式:

请使用单位邮箱发送邮件至contact@superclue.ai,标题:SuperCLUE-Code3测评

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE

[4] Math6地址:www.cluebenchmarks.com/superclue_math6.html

[5] Code3地址:www.cluebenchmarks.com/superclue_code3.html

   点击阅读原文,查看SuperCLUE排行榜

CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章