本测评结果仅用于学术研究。
7月18日,OpenAI发布了GPT-4o mini,称其为最具成本效益的小型模型,比前沿模型便宜一个数量级,且比GPT-3.5 Turbo便宜60%以上。GPT-4o mini具备卓越的文本智能和多模态推理能力,支持文本和视觉输入,以低成本和低延迟执行广泛任务。官方表示,其在文本智能和多模态推理方面的学术基准超越了GPT-3.5 Turbo和其他小型模型,并支持与GPT-4o相同的语言范围。
针对公众关注的GPT-4o mini的中文性能问题,作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说,我们采用了中文数学多步推理测评基准(SuperCLUE-Math6,含2024题)和中文等级化代码单元测试基准(SuperCLUE-Code3,包含1560个测试用例),对GPT-4o mini在数学和编程方面的能力进行了全面评估。
先说结论
结论1:在完成SuperCLUE中文推理任务时,GPT-4o mini的整体得分为76.77分,大幅超过GPT-3.5 Turbo(高20分),略超GPT-4(高0.7分),和GPT-4 Turbo相比有一定提升空间(低3.37分)。
结论2:GPT-4o mini在小学数学多步基准(SC-Math6)上得分89.67分,较GPT-4 提升1.27分,判定为推理等级5,得分更加接近GPT-4o。
结论3:GPT-4o在代码生成单元测试基准(SC-Code3)上得分63.87分,较GPT-4提升0.13分,和GPT-4 Turbo相比有较大的提升空间(低5.7分)。
Math6数据集申请方式:
请使用单位邮箱,将数据研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱,并承诺不向第三方提供。
Code3测评申请方式:
请使用单位邮箱发送邮件至contact@superclue.ai,标题:SuperCLUE-Code3测评
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE
[4] Math6地址:www.cluebenchmarks.com/superclue_math6.html
[5] Code3地址:www.cluebenchmarks.com/superclue_code3.html