Llama 3.1 405B 中文基准评测出炉!推理总分80.44,略超GPT-4 Turbo,不敌GPT-4o

文摘   科技   2024-07-24 19:18   浙江  

本测评结果仅用于学术研究。

Meta于7月23日发布Meta Llama 3.1 405B,并认为这是世界上最大、功能最强大开源基础模型。顶级开源模型Llama 3.1 405B的上下文长度扩展到了 128K、支持八种语言在常识、可操纵性、数学、工具使用和多语言翻译等方面可与 GPT-4、GPT-4o、Claude 3.5 Sonnet 等领先的闭源模型相媲美

针对公众关注的Llama 3.1 405B的中文性能问题,作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说,我们采用了中文数学多步推理测评基准(SuperCLUE-Math6,含2024题)中文等级化代码单元测试基准(SuperCLUE-Code3,包含1560个测试用例)对Llama 3.1 405B在数学和编程方面的能力进行了全面评估。

先说结论

结论1:在完成SuperCLUE推理任务时,Llama 3.1 405B的整体得分为88.44,超过GPT-4 Turbo,仅次于GPT-4o,暂据排行榜第二。

结论2:Llama 3.1 405BSC-Math6数学基准上得分91.19分,判定为推理等级5,与GPT-4o相比仅有0.58分的差距,领先其他模型。

结论3:Llama 3.1 405B在SC-Code3代码基准上得分69.68分,接近70分,较GPT-4 Turbo略高(0.11分),与GPT-4o有一定差距(2分)。

测评结果
SuperCLUE-Math6

SuperCLUE-Code3

更多模型测评信息,可加入SuperCLUE Llama 3.1 405B交流群。


Math6数据集申请方式:

请使用单位邮箱,将数据研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱,并承诺不向第三方提供。

邮箱: contact@superclue.ai,标题是:SuperCLUE-Math6测试集申请

Code3测评申请方式:

请使用单位邮箱发送邮件至contact@superclue.ai,标题:SuperCLUE-Code3测评

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE

[4] Math6地址:www.cluebenchmarks.com/superclue_math6.html

[5] Code3地址:www.cluebenchmarks.com/superclue_code3.html

   点击阅读原文,查看SuperCLUE排行榜

CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章