最强代码生成大模型前10榜单,国产占据2席。。。

科技   2024-11-28 09:02   美国  

你好,我是郭震

代码生成任务,对当前的所有大模型,仍然是一大挑战。

即使是表现最好的模型,强如Claude3.5, O1-preview,也很难保证每次生成代码都完全满足提问需求。

但,这并不妨碍我们使用它,作为编程辅助,蹭蹭的提升效率。

尤其是,程序员或对编程感兴趣的,使用AI辅助开发,使用AI找bug,已经成为日常一部分。

之前遇到开发问题,是谷歌一下,现在是AI一下。

问题来了,在如此众多的AI大模型里,哪些代码生成能力比较不错,值得我们去用的呢?

今天这篇文章就来分析下大模型的代码生成能力,对此关心的老铁,不妨阅读 。

在推荐代码生成的大模型前,咱们先来看看

1)如何评估AI的代码生成能力

2)评估常用的数据集。

1 评估指标

评估代码生成能力,最重要三个指标,代码功能正确率,代码可读性,多语言适应能力。如下图所示:

具体说来,

1)代码正确率关乎是否能够正确实现预期功能;

2)可读性让我们能方便理解和维护;

3)多语言转化能力,Python转C++,Java转C等准确率如何。

2 基准评估数据集

了解这些后,下面再看下代码评估常用数据集。

其中最常用的就是OpenAI提出的HumanEval,最基准的测试数据集。

HumanEval 包含一组编程问题,每个测试sample包括:

1)问题描述

2)自动化的测试用例

大模型需根据问题描述生成 Python 代码,评估测试用例的通过率(如 Pass@k)。

Pass@1 可以理解为模型一次通过率

Pass@5 模型重复生成5次答案,至少有一次答案通过。

3 下一代测评数据集

HumanEval很棒,但是目前也有很多研究者发现它有不少缺陷。

HumanEval 中以算法为导向的任务,真实世界的软件开发通常涉及多样化的库和函数调用。

此外,LLMs 在 HumanEval 上的表现容易受到数据污染和过拟合问题的影响,因此在评估 LLMs 的泛化能力方面,其可靠性较低。

为解决这些问题,目前还有些比较流行的下一代最新测评数据集,比如:BigCodeBench:

BigCodeBench该基准评估 LLMs 在解决实际且具有挑战性的编程任务中的表现,并避免数据污染问题。

具体而言,BigCodeBench 包含 1,140 个函数级别的任务,旨在考验 LLMs 根据指令执行任务的能力,并通过 139 个库中的多种函数调用进行工具式组合。

为了对 LLMs 进行严格评估,每个编程任务平均包含 5.6 个测试用例,且测试分支覆盖率高达 99%。

4 代码生成能力榜单

基于BigCodeBench数据集,目前大模型在此数据集表现排名榜单TOP,如下截图所示:

排名第一名的是,Athene-V2-Chat 。

很多老铁可能没有听过这个模型,它是由 Nexusflow 开发的一个开源大型语言模型(LLM),拥有 720 亿参数。

该模型基于阿里的 Qwen 2.5-72B-Instruct 进行训练,采用了强化学习人类反馈(RLHF)技术,在数学和编程等任务中表现出色。

看到排名第一的代码生成大模型,使用的底座是国产大模型,可能出乎了有些人的意料!

榜单中其他大模型,几乎被GPT4o、Claude3.5, O1-preview及不同版本霸榜。

在国产大模型中,占据2席,分别是Qwen2.5,DeepSeek-Coder,目前代码生成能力位于TOP10。

1)Qwen2.5-Coder版,阿里达摩院开发的代码语言模型,代码生成能力表现优秀。

2)DeepSeek,由深度求索公司开发,浙大毕业的一位AI博士创办的AI公司。

谷歌的Gemini也排到十名开外。

榜单10-20名,看到了Llama-3.1,Grok,DeeoSeek-Coder另一个版本,Mistral,

然后再次看到国产Qwen2.5-72B,阿里通义千问,这也是通用大模型中,代码表现能力最强的了。


参考文献:

1 https://arxiv.org/pdf/2405.04520v1
2 https://paperswithcode.com/sota/code-generation-on-humaneval
3 https://huggingface.co/blog/leaderboard-bigcodebench


推荐几个开源免费学习教程:

1 AI教程免费学习访问入口,教程全部由我本人整理:

https://zglg.work

更多开源教程访问网站免费学习

2 普通人了解AI应该做的最重要两件事:

1)应该先从AI工具使用开始

2)应该先了解AI基础名词

普通人了解AI大忌:

1)不应该上来就学AI理论

2)不应该排斥AI,认为AI无用

基于上面,我也花费不少时间,做了一个详细的开源教程:《普通人学AI指南》.PDF

咱们先别弄那些高深的AI理论,先玩熟AI基本概念、AI工具、自己电脑搭建AI和知识库。

PDF 指南思维导图

这个《普通人学AI指南》PDF,一共42页,都是我来编写的,完全开源,大家在我下面的公众号回复:AI,直接拿走。

3 如果想借助AI,更好进行代码编程练习,可以使用这个工具,免费好用

终于可以这样在线刷题、在线编程了,好用到爆!。。。

以上就是这篇文章。如果对你有用,随手点个赞、在看、转发三连吧,如果以后想第一时间收到推送,也可以给我个星标⭐。谢谢你看我的文章,咱们下篇文章再见。

点击阅读原文,从零学习AI



郭震AI
郭震,工作8年后到美读AI博士,努力分享一些最新且有料的AI。
 最新文章