首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

最强代码生成大模型前10榜单，国产占据2席。。。

科技 2024-11-28 09:02 美国

你好，我是郭震

代码生成任务，对当前的所有大模型，仍然是一大挑战。

即使是表现最好的模型，强如Claude3.5, O1-preview，也很难保证每次生成代码都完全满足提问需求。

但，这并不妨碍我们使用它，作为编程辅助，蹭蹭的提升效率。

尤其是，程序员或对编程感兴趣的，使用AI辅助开发，使用AI找bug，已经成为日常一部分。

之前遇到开发问题，是谷歌一下，现在是AI一下。

问题来了，在如此众多的AI大模型里，哪些代码生成能力比较不错，值得我们去用的呢？

今天这篇文章就来分析下大模型的代码生成能力，对此关心的老铁，不妨阅读。

在推荐代码生成的大模型前，咱们先来看看

1）如何评估AI的代码生成能力

2）评估常用的数据集。

1 评估指标

评估代码生成能力，最重要三个指标，代码功能正确率，代码可读性，多语言适应能力。如下图所示：

具体说来，

1）代码正确率关乎是否能够正确实现预期功能；

2）可读性让我们能方便理解和维护；

3）多语言转化能力，Python转C++，Java转C等准确率如何。

2 基准评估数据集

了解这些后，下面再看下代码评估常用数据集。

其中最常用的就是OpenAI提出的HumanEval，最基准的测试数据集。

HumanEval 包含一组编程问题，每个测试sample包括：

1）问题描述

2）自动化的测试用例

大模型需根据问题描述生成 Python 代码，评估测试用例的通过率（如 Pass@k）。

Pass@1 可以理解为模型一次通过率

Pass@5 模型重复生成5次答案，至少有一次答案通过。

3 下一代测评数据集

HumanEval很棒，但是目前也有很多研究者发现它有不少缺陷。

HumanEval 中以算法为导向的任务，真实世界的软件开发通常涉及多样化的库和函数调用。

此外，LLMs 在 HumanEval 上的表现容易受到数据污染和过拟合问题的影响，因此在评估 LLMs 的泛化能力方面，其可靠性较低。

为解决这些问题，目前还有些比较流行的下一代最新测评数据集，比如：BigCodeBench：

BigCodeBench该基准评估 LLMs 在解决实际且具有挑战性的编程任务中的表现，并避免数据污染问题。

具体而言，BigCodeBench 包含 1,140 个函数级别的任务，旨在考验 LLMs 根据指令执行任务的能力，并通过 139 个库中的多种函数调用进行工具式组合。

为了对 LLMs 进行严格评估，每个编程任务平均包含 5.6 个测试用例，且测试分支覆盖率高达 99%。

4 代码生成能力榜单

基于BigCodeBench数据集，目前大模型在此数据集表现排名榜单TOP，如下截图所示：

排名第一名的是，Athene-V2-Chat 。

很多老铁可能没有听过这个模型，它是由 Nexusflow 开发的一个开源大型语言模型（LLM），拥有 720 亿参数。

该模型基于阿里的 Qwen 2.5-72B-Instruct 进行训练，采用了强化学习人类反馈（RLHF）技术，在数学和编程等任务中表现出色。

看到排名第一的代码生成大模型，使用的底座是国产大模型，可能出乎了有些人的意料！

榜单中其他大模型，几乎被GPT4o、Claude3.5, O1-preview及不同版本霸榜。

在国产大模型中，占据2席，分别是Qwen2.5，DeepSeek-Coder，目前代码生成能力位于TOP10。

1）Qwen2.5-Coder版，阿里达摩院开发的代码语言模型，代码生成能力表现优秀。

2）DeepSeek，由深度求索公司开发，浙大毕业的一位AI博士创办的AI公司。

谷歌的Gemini也排到十名开外。

榜单10-20名，看到了Llama-3.1，Grok，DeeoSeek-Coder另一个版本，Mistral，

然后再次看到国产Qwen2.5-72B，阿里通义千问，这也是通用大模型中，代码表现能力最强的了。

参考文献：

1 https://arxiv.org/pdf/2405.04520v1

2 https://paperswithcode.com/sota/code-generation-on-humaneval

3 https://huggingface.co/blog/leaderboard-bigcodebench

推荐几个开源免费学习教程：

1 AI教程免费学习访问入口，教程全部由我本人整理：

https://zglg.work

更多开源教程访问网站免费学习

2 普通人了解AI应该做的最重要两件事：

1）应该先从AI工具使用开始

2）应该先了解AI基础名词

普通人了解AI大忌：

1）不应该上来就学AI理论

2）不应该排斥AI，认为AI无用

基于上面，我也花费不少时间，做了一个详细的开源教程：《普通人学AI指南》.PDF

咱们先别弄那些高深的AI理论，先玩熟AI基本概念、AI工具、自己电脑搭建AI和知识库。

PDF 指南思维导图

这个《普通人学AI指南》PDF，一共42页，都是我来编写的，完全开源，大家在我下面的公众号回复：AI，直接拿走。

3 如果想借助AI，更好进行代码编程练习，可以使用这个工具，免费好用：

终于可以这样在线刷题、在线编程了，好用到爆！。。。

以上就是这篇文章。如果对你有用，随手点个赞、在看、转发三连吧，如果以后想第一时间收到推送，也可以给我个星标⭐。谢谢你看我的文章，咱们下篇文章再见。

点击阅读原文，从零学习AI

郭震，工作8年后到美读AI博士，努力分享一些最新且有料的AI。

最新文章

自己电脑搭建AI大模型详细教程，支持通义千问、Llama3、接口调用等。

彻底爆了！阿里再次拿下第一！

腾讯版Sora开源，大模型继续狂飙。

天工AI彩页编辑器，让我体验了一把0帧起手

2024年中国AI初创公司，前30强榜单发布。

字节再送神助攻，大模型继续狂飙。

2024年国产大模型最强前10榜单发布。

团队准备解散了。

被字节起诉的田某，拿下今年AI最佳论文奖，戏剧拉满！附论文分析。。。

2024年值得去的50家互联网公司名单。。。

双非计算机硕士，投了109份简历，目前2个offer。。。

字节要求攻击大模型的实习生赔偿800万。。。

最强代码生成大模型前10榜单，国产占据2席。。。

大模型算法岗工资都是4开头了吗！。。。

国内12家主流大模型，谁是地表最强？亲测后发现是它！。。。

985计算机硕士，拿了10个offer。。。

字节2024年不同岗位的薪资表，差别蛮大。。。

终于可以这样在线刷题、在线编程了，好用到爆！。。。

文字转图表，这个AI工具秒杀PPT。。。

字节不同职级薪资待遇一览表。。。

他偷瞄的AI神器，竟是百度网盘的隐藏功能。。。

AI“底裤“被扒，百度文库上榜。。。

值得去的16家IT公司及待遇（西安篇）。。。

现在大专生年薪都35万了吗！。。。

飞行员薪资曝光，程序员看完后傻眼了。。。

值得去的20家国企名单（北京篇）。。。

值得去的15家IT公司及待遇（苏州篇）。。。

爆了！这个AI 应用开发。。。

值得去的25家IT公司及薪资（成都篇）。。。

值得去的20家央国企名单。。。

清华硕士8面字节，最后被拒。。。

爆了！阿里再次第一。。。

快手不同职级薪资待遇一览表。。。

程序员炒股亏了48万。。。

比亚迪在越南员工的薪资曝光。。。

值得去的20家IT公司及薪资（杭州篇）。。。

他19天副业收入过千。。。

拼多多不同职级薪资待遇一览表。。。

80w起！零成本快速入门大模型指南

来了！GPT4.0接入个人微信！！

全球顶尖AI人工智能大集合：ChatGPT、Midjourney、Suno、Luma等等

2024年民企前35强榜单一览表。。。

美团不同职级薪资待遇一览表。。。

纽约街头偶遇马云。。。

值得去的20家IT公司及薪资待遇（广州篇）

一条短视频赚了2154元（附教程）。。。

华为不同职级薪资待遇一览表。。。

值得去的30家IT公司（深圳篇）。。。

哇，OpenAI又一重磅功能来袭。。。

百度不同职级薪资一览表

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉