Yi-Coder 9B、1.5B:最佳小型开源编码LLM就在这里!(击败 DeepSeek、Qwen 及其他)

科技   2024-09-07 21:17   湖南  

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

最近有一个新的代码模型引起了大家的关注,这次它是 Yi-Coder。如果你还不知道 Yi 模型,那么让我告诉你,它们一直是主要的开源模型之一。

他们有一个表现非常好的通用开源模型,曾经在排行榜上名列前茅,且已经推出了一段时间。

但现在他们推出了他们的新模型 Yi-CoderYi-Coder 是一系列开源的代码语言模型,能够在不到 100 亿参数的情况下提供最先进的编码性能。

本次发布的有两个特定的代码模型,第一个是相对较大的 90 亿参数模型,另一个是较小的 15 亿参数模型。这非常酷,因为这两个模型都可以在普通电脑上运行。

1.5B 模型应该非常适合自动补全和基础编码任务,因为它可以在任何电脑上运行。此外,它还具有 128k tokens 的最大上下文窗口,能够实现项目级别的代码理解和生成。

它们还表示,Yi-Coder 9B 的表现优于其他参数少于 100 亿的模型,例如 CodeQwen1.5 7B 和 CodeGeeks4 9B,甚至达到与 DeepSeek Coder 33B 相媲美的性能。

现在我们来看看基准测试。首先,他们分享了实时代码基准测试。

如你所见,在这次基准测试中,它超越了同范围内的所有模型,甚至击败了 DeepSeek Coder 33B,这真的很酷,考虑到它的体积是 DeepSeek 模型的三分之一。

此外,还有其他基准测试,包括 HumanEval、MBPP 和 CRUXEval-O:

在 HumanEval 基准测试中,模型没有表现出非凡的表现,甚至得分低于 CodeQwen,这有点不太好。但在 MBPP 和 CRUXEval-O 中,它们拿下了第一,得分高于其他所有模型,这挺不错的。

在 CrossCodEval 基准测试中,它也表现得非常好。

在 Aider LLM排行榜 基准测试中,它也表现得很好,这也很不错。

它在推理方面也表现得很好,这非常棒。该模型还可以在本地使用 Ollama,如果你想试试的话。

这基本就是全部内容了,但我们也需要测试一下它是否真的像他们说的那样好用。所以我们开始测试吧,我会使用这六个编程问题来看看它是否真的很好用。让我们开始吧。

第一个问题是创建一个包含一个按钮的 HTML 页面,点击按钮时会爆炸出彩纸。你也可以使用 CSS 和 JS。我们发送并看看结果。它正在生成,完成了。以下是 1.5B 和 9B 模型的结果。

我们先来预览 1.5B 模型的结果,

你可以看到这根本不起作用,所以这是一个失败。

现在我们来看一下 9B 版本的结果,你可以看到这也不起作用,

所以这也是一个失败。我们将两者都标记为失败。

现在下一个问题是创建一个 Python 程序,基于用户输入打印下几个闰年。我们发送并看看结果。好吧,生成结果出来了,我们来运行一下看看。好吧,它运行了,但没有要求输入,而我在输入提示中明确要求了这一点。

不过考虑到它的体积如此之小,我会给它通过。现在我们来运行第二个结果,它要求输入,我们提供输入,结果看起来也不错。所以我会让两者都通过。

现在下一个问题是生成蝴蝶的 SVG 代码。我们发送并看看结果。以下是生成结果,我们先预览 1.5B 的结果,你可以看到这看起来不像蝴蝶,

所以这是一个失败。现在我们来预览 9B 的结果,你可以看到这看起来有点像蝴蝶,所以考虑到它的体积,我会让它通过。

现在下一个问题是为一家 AI 公司创建一个登陆页面,页面应包含四个部分:标题、横幅、功能和联系我们。确保页面看起来时尚和现代。你可以使用 HTML、CSS、JS。我们发送并看看结果。以下是生成结果,我们来预览一下。

1.5B 版本看起来还行。现在我们看看 9B 版本的结果。预览显示页面不太好,

它没有功能部分、联系我们部分,而且看起来也不好。所以这是一个失败。

现在下一个问题是用 Python 编写一个在终端中运行的生命游戏。我们发送并看看结果。好吧,生成结果出来了,我们来运行一下看看。你可以看到它不起作用并且产生了错误,所以这是一个失败。

现在我们来看看 9B 版本的结果,这个也不起作用,所以这也是一个失败。

现在下一个问题是使用 HTML、CSS、JS 编写一个待办事项应用程序,并将所有内容放在一个文件中。

1.5B 版本结果显示,它不起作用,所以这是一个失败。现在我们来看看 7B 模型的生成结果,这个也不起作用,所以这也是一个失败。

现在是最终的总结图表,如你所见,1.5B 模型只通过了两个问题,9B 模型也只通过了两个问题。所以我认为这些模型还可以,考虑到它们的体积,但我认为它们本可以更好。

1.5B 模型对于其体积来说相当不错,可能适用于自动补全和类似任务,而 9B 模型也不错,但也有限制。我不太确定 9B 模型的实际定位在哪里,我认为它可能适用于小规模重构以及 1.5B 模型无法完成的任务。

两个模型都有一些不错的使用场景,我特别喜欢 1.5B 模型。总体来说,这非常酷。

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

参考链接:
[1] huggingface:https://huggingface.co/blog/lorinma/yi-coder
[2] video:https://www.youtube.com/watch?v=XQj3RyK-v0Y

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
 最新文章