外媒震撼:千问2.5-Coder 刚刚改变了 AI 编程的游戏规则 - 而且它是免费的

文摘   2024-11-13 14:38   贵州  

阿里云发布了 Qwen2.5-Coder,这是一款新的 AI 编码助手,已成为 Hugging Face Spaces 上第二受欢迎的演示。早期测试表明,它的性能可与 GPT-4o 相媲美,并且可供开发人员免费使用。

该版本包括 6 个模型变体,从 5 亿到 320 亿个参数,使具有不同计算资源的开发人员能够访问高级 AI 编码。尽管面临先进半导体的出口限制,但这家中国科技公司仍取得了这一成就。

根据该团队在 arXiv 上的技术报告,Qwen2.5-Coder 的成功源于精细的数据处理、合成数据生成和平衡的训练数据集,从而在保持更广泛功能的同时生成强大的代码。

 AI 编码模型的比较显示,阿里巴巴的 Qwen2.5-Coder-32B(蓝色)在多个行业基准中表现优于 GPT-4 和其他竞争对手。来源:阿里云研究

最先进的性能提高了全球 AI 竞赛的赌注

旗舰模型 Qwen2.5-Coder-32B-Instruct 打破了以前开源编码助手的基准。它在 HumanEval 上得分为 92.7%,在 MBPP 上得分为 90.2%,这是衡量代码生成能力的两个关键指标。最令人印象深刻的是,它在 LiveCodeBench 上实现了 31.4% 的准确率,LiveCodeBench 是一个针对实际编程挑战测试 AI 模型的现代基准测试。

这一成就远远超出了典型的性能指标。虽然大多数 AI 编码助手专注于一两种流行的语言,如 Python 或 JavaScript,但 Qwen2.5-Coder 精通 92 种编程语言(从主流工具到 Haskell 和 Racket 等小众语言),这代表了 AI 多功能性的重大飞跃。

这种广泛的语言支持,再加上它处理存储库级代码完成和调试等复杂任务的能力,表明我们正在进入一个新时代,AI 编码助手可以真正作为通用编程伙伴发挥作用,而不仅仅是专门的工具。

 将阿里巴巴的 Qwen2.5-Coder 与领先的 AI 模型(包括 GPT-4 和 Claude 3.5)进行比较的基准测试结果。新模型(最左侧的列)在几个关键指标上取得了最高分,包括 HumanEval 上 92.7% 的准确率,超过了开源和专有竞争对手。来源:阿里云研究

开源战略可能重塑企业软件开发

与闭源竞争对手不同,大多数 Qwen2.5-Coder 模型都带有宽松的 Apache 2.0 许可证,允许公司自由地将它们集成到他们的产品中。这可以大大降低全球企业的开发成本,同时加速 AI 的采用。

该模型的功能超出了基本编码的范围。它擅长存储库级代码完成,了解多个文件的上下文,并且可以生成网站和数据可视化等可视化应用程序。

研究人员在他们的论文中解释说:“我们探索了 Qwen2.5-Coder 在两种场景中的实用性,包括代码助手和 Artifacts,其中一些示例展示了在真实场景中的潜在应用。

中国的人工智能创新无视美国芯片限制

此版本可能会从根本上改变 AI 辅助软件开发的经济性。虽然 OpenAI 和 Anthropic 等公司已经围绕对专有模型的订阅访问构建了他们的商业模式,但阿里巴巴开源 Qwen2.5-Coder 的决定创造了一种新的动力。

目前每年为 AI 编码帮助支付数十万美元的企业客户很快就可以用一小部分成本获得类似的功能。

这不仅挑战了现有的商业模式,还可能加速新兴市场中小型企业和开发人员对 AI 的采用,这些公司和开发人员已经被当前的 AI 热潮所淘汰。

向开源企业级 AI 工具的转变也给西方科技公司带来了战略问题。随着更复杂的开源替代方案的出现,维护 AI 服务的高价订阅模式可能越来越难以向企业客户证明其合理性。

鉴于美国对向中国出口芯片的持续限制,这一成就尤为重要。阿里巴巴的成功表明,中国科技公司已经找到了克服这些限制进行创新的方法,这可能会重塑全球人工智能竞争格局。

该模型的发布加剧了美国和中国之间的人工智能开发竞赛。虽然美国公司传统上在大型语言模型方面处于领先地位,但中国公司在编码和数学等专业领域的能力正日益接近或超过它们的能力。

阿里巴巴的研究人员计划探索扩大数据规模和模型规模,同时增强推理能力。这表明该公司并不满足于目前的成就,并打算进一步突破界限。

对于全球的开发人员和企业,Qwen2.5-Coder 在 AI 工具包中提供了一个新选项,它将最先进的性能与开源软件的自由度相结合。随着 AI 军备竞赛的持续加速,此版本可能标志着高级 AI 功能在全球范围内分发和访问方式的转变。

    关注+星标“硅基LIFE”,每日获取关于人工智能、芯片领域最新动态。 加微信fusion9000,进“硅基LIFE”粉丝交流群交流并接收实时滚动推送的最新信息  

硅基LIFE
每天推送全球关于芯片和人工智能的最新动态
 最新文章