GPT-4o 代码能力暴跌,开发者集体转投 Claude!

旅行   2024-11-24 07:00   北京  

数据显示:GPT-4o 在代码任务上的表现令人震惊!

开发者正在集体放弃新的 GPT-4o,这到底是怎么回事?

上图显示的数据太惊人了:GPT-4o 在编码平均分数上仅得到46.08分,是所有模型中表现最差的!

甚至不如开源的qwen 2.5(来自中国的公司阿里)!

这个结果让开发者们炸开了锅。

资深 AI 研究员 Air Katakana 直言不讳:

「我完全不信任 GPT-4o 的代码了。如果要在使用 GPT-4o 和等待 Claude 之间做选择,我宁愿等 Claude。我不想让 ChatGPT 搞砸我的代码。」

而这种抵制情绪正在开发者圈内迅速蔓延。

原因分析

为什么 GPT-4o 的代码能力会如此「掉链子」?

工程师 TDM 给出了两个可能的原因:

1. 可能是多模态训练数据的影响

  • 音频和视频数据的加入可能影响了模型在代码任务上的表现

2. 基础模型规模缩小

  • 为了节省基础设施成本,OpenAI 可能使用了更小的基础模型

这两点猜测都很有道理。毕竟在追求多模态能力的同时,模型的其他能力可能会受到影响。而使用更小的模型来节省成本,也是企业常用的策略。

数据对比

让我们来看看具体的性能对比数据:

  • 编码平均分数上,GPT-4o 仅得到46.08分

  • 推理平均分数上,各模型得分从35.33到68.00不等

  • 全球平均分数上,得分范围在42.00到60.33之间

这些数据清晰地展示了 GPT-4o 在代码相关任务上的短板。

开发者应对

面对这种情况,开发者们正在采取实际行动:

  • 暂停使用 GPT-4o 处理代码相关任务

  • 转向使用 Claude 等其他可靠的替代模型

  • 等待 OpenAI 对模型进行优化和改进

这个趋势表明,在人工智能工具的选择上,开发者们更注重实际效果而非品牌声誉。

看来在代码能力这个关键领域,OpenAI 还需要下一番功夫。

毕竟,没有人愿意用一个可能「搞砸代码」的 AI 助手。

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章