数据显示:GPT-4o 在代码任务上的表现令人震惊!
开发者正在集体放弃新的 GPT-4o,这到底是怎么回事?
上图显示的数据太惊人了:GPT-4o 在编码平均分数上仅得到46.08分,是所有模型中表现最差的!
甚至不如开源的qwen 2.5(来自中国的公司阿里)!
这个结果让开发者们炸开了锅。
资深 AI 研究员 Air Katakana 直言不讳:
「我完全不信任 GPT-4o 的代码了。如果要在使用 GPT-4o 和等待 Claude 之间做选择,我宁愿等 Claude。我不想让 ChatGPT 搞砸我的代码。」
而这种抵制情绪正在开发者圈内迅速蔓延。
原因分析
为什么 GPT-4o 的代码能力会如此「掉链子」?
工程师 TDM 给出了两个可能的原因:
1. 可能是多模态训练数据的影响
音频和视频数据的加入可能影响了模型在代码任务上的表现
2. 基础模型规模缩小
为了节省基础设施成本,OpenAI 可能使用了更小的基础模型
这两点猜测都很有道理。毕竟在追求多模态能力的同时,模型的其他能力可能会受到影响。而使用更小的模型来节省成本,也是企业常用的策略。
数据对比
让我们来看看具体的性能对比数据:
在编码平均分数上,GPT-4o 仅得到46.08分
在推理平均分数上,各模型得分从35.33到68.00不等
在全球平均分数上,得分范围在42.00到60.33之间
这些数据清晰地展示了 GPT-4o 在代码相关任务上的短板。
开发者应对
面对这种情况,开发者们正在采取实际行动:
暂停使用 GPT-4o 处理代码相关任务
转向使用 Claude 等其他可靠的替代模型
等待 OpenAI 对模型进行优化和改进
这个趋势表明,在人工智能工具的选择上,开发者们更注重实际效果而非品牌声誉。
看来在代码能力这个关键领域,OpenAI 还需要下一番功夫。
毕竟,没有人愿意用一个可能「搞砸代码」的 AI 助手。
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!