马斯克的Grok API 编程能力大超预期!

旅行   2024-11-07 08:00   北京  

Sentdex最新测评结果令人意外!

技术大牛Harrison Kinsley(@Sentdex)刚刚完成了对XAI的Grok-beta模型的基准测试,测试结果远超预期

强劲的性能表现

在修改过的内部Bigcodebench测试中,Grok-beta展现出了惊人的实力。这个基准测试包含了1140个编程提示,相当全面。

Sidney VanNess(@sidneyvanness) 对此评价:

这让我想起十多年前开始使用AWS服务的时候。当时有些服务看起来真的很贵,把业务建立在AWS平台上感觉风险很大。但我们赌的是他们的服务单位成本会比我们消耗的速度下降得更快。这个赌注总体来说是对的,现在看来历史可能会重演。

API定价结构详解

在定价方面,Grok-beta的收费为:

  • 输入:$5/1M tokens

  • 输出:$15/1M tokens

这比Sonnet 3.5($3/$15)略贵,也比GPT4o($2.5/$10)贵不少。整个基准测试的成本约为5美元

但Harrison表示,尽管价格较高,他仍会选择使用Grok。原因很简单:Grok在即时审核和模型对齐方面都更加开放。相比之下,o1-mini在处理基准测试中的普通问题时,有10%的拒绝率

Lil Gradient(@lil_gradient)关心性能问题:

API性能如何(每秒token数和首个token响应时间)?

Harrison回应说这些指标很难公平比较,因为不同服务商的性能会随负载变化而波动。

意外发现

在与OctoDB的讨论中,Harrison补充说明:

在bigcodebench测试中GPT-4o确实比claude-3.5表现更好。但这个结论需要限定条件,因为深入的编程基准测试并不多。虽然Bigcode是目前最好的编程基准测试,但它并不能完全代表编程能力。

对于这些模型的定价争议,Harrison表示:「考虑到这些模型能带来的价值,当前的价格其实都很便宜。」

Sidney分享了一个真实案例:他最近在起草一份复杂领域的专利,通过使用这些模型,法律费用可能降低了90%,因为他可以在交给律师审核之前完成大部分工作。

这个测试结果不仅展示了Grok-beta的实力,也让我们看到了AI编程助手的快速进步。

Harrison最后说到:

「他们才刚刚开始。」


👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章