OpenAI o1全方位SOTA登顶lmsys排行榜!数学能力碾压Claude和谷歌模型,o1-mini并列第一

文摘   2024-09-20 23:34   北京  

经过一周的激烈角逐,OpenAI的o1模型在lmsys排行榜上取得了显著的成绩。同时,为了满足公众对模型性能的好奇心,OpenAI公开了o1在测评中使用的所有代码。

备受期待的OpenAI o1模型在lmsys的测评中表现出色。

不出所料,o1-preview在各个领域均取得了领先地位,超越了GPT-4o的最新版本,在数学、复杂提示和编程领域尤为突出;

而o1-mini,尽管名字中有“mini”,却也与GPT-4o并列综合排名第二,同样在复杂提示、编程、数学等领域登顶。

lmsys社区官方在社交平台上表示,这项测试结果是基于6k+社区投票得出的,并将OpenAI的这一成就描述为“难以置信的里程碑”。

o1-preview在所有模型中的胜率均超过50%,尤其是与04-09版GPT-4-Turbo的对比中,胜率达到了88%。

o1-mini在与o1-preview的对决中胜率为46%,与09-03版GPT-4o的对决中胜率为48%,显示出两者实力相当。

值得注意的是,尽管Grok-2-mini和Claude 3.5 Sonnet的排名较为靠后,但o1-preview对这两个模型的胜率并不高,分别为58%和57%,远低于排名第四的Gemini 1.5 Pro的69%。

在细分领域的排行榜上,尤其是在数学/推理领域,o1-preview和o1-mini不仅登顶,还展现出了压倒性的优势。

o1推理团队的领导者之一William Fedus对这一成绩表示满意,他认为这“很好地用视觉表达了范式转换”。

最新的o1模型在STEM学科和通用推理方面确实达到了新的高度,用实际测评结果回应了外界的质疑。

“那就继续期待OpenAI接下来的发布吧!”

但一些人在感叹“未来可期”的同时,也有人担心自己的智商和头发。

同时,也有人对lmsys排行榜的结果表示质疑。

例如,o1模型的推理时间较长,与其他模型有明显差异;而且,lmsys社区的评分完全基于用户的主观评价,可能存在“安慰剂效应”。

还有人对o1在编程排行榜上的第一位置表示不服,认为虽然o1-mini适合项目规划,但在编程助手如Cursor中,Claude模型的表现更佳。

排行榜的结果并非全部,o1模型能否继续赢得口碑,同时保持智力水平,还需时间来证明。

IOI金牌代码全公开

o1模型在编程竞赛领域的出色表现引起了社区的极大兴趣,OpenAI因此公开了o1模型提交的代码内容,包括6个问题的完整C++代码及注释。

发文的yummy是o1模型的核心贡献者Alexander Wei。

对于o1的卓越表现,Alexander Wei本人也感到惊讶。

他在9年前参加了IOI竞赛,但从未想过自己会这么快就需要与AI竞争,模型展现出的推理过程的复杂程度令人印象深刻。

博文表示,虽然o1模型距离人类的顶级表现还有很长的路要走,但我们期待有一天能实现这个目标。

这个发展轨迹让人想起了AlphaGo——从水平高超,到能与人类顶级高手不分胜负,再到5-0完全碾压李世石。

OpenAI的目标可能是究极进化的、能在编程上碾压人类顶级高手的AlphaZero。

此处公布的6个问题代码如下:

有网友指出,其中最令人印象深刻的应该是象形文字问题,o1模型在现场的所有选手中排名第四。这表明,模型或许能够破译一些人类无法解决的子任务。

前几天,一位目前在NASA工作的天体物理学博士尝试让o1复现自己论文中的代码,结果令人惊讶—— 自己读博时花了1年写出的代码,o1只用了一小时就完成了。

这还只是裸模型,如果加上代码解释器、网络实时搜索等工具,效果将更加惊人。

而且,Reddit网友还送来了温馨提示:这只是o1预览版哦,可以狠狠期待一下不到一个月就即将问世的正式版o1了。

此外,这位网友还表示,o1基本沿用了GPT-4的架构;那么,改换架构后的GPT-5(也就是传说中的猎户座)能达到什么高度,令人期待。



我们有几十万私域用户,寻找有创意的AI硬件合作,比如AI玩具、AI眼镜、AI项链等等,与我们建立链接,共同发掘AI时代的红利~


前沿科技分享圈
这里汇聚了人工智能领域奋战在第一线的创业者和投资人,不同研究方向有不同的讨论小组,包括AI虚拟伴侣、AI情感咨询、人形机器人、文生视频、文生音乐、开源AI硬件等等,如果你也对这些领域感兴趣,欢迎加入!
 最新文章