经过一周的激烈角逐,OpenAI的o1模型在lmsys排行榜上取得了显著的成绩。同时,为了满足公众对模型性能的好奇心,OpenAI公开了o1在测评中使用的所有代码。
备受期待的OpenAI o1模型在lmsys的测评中表现出色。
不出所料,o1-preview在各个领域均取得了领先地位,超越了GPT-4o的最新版本,在数学、复杂提示和编程领域尤为突出;
而o1-mini,尽管名字中有“mini”,却也与GPT-4o并列综合排名第二,同样在复杂提示、编程、数学等领域登顶。
lmsys社区官方在社交平台上表示,这项测试结果是基于6k+社区投票得出的,并将OpenAI的这一成就描述为“难以置信的里程碑”。
o1-preview在所有模型中的胜率均超过50%,尤其是与04-09版GPT-4-Turbo的对比中,胜率达到了88%。
o1-mini在与o1-preview的对决中胜率为46%,与09-03版GPT-4o的对决中胜率为48%,显示出两者实力相当。
值得注意的是,尽管Grok-2-mini和Claude 3.5 Sonnet的排名较为靠后,但o1-preview对这两个模型的胜率并不高,分别为58%和57%,远低于排名第四的Gemini 1.5 Pro的69%。
在细分领域的排行榜上,尤其是在数学/推理领域,o1-preview和o1-mini不仅登顶,还展现出了压倒性的优势。
o1推理团队的领导者之一William Fedus对这一成绩表示满意,他认为这“很好地用视觉表达了范式转换”。
最新的o1模型在STEM学科和通用推理方面确实达到了新的高度,用实际测评结果回应了外界的质疑。
“那就继续期待OpenAI接下来的发布吧!”
但一些人在感叹“未来可期”的同时,也有人担心自己的智商和头发。
同时,也有人对lmsys排行榜的结果表示质疑。
例如,o1模型的推理时间较长,与其他模型有明显差异;而且,lmsys社区的评分完全基于用户的主观评价,可能存在“安慰剂效应”。
还有人对o1在编程排行榜上的第一位置表示不服,认为虽然o1-mini适合项目规划,但在编程助手如Cursor中,Claude模型的表现更佳。
排行榜的结果并非全部,o1模型能否继续赢得口碑,同时保持智力水平,还需时间来证明。
IOI金牌代码全公开
o1模型在编程竞赛领域的出色表现引起了社区的极大兴趣,OpenAI因此公开了o1模型提交的代码内容,包括6个问题的完整C++代码及注释。
发文的yummy是o1模型的核心贡献者Alexander Wei。
对于o1的卓越表现,Alexander Wei本人也感到惊讶。
他在9年前参加了IOI竞赛,但从未想过自己会这么快就需要与AI竞争,模型展现出的推理过程的复杂程度令人印象深刻。
博文表示,虽然o1模型距离人类的顶级表现还有很长的路要走,但我们期待有一天能实现这个目标。
这个发展轨迹让人想起了AlphaGo——从水平高超,到能与人类顶级高手不分胜负,再到5-0完全碾压李世石。
OpenAI的目标可能是究极进化的、能在编程上碾压人类顶级高手的AlphaZero。
此处公布的6个问题代码如下:
有网友指出,其中最令人印象深刻的应该是象形文字问题,o1模型在现场的所有选手中排名第四。这表明,模型或许能够破译一些人类无法解决的子任务。
前几天,一位目前在NASA工作的天体物理学博士尝试让o1复现自己论文中的代码,结果令人惊讶—— 自己读博时花了1年写出的代码,o1只用了一小时就完成了。
这还只是裸模型,如果加上代码解释器、网络实时搜索等工具,效果将更加惊人。
而且,Reddit网友还送来了温馨提示:这只是o1预览版哦,可以狠狠期待一下不到一个月就即将问世的正式版o1了。
此外,这位网友还表示,o1基本沿用了GPT-4的架构;那么,改换架构后的GPT-5(也就是传说中的猎户座)能达到什么高度,令人期待。
我们有几十万私域用户,寻找有创意的AI硬件合作,比如AI玩具、AI眼镜、AI项链等等,与我们建立链接,共同发掘AI时代的红利~