首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

OpenAI o1全方位SOTA登顶lmsys排行榜！数学能力碾压Claude和谷歌模型，o1-mini并列第一

文摘 2024-09-20 23:34 北京

经过一周的激烈角逐，OpenAI的o1模型在lmsys排行榜上取得了显著的成绩。同时，为了满足公众对模型性能的好奇心，OpenAI公开了o1在测评中使用的所有代码。

备受期待的OpenAI o1模型在lmsys的测评中表现出色。

不出所料，o1-preview在各个领域均取得了领先地位，超越了GPT-4o的最新版本，在数学、复杂提示和编程领域尤为突出；

而o1-mini，尽管名字中有“mini”，却也与GPT-4o并列综合排名第二，同样在复杂提示、编程、数学等领域登顶。

lmsys社区官方在社交平台上表示，这项测试结果是基于6k+社区投票得出的，并将OpenAI的这一成就描述为“难以置信的里程碑”。

o1-preview在所有模型中的胜率均超过50%，尤其是与04-09版GPT-4-Turbo的对比中，胜率达到了88%。

o1-mini在与o1-preview的对决中胜率为46%，与09-03版GPT-4o的对决中胜率为48%，显示出两者实力相当。

值得注意的是，尽管Grok-2-mini和Claude 3.5 Sonnet的排名较为靠后，但o1-preview对这两个模型的胜率并不高，分别为58%和57%，远低于排名第四的Gemini 1.5 Pro的69%。

在细分领域的排行榜上，尤其是在数学/推理领域，o1-preview和o1-mini不仅登顶，还展现出了压倒性的优势。

o1推理团队的领导者之一William Fedus对这一成绩表示满意，他认为这“很好地用视觉表达了范式转换”。

最新的o1模型在STEM学科和通用推理方面确实达到了新的高度，用实际测评结果回应了外界的质疑。

“那就继续期待OpenAI接下来的发布吧！”

但一些人在感叹“未来可期”的同时，也有人担心自己的智商和头发。

同时，也有人对lmsys排行榜的结果表示质疑。

例如，o1模型的推理时间较长，与其他模型有明显差异；而且，lmsys社区的评分完全基于用户的主观评价，可能存在“安慰剂效应”。

还有人对o1在编程排行榜上的第一位置表示不服，认为虽然o1-mini适合项目规划，但在编程助手如Cursor中，Claude模型的表现更佳。

排行榜的结果并非全部，o1模型能否继续赢得口碑，同时保持智力水平，还需时间来证明。

IOI金牌代码全公开

o1模型在编程竞赛领域的出色表现引起了社区的极大兴趣，OpenAI因此公开了o1模型提交的代码内容，包括6个问题的完整C++代码及注释。

发文的yummy是o1模型的核心贡献者Alexander Wei。

对于o1的卓越表现，Alexander Wei本人也感到惊讶。

他在9年前参加了IOI竞赛，但从未想过自己会这么快就需要与AI竞争，模型展现出的推理过程的复杂程度令人印象深刻。

博文表示，虽然o1模型距离人类的顶级表现还有很长的路要走，但我们期待有一天能实现这个目标。

这个发展轨迹让人想起了AlphaGo——从水平高超，到能与人类顶级高手不分胜负，再到5-0完全碾压李世石。

OpenAI的目标可能是究极进化的、能在编程上碾压人类顶级高手的AlphaZero。

此处公布的6个问题代码如下：

有网友指出，其中最令人印象深刻的应该是象形文字问题，o1模型在现场的所有选手中排名第四。这表明，模型或许能够破译一些人类无法解决的子任务。

前几天，一位目前在NASA工作的天体物理学博士尝试让o1复现自己论文中的代码，结果令人惊讶—— 自己读博时花了1年写出的代码，o1只用了一小时就完成了。

这还只是裸模型，如果加上代码解释器、网络实时搜索等工具，效果将更加惊人。

而且，Reddit网友还送来了温馨提示：这只是o1预览版哦，可以狠狠期待一下不到一个月就即将问世的正式版o1了。

此外，这位网友还表示，o1基本沿用了GPT-4的架构；那么，改换架构后的GPT-5（也就是传说中的猎户座）能达到什么高度，令人期待。

我们有几十万私域用户，寻找有创意的AI硬件合作，比如AI玩具、AI眼镜、AI项链等等，与我们建立链接，共同发掘AI时代的红利~

http://mp.weixin.qq.com/s?__biz=MzAxNDMwNjQ1OA==&mid=2650533919&idx=1&sn=7e4145816de01134398aaaf80e4eeb2d

前沿科技分享圈

这里汇聚了人工智能领域奋战在第一线的创业者和投资人，不同研究方向有不同的讨论小组，包括AI虚拟伴侣、AI情感咨询、人形机器人、文生视频、文生音乐、开源AI硬件等等，如果你也对这些领域感兴趣，欢迎加入！

最新文章

真·打字P图！字节发布新模型SeedEdit，一句话爆改世界名画，可免费体验

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

ControlNet作者新作：AI打光玩得更溜了！细节保留能力远高于SD1.5

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

马斯克要求供应商：把生产业务搬出台湾

特朗普胜出成定局，美国大选如何撕裂整个硅谷科技圈？

Meta VR硬件主管强势加入OpenAI，与苹果传奇设计师合作开发新AI设备

手搓AI大模型应用获25万用户，果断辞职创业，结果收入不如摆摊

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

全球首款AI游戏诞生！无需游戏引擎，视频模型直出「我的世界」

刚刚！ChatGPT正式成为AI搜索，免费可用

o1驾驶无人机后空翻，OpenAI开发者日惊掉下巴！2分钟爆改代码写App

爱情藏头诗

Copilot一夜杀死编程助手，GitHub官宣接入Claude+Gemini！OpenAI沦为备胎

推出 AI 耳机，字节真正的野心是什么？

从卷文本到卷多模态：国内的大模型公司都在忙什么？

靠AI，2年时间大涨4倍！扒一扒你每天都用的这只小绿鸟

Claude接管人类电脑编程，程序员沸腾！OpenAI反击，智能体大战一触即发

Character AI被起诉！14岁青少年自杀，AI陪伴何去何从

天命人闲置的4090，把GPU租赁价格打下来了

这款 AI 眼镜，找到了智能眼镜最好的卖点？

大模型“六小虎”，就要凉凉了

80%的AI公司，即将消失在风中

未来已来？揭秘3D AI女友「EVE」：她如何用亿级语料库征服你的心？

H100 算力价格暴跌 75%，对 AI 创业公司意味什么？

惊爆！H100 GPU租价狂跌至2美元/小时，泡沫破裂的前奏？

两年倒数！Anthropic CEO万字长文预言：「强大AI」26年降临，智力击败诺奖得主

马斯克的“变形金刚”派对：3万美元的Robotaxi闪亮登场，擎天柱现场“端茶送水”，网友：这货能飞吗？

字节豆包AI硬件团队新品OWS AI耳机：耳畔新潮流的引领者

AI革新蛋白质研究：2024年诺贝尔化学奖背后的故事

OpenAI的动荡：高管离职潮与AI领域的未来

靠fork开源代码获350万融资，创始人自诩“开源版Cursor”，网友追着质疑

OpenAI o1全方位SOTA登顶lmsys排行榜！数学能力碾压Claude和谷歌模型，o1-mini并列第一

人均融资1亿美元，一个有故事可讲的AI赛道

超强o1模型智商已超120！1小时写出NASA博士1年代码，最新编程赛超越99.8%选手

外媒评价Plaud Notepin：一款出色的AI录音设备，但前景堪忧

从 OpenAI o1 模型里的 20 多位华人成员，我看到这几个信息

OpenAI草莓模型深夜突袭！理化生达博士生水平，比GPT-4o强多了，ChatGPT可用

Andrej Karpathy最新激进观点：Transformer将超越人脑

大厂卷AI，卷到了小学生身上

机器人把握好手上的力道，安全地做家务有多难？1X人工智能副总裁撰文详解

华人AI视频工具OpusClip获北美风投3000万美元投资，用AI革新视频编辑

讯飞版「Her」横空出世全民开放！百变人设逼真丝滑，情绪价值逆天

又一个华人AI产品爆火，60天流量狂飙640万，获a16z 1900万美元投资

OpenAI已投，大厂高管涌入，儿童陪伴正成为AI应用的下一个风口

KT2 功夫龟机器人：智能化生活的助手还是玩具？

芯片巨头裁员15000人！

世界首部生成电影，每次播放都不一样，AI：我剪了52万亿亿个版本

OpenAI 自研 AI 芯片最新进展曝光，曾百万年薪挖角 Google 人才，或将挑战「英伟达霸权」

AI伴侣商业化赢家竟是全球第二大成人网站

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉