跳过o2！OpenAI宣布o3系列大模型 Codeforces测试强于其首席科学家

科技 2024-12-21 17:43 湖北

12月21日消息，据外媒报道，在发布o1满血版、视频生成模型Sora等之后，OpenAI连续12天的直播活动在当地时间周五进入了最后1天，他们在当天的发布会上宣布了更强的o3系列人工智能模型。

同第1天、第3天和第5天的直播一样，OpenAI CEO 萨姆·奥尔特曼（Sam Altman）也参与了他们第12天的直播，o3系列大模型也是由他在直播中宣布的。

OpenAI在9月份推出了o1系列大模型，他们周五推出o3系列，在命名上就越过了o2，没有遵循数字一样的连续命名方式。对于越过o2，有外媒在报道中称可能是为了避免和英国电信运营商O2在命名上产生纷争。而在当天的直播中，萨姆·奥尔特曼承认了他们在命名上的不足，他表示基于OpenAI不太擅长命名的传统，新的大模型被命名为o3。

同9月份推出的o1系列大模型一样，OpenAI新宣布的o3系列大模型也有o3和o3 mini两款，不过尚未正式发布，o3 mini是预计会在明年年初发布。

在OpenAI此前推出的大模型中，能力在持续提升，新宣布的o3系列也不例外。

从OpenAI方面公布的消息来看，o3大模型在测试中的表现明显强于他们之前推出的大模型，在部分测试中的表现已经达到了人类的水平。

在ARC-AGI测试中，o3在低推理能力设置下的得分达到了75.7%，是o1的3倍，在高推理能力设置下则是高达87.5%，超过了85%的人类门槛。

在数学推理及解决问题的能力方面，o3也表现不俗，在2024年AIME测试中，o3的准确率达到了96.7%。

在编码和软件工程方面，o3的能力较o1也有大幅提升，在SWE-Bench认证中，o3的得分为71.7%，较o1提升了22.8个百分点。

值得注意的是，有外媒在报道中提到，在Codeforces的测试中，o3的得分为2727，比OpenAI首席科学家的得分还高。Codeforces是一家为计算机编程爱好者提供在线评测的网站，是一个面向程序员的在线竞赛平台。

虽然OpenAI的o3系列大模型要在明年才会正式发布，但他们在官网已表示，安全研究人员可以申请用于测试，从当地时间周五开始接受申请，截止时间为明年1月10日。

—【 THE END 】—

往期精彩文章回顾：

丨不法分子利用社交平台大范围传播木马病毒微信发布紧急公告

丨特斯拉市值蒸发9300亿！美国科技股周三普跌苹果英伟达亚马逊等无一幸免

丨对标第三代骁龙8 小米Civi 5 Pro将首发骁龙8s至尊版

TechWeb

TechWeb专注于互联网消费领域，每日专业提供互联网产品、智能设备及互联网服务等方面的最新资讯。

最新文章

富士康的造车梦，被日本车企抱团击碎了

跳过o2！OpenAI宣布o3系列大模型 Codeforces测试强于其首席科学家

苹果接口，卒！

OPPO Find X8玩机技巧汇总：2024年还不知道这些你就真的out了！

TechWeb微晚报：“小红书封号”上热搜，极越公关负责人回应“被开除”

豆包大模型全面升级，相关概念股疯涨，字节发布紧急警示

“小米SU7坠崖一家四口安然无恙”冲上热搜车主回应了

明年卖爆？小米YU7无伪装实车首次曝光

三星Galaxy S25 Ultra钛银蓝配色曝光：真机效果值得期待

苹果或已成全球VR/MR头显市场第三大玩家但Vision Pro销量不及预期

一加Ace 5系列双杯齐发：性能大作压轴登场！

不法分子利用社交平台大范围传播木马病毒微信发布紧急公告

“小红书封号”冲上热搜，大量网友突然被封，究竟啥原因？

不止2亿像素！小米15 Ultra将支持100倍AI融合变焦：远近都清晰

消息称极越公关负责人被开除当事人回应了

张兴海余承东做客央视直播间讲述问界成长之路

小屏手机，彻底杀疯了！

TechWeb微晚报：特斯拉下月量产改款Model Y，蚂蚁集团目前没有上市计划

苹果或在同腾讯和字节洽谈寻求将二者大模型整合进国行iPhone

消息称极越员工补偿方案确定：按照“N+1”标准，百度吉利出钱

荣耀Magic7 RSR 保时捷影像亮点曝光：行业首创100x AI超级长焦

豪车经销商，抛弃BBA

特斯拉上海工厂或将于下月量产改款Model Y

苹果警告Meta互操作性请求过多，或威胁用户隐私安全

蚂蚁集团：目前没有上市计划更不存在所谓“借壳上市”

特斯拉市值蒸发9300亿！美国科技股周三普跌苹果英伟达亚马逊等无一幸免

REDMI Turbo 4全球首发！联发科天玑8400官宣：最强天玑8系平台

微软领先科技巨头，成为英伟达Hopper芯片最大买家

深圳柔宇显示技术资产二拍即将启动，起拍价下调2.5亿元

日产、本田酝酿合并，能否再造个“新丰田”？

TechWeb微晚报：苹果市值逼近4万亿美元，小米15 Ultra测试全焦段变焦微距

吉利杨学良：极越车主可到领克中心售后会加速处理

一加Ace 5 Pro将支持旁路充电：绕过电池直接向游戏供电发热量大降

销量下降80%！是谁“谋害”了贵妇神车？

三星Galaxy S25系列暂定明年1月底发布：外观无太大变化依旧主打AI

苹果股价周二再涨近1% 市值已达到3.83万亿美元

多位网友反馈豆瓣App闪退，公司暂无回应

豆包视觉理解模型发布，比行业价格便宜85%！

对标第三代骁龙8 小米Civi 5 Pro将首发骁龙8s至尊版

本田和日产将进行合并谈判？本田回应了

美团试点骑手过度跑单将被强制下线美团：确有相关举措

募资超110亿！阿维塔顺利完成C轮融资，拟于2026年IPO上市

苹果，马斯克的新“仇人”？

TechWeb微晚报：余承东将与四界老总一同直播，小米15 Ultra或已定版

保时捷员工称中国区裁员，赔偿或按“N+6”标准执行

阿里官宣74亿元出售银泰因该交易亏损约93亿元

新能源车改装生意，彻底爆发？！

调查发现多数iPhone用户认为Apple智能几乎没什么价值

牌面拉满！12月19日余承东将与“四界”老总一同直播

苹果股价超过250美元再创新高市值离4万亿美元更进一步

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉