首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

又是期货，OpenAI推出全新推理模型o3，实力远超o1

创业 2024-12-21 07:24 中国香港

作者｜子川

来源｜AI先锋官

OpenAI 12天直播的最后一晚，终于祭出了压轴大招——

全新的推理模型，o3和o3 Mini模型。

不过这是个期货，计划明年一月份推出o3 Mini。

目前该模型还处于安全测试阶段，但从今天开始，o3 Mini 将率先对外部安全研究人员开放测试！随后 o3 也会加入到开放测试中来。（怎么感觉和Sora的套路一样一样的呢）。

大家可以通过访问 OpenAI 的官方网站，填写申请表格参与测试，说不定运气爆棚，就预约上了呢。

地址：https://openai.com/index/early-access-for-safety-testing/

话不多说，接下来直接奉上大家最关心的内容——o3的成绩单！

软件风格基准测试

在SWE-Bench Verified测试中，o3模型准确率达到71.7%，比o1还高出20%左右。

代码竞赛测试

之前o1在 CodeForces（一个全球知名编程竞赛网站）上的分数是 1891，这次o3直接冲到了 2727！

在发布会上，奥特曼和马克还开玩笑的表示，这个分数可是超越了OpenAI首席科学家Yakov的2665分。

数学能力测试

编程强就算了，数学能力也有了“离谱”的飞跃！

在 AIME 2024数学竞赛 上，o3的准确率达到了 96.7%（全程只错了一题），相比之下，o1的成绩是 83.3%。

博士阶段科学问题测试

在 GPQA Diamond（博士级科学问题基准测试）上，o3的得分是 87.7%，成功超越了o1的 78%。

为了说明这个分数的厉害程度，马克特意举了个例子：专业博士的平均分也就 70% 左右。

EpochAI的Frontier数学基准测试

这个测试可是出了名的难——被誉为“目前最艰难的数学基准”，陶哲轩对这项测试的第一印象是“可能难住AI好几年”。

在此之前，国内外的顶级模型都没能在这个测试上得分超过 2%。

而这次，o3的得分在直接来了一个飙升，来到了25.2%。

ARC-AGI基准测试

ARC-AGI是Keras之父François Chollet发起的测试基准，是为AGI准备的测试题目，典型题目为图形逻辑推理，难度对于人工智能来说堪称变态级别。

给大家看一下各大模型的在ARC-AGI基准下的成绩，就知道这个玩意有多难了。

o1的成绩是32%，o3直接飙到了75.7%、87.5%。

为什么会有两个成绩？因为o3支持低思考程度和高思考程度两种设置。

o3实力这么强，o3-mini自然也不差，o3-mini还支持三种不同的设置：低、中和高推理。

给大家看一下它的成绩单：

在 编码评估 上，低推理模式和o1 Mini差不多，但中高推理已经全面超越了o1！

不过在 博士级科学问题 上，三种推理模式的表现都稍逊于o1了。

在给大家看一下o1 Mini在其他基准下的成绩。

此外，o3 Mini还支持 函数调用、结构化输出、开发者消息 等功能，与o1保持同一水准。

本来以为这次12天的直播会潦草收场，想不到真来了一个大的，o3不仅是推理能力的升级，更是一次AI智能的全面进化。

只想说，o3快点来吧！！！

最后揭秘一下为什么叫o3，而不是叫o2，

答案：避免与英国电信服务商O2的潜在版权或商标冲突。

.END.

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

AIGC大模型及应用精选与评测

最新文章

OpenAI 急推 o3-mini 救场，实测与DeepSeek谁是最强推理大模型

除夕无休! DeepSeek 推多模态大模型Janus-Pro，实测生图效果一般

春节旅行前，请收下夸克AI锦囊

实测豆包全家桶，推理、视觉、语音能力大增，唱歌居然跑调

均不输o1，DeepSeek、Kimi 撞车发布最新模型

实测，小红书正式上线翻译功能

对比可灵、vidu2.0，实测 Luma AI 全新视频模型Ray2

OpenAI开年首发Tasks，AI agent真的要来了？

马斯克xAI首推Grok APP，我们实测发现了这些震惊和翻车

DeepSeek推出手机App，实测体验就一个字“快”

王星被绑架案敲响警钟，看看这款国外的“黛西奶奶”AI反诈工具

“被埋男孩图”涉案者被行拘，我们实测了这些AI图鉴别工具

实测！谷歌最火 AI 工具NotebookLM重磅更新

英伟达Cosmos平台阳谋

实测天工4.0，比肩o1，力压kimi，推理能力大增！

最全！英伟达 CES 2025 发布会核心产品与技术详解

黄仁勋CES 2025演讲实录，现场“王炸”不断，5090显卡、3000美元个人AI超算等等

第一时间评测：罗永浩首个AI产品J1 Assistant，只支持英文并限制国内IP

一文带您看懂AI agent

英伟达AI科学家Jim Fan 2024年盘点(全文):DeepSeek是开源LLMs领域最大黑马

对比测试可灵1.5 ，及PK Veo2，可灵1.6物理规律、语义理解等能力皆大幅提升

DeepSeek V3 引发AI路径之辩：从“鹦鹉学舌”到“乌鸦喝水”？

理想汽车做了个独立的 AI APP

突然刷屏的ai界“拼多多”deepseek

新王诞生！阿里通义开源多模态推理模型QVQ，实测杀赢旧王ChatGPT o1

我们让这些 AI 大模型推选了 “2024年10大AI产品”

最全！ OpenAI 12天直播大戏合集（文字+视频）

又是期货，OpenAI推出全新推理模型o3，实力远超o1

深夜发布！英伟达 Jetson Orin Nano“掌中超算”到底有多强？

Sora发布即翻车，谷歌Veo2偷塔AI视频新王？

最全！AI大模型订阅和API价格全球排行榜

Kimi 终于出手多模态！实测视觉思考模型 K1.VS. 正式版o1，不相上下

AI驱动人形机器人大爆发（附:最新锐34款人形机器人视频）

实测谷歌Gemini 2.0：数数、推理翻车，多模态惊艳，编程输Claude

新增视频编辑功能，OpenAI最大期货Sora兑现，奥特曼称其视频版 GPT-1

Sora v2即将发布，支持生成一分钟视频、多场景切换、完美的角色一致性

OpenAI上线o1满血版，ChatGPT Pro 会员200美元/月被吐槽

谷歌Genie2:单图生成无限可交互 3D 世界，马斯克要用它做游戏

“一图一世界”！李飞飞World labs 最全视频 Demo 合集

实测腾讯开源混元视频模型：PK 可灵、即梦，效果不赖

李飞飞《经济学人》撰文：AI 革命始于大语言模型，下一步是基于视觉的空间大模型

搭载阶跃大模型，这款二次元 AI 应用可读出任意物件灵魂

周鸿祎为它拍短剧，实测纳米搜索是视频创作工具，不是 AI 搜索

可口可乐AI圣诞广告惹争议，网友:令人毛骨悚然（附:其他7个品牌 AI广告）

Sora 接口泄露三小时:网友创作视频“最全合集”（附:艺术家对 OpenAI 控诉信全文）

k0-math模型上线Kimi，实测效果还不错

Luma 紧跟Runway半小时推文-图-视频模型，我们实测效果一言难尽

搜狗输入法嵌入AI 搜索功能，实测很丝滑，对比微信输入法 AI 会如何？

能替你开会的 AI 工具人他来了！只需动嘴，表情口型神同步

“乐坛ChatGPT”Suno发布V4版本，我们试了下，效果确实更好了！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉