可怕的进化速度！OpenAI再祭杀手锏！推出o3和o3 Mini推理模型

文摘 2024-12-22 08:18 北京

在"12 Days of Open AI 活动的最后一天，果然放出了绝杀大招！OpenAI 重磅发布 o3！再次突破 AI 极限

为何新模型跳过了o2直接命名o3？奥特曼幽默的表示，因为人工智能不需要氧气，开玩笑😝
其实是为了避免和英国电信运营商O2冲突，“按逻辑应该称为o2，但我们起名字的能力实在太糟了，只能把它称作o3”。OpenAI 对于即将推出 o3 系列推理模型给出了一些参考对比。与现有的 o1 系列类似，o3 系列将包括 o3 和 o3 mini 模型。OpenAI 还分享了 o3 型号的一些基准数据。

据介绍，在编码测试SWE-Bench Verified中，o3性能比o1高出22.8%；在Codeforces竞技编程中得分为2727分，相当于位列第175名的人类选手，甚至超过了OpenAI的首席科学家（2655分）；在数学竞赛AIME 2024和专家级科学问题基准测试GPQA Diamond中成绩都得到明显提升；而在令很多AI和数学家都束手无策的最难数学和推理挑战FrontierMath中，o3解决了25.2%的问题，其他模型均未超过2%。

由于o3和o3-mini并未正式发布，安全研究人员目前可以注册获取o3-mini的预览版，o3预览版 OpenAI没有给出具体时间。只是宣布o3。他表示，计划在1月底发布o3-mini，然后再发布o3。

现在，感兴趣的朋友可以提交申请：
https://openai.com/index/early-access-for-safety-testing/

o3是向“AGI”迈出的重要一步

Minimalist style

根据OpenAI的5步路线图，o3是向“AGI”迈出的重要一步，即AI获得比人类更强的通用智能，并加速向下一步“获取代理能力”的过渡。OpenAI 表示，它“在大多数任务上都优于人类”，并强调实现 AGI 已成为现实。

在实践中，当收到一个提示时，o3会在做出反应之前暂停，考虑一些相关的提示，并沿途“解释”其推理过程。一段时间后，模型会总结出它认为最准确的答案。o3 的新功能是“调整”推理时间，可以设置为低、中或高计算量（即思考时间），计算时间越长，执行任务时的表现就越好。

当演示人员向另一位演示人员 Mark Chen 提出即兴问题时，后者准确指出了任务的要求：需要计算每个黄色方块中彩色小方块的数量，并据此生成相应的边框。

这些对人类来说再简单不过的任务，对 AI 来说却是一道难题。

ARC-AGI 是由 Keras 之父 François Chollet 开发，主要是通过图形逻辑推理来测试模型的推理能力。

“OpenAI 的新 o3 模型代表了人工智能适应新任务能力的重大飞跃。这不仅仅是渐进式的改进，而是真正的突破，标志着人工智能的能力与之前的 LLM 限制相比发生了质的转变。o3 是一个能够适应从未遇到过的任务的系统，可以说在 ARC-AGI 领域接近人类水平。
ARC团队评价o3

o3 mini 速度更快，成本更低

Minimalist style

今年九月，OpenAI 发布了 o1 mini，具有很强的数学和编程能力，而且成本极低。延续这一发展方向，今天推出的 o3 mini 也保留了上述特征。即日起，该模型仅向安全研究人员开放测试申请，截止日期为 1 月 10 日。

o3 Mini模型将为用户提供在三个推理级别之间进行选择的选项：高、中、低三个推理级别。低级别速度最快，但准确度较低，而高级别速度最慢，但准确度较高。

近来推理一词已成为人工智能行业的常用流行语，但它基本上是指机器将指令分解成更小的任务，从而产生更强的结果。这些模型通常会展示它是如何得出答案的，而不是不加解释地给出最终答案。该公司还宣布了关于慎重调整的新研究，这要求人工智能模型逐步处理安全决策。因此，这种模式要求人工智能模型主动推理用户的请求是否符合 Open AI 的安全策略，而不是简单地给出 "是/否 "规则。该公司声称，在对 o1 进行测试时，它在遵守安全准则方面比以前的模型（包括 GPT-4）要好得多。

AI安全测试人员发现，与传统的“非推理”模型相比，OpenAI此前发布的o1的推理能力使其试图欺骗人类用户的比例更高，同样，Meta、Anthropic和Google的领先模型也是如此。而o3试图欺骗用户的比例可能比它的前身更高。

与GPT-4o等大模型相比，o1模型在拒绝回答恶意越狱提示
和不过度拒绝良性越狱提示方面都较为领先。

ARC-AGI（通用人工智能抽象与推理语料库）发起者、Keras（用Python编写的高级神经网络API）之父弗朗索瓦·肖莱（Francois Chollet）在o3发布后公布了一篇测试报告。

报告显示，o3在高计算量模式下获得了87.5%的分数，在低计算量模式下，性能是o1的三倍。成本方面，低计算量模式下，每个任务需要花费20美元，而在高计算量模式中每个任务需要数千美元。

肖莱表示：“它非常昂贵，但并不只是‘蛮干’——这些能力是全新的领域，需要科学界的认真关注。”

情理之中又意料之外的杀手锏

Minimalist style

从 GPT 系列到 o 系列的转型，Open AI完成了战略选择，而短短不到 3 个月的时间，又从 o1 模型的完成了迭代升级。

正如此前微软 CEO Satya Nadella 所言，OpenAI 在 AI 领域领先竞争对手约两年之久。也正是这种相对宽松的竞争环境，使得 OpenAI 能够专注于开发 ChatGPT。

然而除了OpenAI，各家AI公司近期也纷纷发布推理模型。

11月16日，月之暗面（Moonshot AI）Kimi推出新一代数学推理模型k0-math；11月20日，DeepSeek发布了首个推理模型DeepSeek-R1-Lite预览版。11月28日，阿里云通义团队发布全新AI推理模型QwQ-32B-Preview；在当地时间12月19日，Google发布首个推理模型Gemini 2.0 Flash Thinking。

Menlo Ventures 的报告显示，ChatGPT 的市场份额被其他竞争对手逐渐蚕食，从 2023 年的 50% 下降到了 2024 年的 34%。

英伟达CEO黄仁勋在10月的一次访谈中曾表达了对于推理的看好。他认为：“现在我们在后训练和推理阶段看到了扩展，预训练再也不被视为艰难，推理也变得复杂。推理方面即将因推理链的出现而大幅增长……这是一场智能生产的革命，推理的增长将达到亿倍的规模，这就像上学是为了将来在社会中有所贡献，训练模型很重要，但最终的目标是推理”。

2025年，将会是极其重要的一年。

玩酷推荐

介绍好玩且酷的产品！包括数字游戏、生成式AI、人工智能、智能终端设备等

最新文章

刚刚！日产与本田计划成立合资新能源汽车公司！三菱也要加入！

可怕的进化速度！OpenAI再祭杀手锏！推出o3和o3 Mini推理模型

放弃百度！苹果就国行iPhone本地化AI能力与字节跳动豆包进一步探讨可能性

快去给黑猴投票！Steam年度最佳游戏！这袈裟还是很重要的！

新Google牌Android XR！一片顶过去五片！

要来重磅消息了？特朗普宣布入职后即公布UFO更多信息！

《刺客鸡条》考验男人手速的时刻到了！

技术落后三年？苹果忍辱不得不向华为/荣耀学习折叠屏技术！

日本麦当劳跟EVA联动了！不过总觉得怪怪的

圣诞跨年去哪？穿梭时光隧道「名侦探柯南连载30周年纪念展」北京站开启！

黑猴领奖跟着的那个翻译为啥那么拽？

定档1月22日！三星GALAXY S25系列发布

肉鸽玩法！利用AIGC提效的18+绅士向驱魔忍卡牌游戏！《半妖忍少女》

脸模疑似甄子丹？《鬼武者 Way of the Sword》完全新作公开！

啊？黑猴落选中国玩家还没开口，外国玩家集体掀桌子了？

微软重新定义XBOX边界！万物都可以玩XBOX！PASS穿越所有设备

被质疑在《流放之路2》游戏中开挂？马斯克蔑笑“我差那点钱么？不行就买下吧，我是说公司”

联想新掌机外观超吸睛！配置拉满还拥有独立的Steam按键！

打破安卓苹果微软次元壁！微软「手机连接」开放互传档案功能

「分手厨房」工作室新作！怪镇奇旅公布！双人玩法出彩

经典回归！「忍者龙剑传外传」意外公布！动作游戏的典范

《大神》完全新作公布！神谷英树导演！三上真司发文祝贺

代号“北极星“的《巫师4》浮出水面！与虚幻团队共同开发新开放世界

供应链泄漏 iPhone 17 Air！极致超薄竟然很好看？

同样TGA2024没拿奖，马斯克力挺更具绅士风度

力压群雄！《黑神话悟空》拿下全球游戏奖最佳动作游戏！TGA2024 完整名单来了！

独立游戏开发利器！Pixquare 像素画软件

极越汽车倒闭？国产新能源车暴雷！或许这只是开始...

新游《纪念碑谷3》！轻解谜好玩续作！N会员限时免费领！

特斯拉股价暴涨超65%！连续第六个交易日上涨盘中触及历史新高！

这款上班轻玩的放置农场迎来冬日更新！花花草草！不耽误工作！

谷歌量子AI计算芯片重大突破！模拟自然这意味着什么?

抢Switch2发布前！联想可能CES期推出Legion GO2款游戏掌机！

限免开启！《潘卡普：守梦人》出色的梦境设计独游！

京经技开发区加速助力！小米YU7公布！满意SUV车型吗？

在《Minecraft》中部署AI模拟人类社会！竟然演进出了宗教？

休闲派对新游戏！索尼克系列新游《Sonic Rumble》开启预约注册！

暗黑like大作《流放之路2》刷新成绩！同服超过100万玩家

不知火舞的扇子日常藏着哪里？

增加超宽模式！苹果Vision Pro迎来2.2升级！库克力挺！沉浸体验无人能及

疯了！一部手机加价2000还是买不到？华为Mate70抢购太难！

512GB 到 8TB的MiniMate！绝佳的Mac Mini M4硬盘伴侣

尴尬！「无限大」PV中CG演示部分早被「幻塔」和「异环」实机做出来了！

2025年度代表色摩卡慕斯公布！联想moto razr 50 Ultra限定版时尚惊艳

全家旅行外拍的魔法道具！影石推出Insta360 Go3s 哆啦A梦联动款！

韩国游戏inZoi：传统mmo已死！我们重新定义模拟人生游戏！我们是未来

UE5的周杰伦演唱会模拟器！台湾网友抢不到票越好钻下水道听！

代号战斗法师！Intel正式发布Xe2构架！超高性价比细分游戏显卡市场

世界末日,但是你和你女朋友都变成了猪头..

空间智能来了！1张图生成一个3D游戏世界！游戏圈炸锅

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉