首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

文摘科技 2024-12-21 02:41 河北

今天凌晨2点，OpenAI开启第12天技术直播，也是最后一天。不负众望终于整了个大的，发布全新预览版模型——o3。

根据发布的o3测试数据显示，美国AIME数学竞赛中达到了96.7分，大幅度超过了o1预览版的56.7和o1的83.3%，仅错了一道题相当于一名顶级数学家的水平。

而在ARCAGI的测试中，o3在低算力资源情况下实现了75.7%，而当增加计算资源后实现了87.5%，这也是首次有大模型超过了人类85%的水平，实现重大技术突破。

有意思的是，OpenAI直接跳过了o2发布了o3，主要原因是名字与英国著名电信公司o2发生了冲突无法使用，所以才直接来了个第三代~

o3主要测试数据

在软件风格基准测试中，由真实世界软件任务组成的3benchverified基准测试里，o3模型准确率达到71.7%，相比o1模型提升超过20%。

在竞赛代码领域，o3模型在CodeForces竞赛编码网站上表现卓越，达到了约2727的ELO分数，远超o1模型的1891分，甚至超越了OpenAI首席科学家Yakov的分数，接近公司内部顶尖编程高手的水平，这表明o3在处理复杂编程竞赛任务时具备出色的逻辑推理和算法实现能力。

在数学能力测试中，o3模型在Amy考试中的准确率高达96.7%，而o1模型为83.3%。在这个被视为美国数学奥林匹克预选考试的高难度测试中，o3模型通常仅错一题，表现十分出色。

在衡量模型在博士阶段科学问题处理能力的GPQADiamond基准测试中，o3模型取得了87.7%的准确率，比o1模型的78%提高了约10%，甚至超越了领域专家博士通常能达到的70%的水平，这表明o3模型在数学和科学领域的复杂问题处理上已接近甚至超越人类专家水平。

在ARCAGI基准测试中，o3模型取得了重大突破。在低计算条件下，o3模型在ARCAGI的半私有保留集上得分为75.7，这一成绩在符合计算要求的同时，成为了新的行业领先水平。

当进一步提升计算能力，让o3模型进行更长时间的思考时，其在同一隐藏保留集上的得分更是高达87.5%。这一成绩尤为重要，因为人类在该测试中的表现阈值约为85%，O3模型的得分超过了这一阈值，标志着人工智能在该领域取得了新的里程碑。

此前，ARCAGI版本一花费了五年时间，才使领先的前沿模型从0%提升到5%，而o3模型的出色表现无疑展示了OpenAI在人工智能技术研发上的巨大进步。

o3Mini版本

与o3模型相比，o3Mini模型在性能与成本平衡方面表现出色，能够以较低的成本提供高效的服务。

在编码评估方面，o3Mini模型展现出了出色的性能提升。在CodeForces的评估中，随着思考时间的增加，o3Mini模型的表现不断提升，逐渐超越了o1Mini模型。

在中位思考时间下，o3Mini模型的性能甚至优于o1模型，能够以大约一个数量级的更低成本提供相当甚至更好的代码性能。这意味着开发人员可以在不增加过多成本的情况下，获得更高效的编程辅助，提高开发效率，降低开发成本。

在数学能力测试中，o3Mini模型在2024年数据集上表现出色。o3Mini低模型的性能与o1Mini相当，而o3Mini中位数模型则取得了比o1更好的性能。在处理诸如GPQA等困难数据集时，o3Mini模型也能展现出一定的优势，实现了接近即时响应的效果。

此外，o3Mini模型支持函数调用、结构化输出、开发者消息等一系列功能，与O1模型相当。在实际应用中，o3Mini模型在大多数评估中实现了可比或更好的性能。

在现场演示中，o3Mini 模型的强大功能得到了直观展示。例如，在一项任务中，模型被要求使用Python 实现一个代码生成器和执行器。当启动运行该 Python 脚本后，模型成功启动了本地服务器，并生成了包含文本框的用户界面。

用户在文本框中输入编码请求后，模型能够迅速将请求发送至 API，并自动解决任务，生成代码并保存至桌面，随后自动打开终端执行代码。整个过程复杂且涉及大量代码处理，但 o3 Mini 模型在低推理努力模式下依然表现出了极快的处理效率。

目前，该模型还处于安全测试阶段，从今天开始o3 Mini 模型率先开放给外部安全研究人员进行测试，随后 o3 模型也将参与其中。研究人员可通过访问 OpenAI 的官方网站，填写申请表格参与测试。

本文素材来源OpenAI，如有侵权请联系删除

END

AIGC开放社区

专注AIGC领域的专业社区，关注微软OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

最新文章

函子科技CEO蒋耀锴，将出席“ISIG-AIGC多模态技术与应用峰会”

OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

AI——有自由意志会怎样？

AI大模型/AIGC多模态/RPA超级自动化/低代码四大科技峰会来袭！

集思科技销售VP陈曙光，将出席“ISIG-AIGC多模态技术与应用峰会”

讯飞机器人超脑平台总经理刘可为，将出席“ISIG-AI大模型技术与应用发展峰会”

谷歌版o1模型发布：霸榜排名第一，深度展示思维链

ChatGPT重磅功能！支持AI Agent玩法，OpenAI加入智能体了

苹果正与腾讯、字节跳动洽谈，在iPhone集成类ChatGPT

多模态解锁无限可能！AIGC多模态技术与应用峰会火热报名中~

聚力维度创始人&CEO赵天奇，将出席“ISIG-AIGC多模态技术与应用峰会”

AI核心技术，颠覆传统数据整合模式！全球数据管理领导者Denodo技术干货分享来啦~

微软全球黑带技术专家武帅，将出席“ISIG-AI大模型技术与应用发展峰会”

OpenAI整大活！ChatGPT新增电话功能，全民AGI要来了

开个AI局，探索大模型的无限可能！AI大模型技术与应用发展峰会火热报名中~

重磅来袭！HealthAI 2024健康智能挑战赛启动报名

英伟达发布微型大模型计算机，每秒计算67万亿次

达观数据联合创始人张健，将出席“ISIG-AI大模型技术与应用发展峰会”

壹沓科技大模型产品总监王琰元，将出席“ISIG-AI大模型技术与应用发展峰会”

重磅！OpenAI开放满血o1模型API，成本暴降60%

开启智能之旅！RPA超级自动化与流程挖掘峰会火热报名中~

Liquid AI获2.5亿美元融资，创新液态大模型

ChatGPT搜索大更新！实时搜索、高级语音，AI搜索时代来了

AI工具 | AI内容检测合集

AI加速，码力全开！低代码/零代码技术与应用发展峰会火热报名中~

超过Sora！谷歌发布Veo 2，支持4K、逼真到难以分辨

开个AI局，探索大模型的无限可能！AI大模型技术与应用发展峰会火热报名中~

多模态解锁无限可能！AIGC多模态技术与应用峰会火热报名中~

微软发布Phi-4，最强小模型！参数极小、超GPT-4o

IBM推出化学大模型：可精准预测分子性质和行为

突破性功能！OpenAI发布ChatGPT Projects，万能工具箱上线！

AI核心技术，颠覆传统数据整合模式！全球数据管理领导者Denodo技术干货分享来啦~

微软 Azure AI 荣耀登榜，2024最受开发者欢迎的 AI 应用开发平台！

极客说｜深度对比：SFT、ReFT、RHLF、RLAIF、DPO、PPO

AI现身2024国际象棋世界冠军赛！世界棋王丁立人守擂，看AI如何让国际象棋更有趣

重磅！ChatGPT解锁高级视频对话、屏幕共享，实时交互时代

ISIG年度盛会来袭！RPA/低代码/AI大模型/AIGC多模态四大科技峰会共掀数字化创新浪潮

AI Agent成主打！谷歌发布超强多模态大模型—Gemini 2.0

极客说｜多智能体时代

王者降临！苹果全家桶接入ChatGPT，重塑iPhone、iPad 、Siri

多模态解锁无限可能！AIGC多模态技术与应用峰会报名开启~

人人可用，AI Copilot 场景学习资料大放送！

史上最贵！首个AI Agent程序员商业化，比ChatGPT Pro贵2倍

突发！OpenAI发布Canvas，ChatGPT新增史诗级功能

AI应用 | 可口可乐AI广告惹争议

微软开发者社区与She Rewires她原力合作，打破科技领域女性天花板！

比特币要完了！5分钟算力超100亿亿年，谷歌Willow强的逆天！

OpenAI放王炸，Sora无限使用！3大新功能，2024最大惊喜！

想提升数据整合效率？Denodo AI核心技术与应用，带你迈进AI驱动新时代

活动通知丨2024全球智博会——开启企业全智能化应用场景：Semantic Kernel 开发者日中国站即将召开

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉