OpenAI 在"12 天马拉松"发布会的最后一天重磅推出了 o3 系列模型,包括 o3 和o3-mini 两款产品,在多项关键基准测试中刷新纪录。
本次 o3 的核心技术突破主要体现在以下几个方面:
数学推理能力大幅提升
AIME 2024 数学竞赛得分 96.7%,仅错一题
Frontier Math 基准测试达 25.2%,远超其他模型不足 2%的水平
GPQA Diamond 博士级科学问答达 87.7%准确率
编程能力显著增强
SWE-bench Verified 基准超 o1 达22.8 个百分点
Codeforces 评分达 2727 分,位列全球前 200
代码生成速度和准确性大幅提升
创新的"思考模式"机制
提供低、中、高三档计算强度选择
可根据任务难度自动调整推理深度
高强度模式下接近人类专家水平
值得注意的是,o3 的强大性能伴随着显著的计算成本。根据 Keras 之父 Francois Chollet 的披露,在低计算量模式下每个任务需要约 20 美元,而在高计算量模式下单个任务成本可达数千美元。
OpenAI 计划于 2025年1月底首先发布 o3-mini 版本,随后推出完整版 o3 。
这次发布标志着 AI 推理能力迈入新阶段,但高昂的使用成本也给其大规模应用带来挑战,难怪之前传言会有2000美元一个月的高额订阅呢!如果他们替代10个程序猿,这笔生意老板会如何选择?还是程序猿为了防止被取代而自费订阅加剧内卷呢?