首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

收官！OpenAI 发布 o3：单题最高耗费数千美元，数学编程能力创纪录

科技 2024-12-23 08:02 广东

OpenAI 在"12 天马拉松"发布会的最后一天重磅推出了 o3 系列模型，包括 o3 和o3-mini 两款产品，在多项关键基准测试中刷新纪录。

本次 o3 的核心技术突破主要体现在以下几个方面：

数学推理能力大幅提升

AIME 2024 数学竞赛得分 96.7%，仅错一题
Frontier Math 基准测试达 25.2%，远超其他模型不足 2%的水平
GPQA Diamond 博士级科学问答达 87.7%准确率

编程能力显著增强

SWE-bench Verified 基准超 o1 达22.8 个百分点
Codeforces 评分达 2727 分，位列全球前 200
代码生成速度和准确性大幅提升

创新的"思考模式"机制

提供低、中、高三档计算强度选择
可根据任务难度自动调整推理深度
高强度模式下接近人类专家水平

值得注意的是，o3 的强大性能伴随着显著的计算成本。根据 Keras 之父 Francois Chollet 的披露，在低计算量模式下每个任务需要约 20 美元，而在高计算量模式下单个任务成本可达数千美元。

OpenAI 计划于 2025年1月底首先发布 o3-mini 版本，随后推出完整版 o3 。

这次发布标志着 AI 推理能力迈入新阶段，但高昂的使用成本也给其大规模应用带来挑战，难怪之前传言会有2000美元一个月的高额订阅呢！如果他们替代10个程序猿，这笔生意老板会如何选择？还是程序猿为了防止被取代而自费订阅加剧内卷呢？

新一代智能化应用

人工智能是一门认知科学，而新一代的智能化应用是一个系统工程。智能应用程序是人工智能驱动的应用程序，可转变用户的工作效率、自动化流程并获得见解

最新文章

RAG成为过去式？缓存增强生成（CAG）is All You Need？

Microsoft X AIGCOPEN：Azure AI 人工智能工程师训练营第一季｜工作坊一：提示工程简介与动手实战

Microsoft X AIGCOPEN：Azure AI 人工智能工程师训练营第一季｜工作坊二：检索增强生成与动手实战

BotSharp 4.0 Sidecar：迈向更大规模化的AI Agent平台框架

思考：2025AI未来机会路在何方（2）

4款开源免费、功能强大的远程桌面控制系统

技术速递｜探索 Microsoft.Extensions.VectorData 与 Qdrant、Azure AI 搜索结合使用

年终巨献 | OpenCSG开源SmolTalk Chinese数据集

一个中文高质量大规模数据集

2024 Agent AI综述，14位顶尖学者（来自微软、斯坦福等）联合撰写！

智能副驾扬帆起航 - Microsoft Copilot 专场

一个适用于 .NET 的开源整洁架构项目模板

AI应用开发的浅见

2025，新趋势！AI编排及资源管理或将成为舞台主角

LLM in 2024！19项洞察，回顾AI巨变之年

洞察：2025AI未来机会路在何方（1）

本地大模型初体验

MAUI iOS使用Google Mobile Ads SDK

老桂 2024分享汇总

2025 胜券在握

3款.NET开源、功能强大的屏幕录制工具

云原生 AI Meetup 广州站圆满落幕（视频回放 +PPT下载）

李飞飞从「大型数据集」收集操作到「数字表亲」的提出，实现了机器人训练场景多样化的重大跨越！

Sim2Real新突破：Jim Fan团队造机器人「修仙」模拟器，挂机50分钟=修炼一整年

从 LB Ingress 到 ZTM：集群服务暴露新思路

使用C# 构建AI原生Agent应用

先别让 AI 智能体干活，让他思考

DeepSeek V3—国产之光又弯道超车了？

虚拟货币中的用到的密码学

YOLOv11：Ultralytics 推出新一代目标检测模型

开源GTKSystem.Windows.Forms框架让C# Winform支持跨平台运行

2025年，拥抱AI Agent！

Scoop: 开发者多环境管理利器

.NET 在 Visual Studio 中的高效编程技巧集

活动预告｜GitHub Copilot 使用技巧 - 编程基础

.NET9增强OpenAPI规范，不再内置swagger

Kubernetes 为什么减少对 Docker 的依赖：容器运行时演进背后的技术考量

Cursor 0.44 重磅更新：全面提升 Agent 能力

AI Agent时代即将到来——硅谷著名投资人Rob Toews对2025年科技发展的十大预测

.NET 9 新增多级缓存 HybridCache

WinForm 应用程序主题实现详解

为什么推荐在 .NET 中使用 YAML 配置文件

AI产品形态交汇的背后：Canvas, Artifacts, Cursor and more

万字长文：汇总最全的Agent技术与应用现状及前景分析

收官！OpenAI 发布 o3：单题最高耗费数千美元，数学编程能力创纪录

AI在伪造方面影响的一些统计数据

跨平台交叉编译 Native AOT

Anthropic发文分享“如何高效构建Agent”，从简单到复杂带你体会Agent应用架构的真谛

收官！OpenAI 发布 o3：单题最高耗费数千美元，数学编程能力创纪录

为何这场论坛能成为企业全智能化应用场景开发转折点？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉