首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
奥特曼率队深夜血战DeepSeek,o3-mini急上线!价格骨折免费用,ChatGPT被挤爆
创业
2025-02-01 11:41
河南
来源丨新智元(ID:AI_era)
编辑丨编辑部
o3-mini,真的来了。
刚刚,OpenAI官宣o3-mini和o3-mini-high两大版本正式在ChatGPT上线。
诚如奥特曼所言,免费用户直接打开「Reason」即可体验,Plus用户每天会有更多用量,具体来说:
- ChatGPT免费版:首次体验推理模型
- ChatGPT Plus和团队版:每天150次对话限制
- ChatGPT Pro:无限制访问
- ChatGPT Enterprise和ChatGPT Edu:将在一周内可用
- API:向3-5级开发者开放(初期暂不支持图像分析功能)
- 输入1.10美元/百万token、输出4.40美元/百万token
感谢DeepSeek,o3-mini的价格这次算是彻底给打下来了——比OpenAI o1-mini便宜63%,比满血版o1便宜93%。(但仍是GPT-4o mini的7倍左右)
订阅用户已经在第一时间「告别」了o1-mini,还没来得及说再见
OpenAI表示,o3-mini的发布是在追求高效能智能技术道路上的又一重要里程碑。
通过优化科学(Science)、技术(Technology)、工程(Engineering)和数学(Mathematics)领域的推理能力,同时保持较低的成本,让高质量AI技术变得更加平易近人。
值得一提的是,在ChatGPT中,o3-mini采用的是「中等推理强度」,在速度和准确性之间取得平衡。所有付费用户还可以在模型选择器中选择o3-mini-high——响应时间略长但智能水平更高的版本。
目前,由于太过火爆,ChatGPT的项目和自定义GPTs功能都已经被挤崩了。
集成搜索,两种版本可选
去年12月,十二天直播最后一弹,o3系列首次亮相便惊艳了所有人。相较于上一代o1模型,o3在ARC-AGI等多项基准测试中刷新SOTA。
与o1-mini一样,o3-mini是最具性价比的推理模型,可谓是突破性能边界的「小巨人」。
在STEM领域,尤其是科学、数学和编程等方面,o3-mini性能表现卓越超越o1,并继承了上一代低成本和低延迟的优点。
对于开发者来说,o3-mini简直就是一份「大礼包」,它首次在小型推理模型中支持:包括函数调用、结构化输出和开发者消息、流式传输功能。
开发者可以根据需求选择低、中、高三种推理强度,让o3-mini在处理复杂问题时进行「深度思考」,灵活平衡速度和准确性。
遗憾地是,o3-mini暂不支持视觉功能。
如前所述,从今天起,o3-mini将通过Chat Completions API,Assistants API和Batch API向3-5级指定开发者开放。
同时,o3-mini还整合了搜索功能,能够提供带有相关网络来源链接最新响应。
一起来看看这款「小而美」的o3-mini有什么过人之处。
快速、强大、专为STEM领域推理优化
与其前身OpenAI o1类似,OpenAI o3-mini专门针对STEM推理进行了优化。
采用了中等推理强度的o3-mini,在数学、编程和科学领域的表现与o1不相上下,且响应速度更快。
报告地址:https://cdn.openai.com/o3-mini-system-card.pdf
专家测试评估显示,o3-mini相比o1-mini能够生成更准确、更清晰的答案,推理能力更强。
在测试中,o3-mini的响应结果获得了56%的偏好度,在处理复杂现实问题时的重大错误率更是降低了39%。
在中等推理强度设置下,o3-mini在最具挑战性的推理和智能评估项目(包括AIME和GPQA)中,均达到了与o1相当的水平。
数学竞赛(AIME 2024)
在低推理强度下,o3-mini达到了与o1-mini相当的水平;在中等推理强度下,其表现可与o1媲美;而在高推理强度下,o3-mini的表现更是超越了o1-mini和o1。
博士级科学问题(GPQA Diamond)
研究级数学(FrontierMath)
在高推理强度模式下,o3-mini在FrontierMath中的表现优于前代产品。当配合Python工具使用时,高推理强度的o3-mini能够一次性解决超过32%的测试题目,其中包括28%以上的T3级问题。
编程竞赛(Codeforces)
随着推理强度的提升,OpenAI o3-mini的Elo得分不断提高,各层级表现均优于o1-mini。在中等推理强度下,其表现已能与o1相媲美。
软件工程(SWE-bench Verified)
o3-mini在高推理强度模式下,使用开源Agentless框架能达到39%的成功率,使用内部工具框架则可达到61%的成功率。
LiveBench编码
人类偏好评估
外部专家评测结果显示,o3-mini较o1-mini表现出更强的推理能力,能够生成更准确、更清晰的答案,尤其是在STEM领域中。在对比测试中,o3-mini获得了56%的用户偏好度,且在处理复杂现实问题时的重大错误率降低了39%。
在技术报告中,o3-mini编程性能超越了GPT-4o和o1-preview,与o1不相上下。
模型的速度与性能
o3-mini在保持与o1相当智能水平的同时,实现了更快的运行速度和更高的计算效率。
除前文提到的STEM评估外,在中等推理强度下,o3-mini在其他数学能力和事实准确性测试中均取得了显著优势。
对比测试(A/B Testing)结果显示,o3-mini的平均响应时间为7.7秒,较o1-mini的10.16秒提升了24%。
o1-mini和o3-mini(medium)的延迟对比
安全评估
OpenAI在训练o3-mini确保其安全响应,采用的关键技术之一是审慎对齐(deliberative alignment)。
这项技术使模型能够在响应用户提示词前,对人工制定的安全规范进行全面推理。
与o1相似,o3-mini在高难度安全性测试和越狱评估中,明显优于GPT-4o。
在正式部署前,研究人员采用与o1相同的准备方法,结合外部红队测试和安全性评估,对o3-mini的安全风险进行了全面评估。
禁止内容评估
越狱评估
OpenAI急了
去年年底放出o3和o3-mini的预览时,CEO奥特曼就曾表示,o3-mini将会在1月份发布。
随后,奥特曼又在1月17日预告称,o3-mini会在几周内发布。
现在,o3-mini果然如约而至(卡在ddl最后一天),但外面的世界已经是天差地别。
面对正在快速崛起的DeepSeek-R1,o3-mini存在着一个关键问题——「不开源」。
这也就意味着,它无法离线使用、无法下载代码,也无法以相同的程度进行自定义。对于很多应用过来说,它的吸引力相对于R1明显大打折扣。
在上下文窗口方面,DeepSeek-R1约为128K/130K token,而o3-mini略胜一筹达到了200K token。其中,每个输出最多100K token,跟满血版o1相同。
在价格方面,相比于输入/输出token分别为0.14/0.55美元的DeepSeek-R1,o3-mini依然贵出了天际。
但作为一款美国模型,o3-mini在身份上无疑占尽了好处:应该会是欧美很多企业的首选。
奥特曼亲自率队
这一次,最强最新的o3-mini模型训练,奥特曼本尊下场亲自率队。研究项目主管分别是Carpus Chang和Kristen Ying。
接下来,如果说OpenAI还藏在什么杀手锏,那就是满血版的o3了。根据12月时的说法,它将在「此后不久」发布。
参考资料:
https://openai.com/index/openai-o3-mini/
https://openai.com/index/o3-mini-system-card/
创业邦
创业邦,国际创新生态服务平台。我们致力于打造全球化的创业生态,深度服务创新经济及其推动者,并为创业者提供一站式解决方案。
最新文章
突然官宣解散!日本松下放弃电视业务;《哪吒2》冲进中国影史票房前三;谷歌删除不将AI用于武器研发的承诺条款丨邦早报
最新全球模型榜单:阿里Qwen2.5-Max超DeepSeek V3;OpenAI宣布完成品牌重塑丨AIGC日报
“征服”全球市值一哥,它凭什么?
中国火锅,沸腾海外
《哪吒2》冲击70亿,谁是幕后赢家?
传宁德时代考虑提交香港上市申请,官方暂无回应;极越CEO名下多家公司经营异常丨汽车交通日报
「贪婪」的高铁管家:车票,没有!费用,照收?
县城电影票,凭什么比北上广还贵?
突发!人形机器人Figure宣布与OpenAI终止合作
英伟达GeForce RTX 5090显卡严重缺货;空客拟组建欧洲航天卫星公司,与SpaceX相抗衡丨智能制造日报
这60条思考,读懂DeepSeek创始人梁文锋的与众不同
年薪百万!DeepSeek“招兵买马”;哪吒2中国影史票房第四;谷歌涉嫌违反反垄断法被立案;谷爱凌因伤退出哈尔滨亚冬会丨邦早报
OpenAI奥特曼:OpenAI“没计划”控告DeepSeek;新研究说生成式人工智能可快速分析染色质三维结构丨AIGC日报
这款神药,炒成最火理财产品
特斯拉欧洲销量全面下滑,马斯克争议言论招反感;鸿蒙智行问界M8汽车最新谍照曝光,预计将采用三联屏设计丨汽车交通日报
“霸总”雷军,过得最滋润的一年
今天的年轻人,为什么不结婚了?
DeepSeek或将加速太空自主技术的发展;SpaceX成功发射22颗Starlink卫星 | 商业航天大事记
我国“蛟龙”号载人潜水器升级换装;用户反映更新驱动后英伟达RTX 5090/5090D显卡“变砖”丨智能制造日报
日本流感病例超950万人,过度囤购致药品短缺;多家剧院开放千人场《哪吒2》;超1400万人申请国补买手机等产品丨邦早报
《哪吒》导演饺子,一个“疯子”的18年死磕
OpenAI发布“深度研究”新AI工具,称可以输出分析师级研报;软银与OpenAI在日本成立合资公司,提供AI服务丨AIGC日报
大S流感并发症离世,流感怎么这么猛?
OpenAI上线Deep Research!人类终极考试远超DeepSeek R1
2024年加州自动驾驶测试里程骤降50%,行业整合加速;特斯拉自研4680电池助力Cybertruck产能提升丨汽车交通日报
回来才发现,老家县城彻底颠覆我认知
特朗普与黄仁勋首次会晤,讨论DeepSeek、AI芯片出口;硅谷员工对管理层“向右转”表示不满丨硅谷周报
我国在太空成功验证第三代半导体材料制造的功率器件;日本新型H3火箭5号机发射升空丨智能制造日报
极越夏一平回老家过年被拍:一个人住洗浴中心,头发也白了;哪吒2票房破30亿打破16项纪录;胖东来客流量过大已进行人流管控丨邦早报
这个春节,美国赌城全是中国AI投资人
韩国拟开发新系统打击深度伪造;英特尔:为DeepSeek大模型提供优化工具,降低部署门槛丨AIGC日报
DeepSeek在美风向突变!白宫“评估”其安全影响;TikTok半年离职率翻倍,Meta成热门跳槽地丨Going Global
短剧上“主桌”了,超400部短剧激战春节档,谁是今年的《我在八零年代当后妈》?
比亚迪腾势N9汽车3月份择机上市,混动车型纯电续航里程超200公里;比亚迪海豹05 DM-i汽车将于2月10日上市丨汽车交通日报
拍《唐探》的陈思诚:电影圈牛马成不了艺术家
车自己开出工厂?马斯克:特斯拉FSD进入无监管时代;SpaceX的量子飞跃:星舰如何重新定义太空探索丨智能制造日报
“新造车六强”1月大洗牌:“华为系”第一,小鹏超理想
DeepSeek在美商标被梁文锋校友抢注;小鹏超理想成造车新势力1月销冠;OpenAI CEO因DeepSeek“认错”丨邦早报
瑞幸涨价,“背刺”返乡打工人
阿里云百炼qwen-max系列模型官宣降价;蒸馏技术大幅降低开发成本,有望加速AI应用实际落地丨AIGC日报
回老家的人,后悔县城有房了
针对DeepSeek网络攻击暴增上百倍,多国给DeepSeek使用设限;OpenAI希望再筹400亿美元,继续叠算力丨AI周报
中国汽车出口连续2年全球第一,拉大对日本领先优势;蔚来推出5年0息限时购车政策丨汽车交通日报
中国爆款大片的门,终于被《哪吒2》踹开了
奥特曼率队深夜血战DeepSeek,o3-mini急上线!价格骨折免费用,ChatGPT被挤爆
科学家发现高温零磁场超导二极管效应;中国攻克HBM2内存!第三家厂商已投产身份很特殊丨智能制造日报
春节档票房破50亿!导演回应《哪吒3》何时播;OpenAI上架推理模型o3-mini;三亚西岛致歉丨邦早报
周鸿祎:DeepSeek才是真正的OpenAI,推动了整个行业的发展;美国最大作家组织推出“人类创作”书籍认证丨AIGC日报
第一届“整顿年味”的年轻人,已经爽翻了
第一「网红」小吃,正被中产抛弃
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉