OpenAI发布最强推理大模型o1，实测推理能力独一档，价格贵的可怕

文摘 2024-09-13 14:29 广东

一觉醒来，OpenAI 发布了新模型 OpenAI o1。

原本传说中的strawberry草莓，改名叫 o1-preview 和 o1-mini，目前，Plus用户全量更新。

o1 未延续过往 GPT 系列的命名规则，重新起了一个o系列，寓意从新开始。

奥特曼你终于知道隔壁Claude超你家了吗

我已经一段时间没有订阅GPT Plus了，原本是没有资格体验o1，无奈朋友给力啊，此处感谢@所罗门无偿提供的Plus账号。

ChatGPT官网界面已更新，GPT-4o mini 和GPT4 都只能排最后，o1模型应该很快会替代原有的4o成为主流。

在本文，我将分几个章节，展开个人对OpenAI o1的解读，包括：

特性与功能

价格与限制

实操体验

o1特性

o1 和 o1-mini能花更多时间思考，然后再做出响应。他们可以推理完成复杂的任务并解决比以前的科学、编码和数学模型更难的问题。
采用了一种新的安全培训方法，该方法利用他们的推理能力使他们遵守安全和对齐准则。在越狱测试中，o1 和 o1-mini 都显示出比 GPT-4o 更高的安全性。

o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。

o1 在广泛的基准测试中表现优于 GPT-4o，涵盖了 54/57 的 MMLU 子类别。

在众多推理密集型基准测试中，O1 的性能能够与人类专家的性能相媲美。

目前Open o1处于半成品状态，尚未完全工程化。在 ChatGPT 官网中不支持联网、画图、上传文件分析等功能，只支持文字对话；

在 2024 年 AIME 考试中，GPT-4o 平均仅解决了 12%（1.8/15）的问题。O1 平均为 74%（11.1/15），且每个问题仅有一个样本。在 64 个样本中，83%（12.5/15）达成一致。当使用学习评分函数对 1000 个样本进行重新排名时，93%（13.9/15）。取得 13.9 分的成绩可跻身全国前 500 名学生之列，该成绩高于美国数学奥林匹克竞赛的分数线。

Chain of Thought 思维链

o1 模型在尝试解决问题时会使用思维链，将棘手的步骤分解为更简单的步骤（类似Agent），此过程显著提高了模型的推理能力。

可以理解为，o1 内部处理问题默认会采用思维链的方式来思考，一步到位。

山姆·奥特曼非常满意本次的更新。

价格&次数限制

ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的 o1 模型，o1-preview 限制在了 30 条/周，o1-mini 限制在了 50 条/周。

价格相对而言较为昂贵。

o1-preview

128k 上下文，32k 最大输出，训练数据截止于2023年10月

o1-mini

128k 上下文，64k 最大输出，训练数据截于2023年10月

实测 o1

有一说一，o1 更多提升了大模型的推理能力，并非全方面碾压所有大模型，可能很强，但不要尬吹。

OpenA I引入了 self-play，很难说他就是最好的，毕竟claude也不弱。

o1最明显的表现就是思考时间更长了，经典问题9.11和9.9，哪个数字大，终于回答正确了。

这就是思维链思考的魅力，大模型会先把9.9转化为9.90，然后再和9.11比较。

o1 提供了一些默认的问题，比如“单词 strawberry 中有多少个字母 r？”

可将此问题置于其他大型模型中进行提问，然而所得到的答案往往难以确保正确性。

对于这种简单的的问题，以往大模型经常会出错，o1总算有所长进。

在网上找了一道稍微有一点点难度的逻辑思考题：

A、B、C、D四个学生参加一次数学竞赛，赛后他们四人预测名次如下：

A说：“C第一，我第三。”

B说：“我第一，D第四。”

C说：“我第三，D第二。”

D没有说话。

等到最后公布考试成绩时，发现他们每人预测对了一半，请说出他们竞赛的排名次序。

回答是正确的，可以看看o1思考的过程，从思考过程探讨原理。

这也是为什么 o1 强调花更多时间思考，完成复杂的任务。

处理问题过程中，o1会用Agent的方式，把问题拆分成多个小任务，小问题，并按顺序去执行，比如这道题，o1会先检查题目的目的，然后规划整个处理流程。

收集信息 > 探求排名 > 确定首位 > 初步分析 > 重新分析Rank > 核实预测正确性

比如这道题：

中国2024年9月9日（星期一）开始到10月13日的放假调休安排:

上6休3上3休2上5休1上2休7再上5休1。

正常的放假安排：普通的周末，9月份有一个中秋节放假1天和国庆节法定假期放假7天

请你告诉我除了我本来该休的周末，我因为放假多休息了几天？

这是o1的答案：

这是网友的答案：

四舍五入等于多放7天，真爽。

其实再深入思考了一下，大模型有可能不理解放假的规则，如果我把具体的规则和细节告诉大模型，是否就能得到完整的答案。

可是，到这里，次数已经用完了，别说一周30次，一天30次也不够用啊。

只能换成o1-mini了。

这是中国2024年9月9日（星期一）开始到10月13日的放假调休安排:

上6休3上3休2上5休1上2休7再上5休1。

正常的放假安排：普通的周末放假，9月份有一个中秋节放假1天和国庆节法定假期放假7天

请注意：假期可能与周末重叠的情况

请你告诉我除了我本来该休的周末和法定假期，我因为放假多休息了几天？

有一说一，同样的提示，在其他大模型上没有得到正确的回复。

一点思考

最后，我觉得o1在思考推理这个维度非常强，但目前来说和大部分人来说，并没有太大的关系。

别的不说，价格非常贵，如果平日用来写写文案，写写代码，还用不上。

但站在科研发展的角度上，OpenAI 又一次走到了前面，某一个领域，可以基于o1的强大推理思考能力，或许能够实现重大飞跃。

特别鸣谢所罗门提供的Plus账号。

wx: gptplusmidjourney 如有需要，备注伟豪推荐享有折扣优惠

如果本文章能给你一点启发，感谢点个赞、在看、转发三连，如果想第一时间收到推送，请点上星标⭐关注公众号，回复“知识库”，获取伟豪的精选知识库知识。

欢迎加入伟豪的免费知识星球，可以看到我每天更新的成长、AI媒体信息限时免费哈，已经满3000人了。

http://mp.weixin.qq.com/s?__biz=MzkzMzUyMjMzMg==&mid=2247487439&idx=1&sn=d670b0fe57057d8c936e92184dd414cd

伟豪学长AI

沉浸式体验AI工具

最新文章

AI生成工具：一键提取视频号选品数据，视频号小绿书带货必备，免费领取

微信服务号不会注册？一文带你读懂微信服务号，少走弯路

多账号管理，每天都要扫码登录，很烦！试试这个工具。

无需营业执照！个人也能微信服务号（附方法）

当AI学会用电脑后，人类都坐不住了，Claude3.5操控计算机保姆级教程

Claude 3.5 升级！AI自动操作你的电脑，还需要人类吗

直播预告｜用AI+RPA自动化抓住小绿书第一波红利，没有回放

小绿书原创图文不会做？试试用Kimi，1分钟一条，非常方便

小绿书文案不会写，在Kimi上用这个AI提示词，助你起飞

国内首部以“生成式人工智能”为应用背景的知识产权标准，诚邀参编！

特斯拉发布会，没方向盘和踏板！，可能这才是真正的自动驾驶

小绿书选品不会选？RPA一键导出，AI决策分析，小白也能成为选品专家（附免费工具）

小绿书带货不会做图？AI智能体扣子一键生成原创爆款图，5分钟学会（保姆级教程）

AI视频Pika更新1.5，一键恶搞整活，川普表情包已笑不活了

小绿书带货一夜爆火，零粉也能做，保姆级教程一看就会（RPA自动化工具免费送）

人间清醒老奶奶爆火，1月涨粉几十万，1分钟制作保姆级教程，一学就会

又一个躺赚！全自动AI头条爆文，月入2万太简单了！

一学就会，1分钟教会你，让照片中人物开口说话的方法！

不用写代码，不用手动上传，腾讯元器让你的公众号变身AI客服，简单到哭!

万万没想到，有人用AI做了《万万没想到》的续集，爆了130万赞

这1300个美女都是AI，你敢相信吗

OpenAI发布最强推理大模型o1，实测推理能力独一档，价格贵的可怕

国产AI也能玩转"汉语新解"？我用通义千问直出爆款文字卡片（附提示词）

AI自动化，批量RPA工具一键提取润色短视频文案，10分钟完成100条原创爆款文案

参加了AI破局的线下大会，我发现遍地都是机会

看完第九届世界渲染大赛，我又相信人比AI强了

短视频必备！教你如何一键提取短视频文案（保姆级教程）

超适合入门的AI智能体平台！无需工作流，也能一键生成小红书爆款文案

别只会喊ChatGPT了！智谱视频通话上线，GLM-4V-Plus跑分持平GPT-4o，API免费（附申请链接）

夸克PC版上线，一键让你的电脑变身AI助手，承包一整天的工作学习，效率飙升100倍!

一分钟教你用AI生成超美《黑神话：悟空》壁纸，媲美MJ品质！

猿神启动！国产3A梦想成真，AI界的黑神话还会远吗？

AI写作总是跑偏？学会「结构化输出」,让AI乖乖按你想要的来

AI搜索惹祸上身，知网：连摘要都不让碰！

把Midjourney打下神坛的Flux何方神圣，这几个免费体验地址，请收藏起来

10万赞的爆款图文，我用RPA一键生成，不用1分钟批量出图（附搭建全流程+代码）

这样给大模型喂数据，AI更懂你

推荐几款AI智能体插件，5分钟学会，用上后让你工作提效十倍

不会写提示词？试试这几款提示词优化器，5分钟生成，非常方便

这款一款AI助手工具，15大模型随意切换，综合能力完超GPT-4o，完全不用学提示词

Midjourney发布V6.1，更快、更清晰、更漂亮，人人都能制作大片

我用RPA+Kimi+可灵做了款爆款治愈图文生成器，效果太好了（免费领用）

32.2万粉丝，月入3000英镑！AI虚拟网红大揭秘（文末赠送福利）

这10个超好用的AI小程序，全都免费，最后一个，我不允许你不知道！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉