OpenAI发布最强推理大模型o1,实测推理能力独一档,价格贵的可怕

文摘   2024-09-13 14:29   广东  

一觉醒来,OpenAI 发布了新模型 OpenAI o1

原本传说中的strawberry草莓,改名叫 o1-preview 和 o1-mini,目前,Plus用户全量更新。

o1 未延续过往 GPT 系列的命名规则,重新起了一个o系列,寓意从新开始。

奥特曼你终于知道隔壁Claude超你家了吗

我已经一段时间没有订阅GPT Plus了,原本是没有资格体验o1,无奈朋友给力啊,此处感谢@所罗门无偿提供的Plus账号。

ChatGPT官网界面已更新,GPT-4o mini 和GPT4 都只能排最后,o1模型应该很快会替代原有的4o成为主流。

在本文,我将分几个章节,展开个人对OpenAI o1的解读,包括:

特性与功能

价格与限制

实操体验

01


o1特性
  • o1 和 o1-mini能花更多时间思考,然后再做出响应。他们可以推理完成复杂的任务并解决比以前的科学、编码和数学模型更难的问题。

  • 采用了一种新的安全培训方法,该方法利用他们的推理能力使他们遵守安全和对齐准则。在越狱测试中,o1 和 o1-mini 都显示出比 GPT-4o 更高的安全性。

o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。

o1 在广泛的基准测试中表现优于 GPT-4o,涵盖了 54/57 的 MMLU 子类别。

在众多推理密集型基准测试中,O1 的性能能够与人类专家的性能相媲美。

目前Open o1处于半成品状态,尚未完全工程化。在 ChatGPT 官网中不支持联网、画图、上传文件分析等功能,只支持文字对话;

在 2024 年 AIME 考试中,GPT-4o 平均仅解决了 12%(1.8/15)的问题。O1 平均为 74%(11.1/15),且每个问题仅有一个样本。在 64 个样本中,83%(12.5/15)达成一致。当使用学习评分函数对 1000 个样本进行重新排名时,93%(13.9/15)。取得 13.9 分的成绩可跻身全国前 500 名学生之列,该成绩高于美国数学奥林匹克竞赛的分数线。

Chain of Thought 思维链

o1 模型在尝试解决问题时会使用思维链,将棘手的步骤分解为更简单的步骤(类似Agent),此过程显著提高了模型的推理能力。

可以理解为,o1 内部处理问题默认会采用思维链的方式来思考,一步到位。

山姆·奥特曼非常满意本次的更新。

02


价格&次数限制

ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的 o1 模型,o1-preview 限制在了 30 条/周,o1-mini 限制在了 50 条/周。

价格相对而言较为昂贵。

o1-preview

128k 上下文,32k 最大输出,训练数据截止于2023年10月

o1-mini

128k 上下文,64k 最大输出,训练数据截于2023年10月

03


实测 o1

有一说一,o1 更多提升了大模型的推理能力,并非全方面碾压所有大模型,可能很强,但不要尬吹

OpenA I引入了 self-play,很难说他就是最好的,毕竟claude也不弱。

o1最明显的表现就是思考时间更长了,经典问题9.11和9.9,哪个数字大,终于回答正确了。

这就是思维链思考的魅力,大模型会先把9.9转化为9.90,然后再和9.11比较。

o1 提供了一些默认的问题,比如“单词 strawberry 中有多少个字母 r?”

可将此问题置于其他大型模型中进行提问,然而所得到的答案往往难以确保正确性。

其他大模型回复结果
OpenAI o1回复

对于这种简单的的问题,以往大模型经常会出错,o1总算有所长进。

在网上找了一道稍微有一点点难度的逻辑思考题:

A、B、C、D四个学生参加一次数学竞赛,赛后他们四人预测名次如下:

A说:“C第一,我第三。”

B说:“我第一,D第四。”

C说:“我第三,D第二。”

D没有说话。

等到最后公布考试成绩时,发现他们每人预测对了一半,请说出他们竞赛的排名次序。

回答是正确的,可以看看o1思考的过程,从思考过程探讨原理。

这也是为什么 o1 强调花更多时间思考,完成复杂的任务。

处理问题过程中,o1会用Agent的方式,把问题拆分成多个小任务,小问题,并按顺序去执行,比如这道题,o1会先检查题目的目的,然后规划整个处理流程。

收集信息 > 探求排名 > 确定首位 > 初步分析 > 重新分析Rank > 核实预测正确性

比如这道题:

中国2024年9月9日(星期一)开始到10月13日的放假调休安排:

上6休3上3休2上5休1上2休7再上5休1。

正常的放假安排:普通的周末,9月份有一个中秋节放假1天和国庆节法定假期放假7天

请你告诉我除了我本来该休的周末,我因为放假多休息了几天?

这是o1的答案:

这是网友的答案:

四舍五入等于多放7天,真爽。

其实再深入思考了一下,大模型有可能不理解放假的规则,如果我把具体的规则和细节告诉大模型,是否就能得到完整的答案。

可是,到这里,次数已经用完了,别说一周30次,一天30次也不够用啊。

只能换成o1-mini了。

这是中国2024年9月9日(星期一)开始到10月13日的放假调休安排:

上6休3上3休2上5休1上2休7再上5休1。

正常的放假安排:普通的周末放假,9月份有一个中秋节放假1天和国庆节法定假期放假7天

请注意:假期可能与周末重叠的情况

请你告诉我除了我本来该休的周末和法定假期,我因为放假多休息了几天?

有一说一,同样的提示,在其他大模型上没有得到正确的回复。

04


一点思考

最后,我觉得o1在思考推理这个维度非常强,但目前来说和大部分人来说,并没有太大的关系。

别的不说,价格非常贵,如果平日用来写写文案,写写代码,还用不上。

但站在科研发展的角度上,OpenAI 又一次走到了前面,某一个领域,可以基于o1的强大推理思考能力,或许能够实现重大飞跃。

特别鸣谢所罗门提供的Plus账号。

wx: gptplusmidjourney  如有需要,备注伟豪推荐享有折扣优惠


如果本文章能给你一点启发,感谢点个赞、在看、转发三连,如果想第一时间收到推送,请点上星标⭐关注公众号,回复“知识库”,获取伟豪的精选知识库知识。


欢迎加入伟豪的免费知识星球,可以看到我每天更新的成长、AI媒体信息限时免费哈,已经满3000人了。

伟豪学长AI
沉浸式体验AI工具
 最新文章