一觉醒来,OpenAI 发布了新模型 OpenAI o1。
原本传说中的strawberry草莓,改名叫 o1-preview 和 o1-mini,目前,Plus用户全量更新。
o1 未延续过往 GPT 系列的命名规则,重新起了一个o系列,寓意从新开始。
奥特曼你终于知道隔壁Claude超你家了吗
我已经一段时间没有订阅GPT Plus了,原本是没有资格体验o1,无奈朋友给力啊,此处感谢@所罗门无偿提供的Plus账号。
ChatGPT官网界面已更新,GPT-4o mini 和GPT4 都只能排最后,o1模型应该很快会替代原有的4o成为主流。
在本文,我将分几个章节,展开个人对OpenAI o1的解读,包括:
特性与功能
价格与限制
实操体验
01
o1 和 o1-mini能花更多时间思考,然后再做出响应。他们可以推理完成复杂的任务并解决比以前的科学、编码和数学模型更难的问题。
采用了一种新的安全培训方法,该方法利用他们的推理能力使他们遵守安全和对齐准则。在越狱测试中,o1 和 o1-mini 都显示出比 GPT-4o 更高的安全性。
o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。
o1 在广泛的基准测试中表现优于 GPT-4o,涵盖了 54/57 的 MMLU 子类别。
在众多推理密集型基准测试中,O1 的性能能够与人类专家的性能相媲美。
目前Open o1处于半成品状态,尚未完全工程化。在 ChatGPT 官网中不支持联网、画图、上传文件分析等功能,只支持文字对话;
在 2024 年 AIME 考试中,GPT-4o 平均仅解决了 12%(1.8/15)的问题。O1 平均为 74%(11.1/15),且每个问题仅有一个样本。在 64 个样本中,83%(12.5/15)达成一致。当使用学习评分函数对 1000 个样本进行重新排名时,93%(13.9/15)。取得 13.9 分的成绩可跻身全国前 500 名学生之列,该成绩高于美国数学奥林匹克竞赛的分数线。
Chain of Thought 思维链
o1 模型在尝试解决问题时会使用思维链,将棘手的步骤分解为更简单的步骤(类似Agent),此过程显著提高了模型的推理能力。
可以理解为,o1 内部处理问题默认会采用思维链的方式来思考,一步到位。
山姆·奥特曼非常满意本次的更新。
02
ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的 o1 模型,o1-preview 限制在了 30 条/周,o1-mini 限制在了 50 条/周。
价格相对而言较为昂贵。
o1-preview
128k 上下文,32k 最大输出,训练数据截止于2023年10月
o1-mini
128k 上下文,64k 最大输出,训练数据截于2023年10月
03
有一说一,o1 更多提升了大模型的推理能力,并非全方面碾压所有大模型,可能很强,但不要尬吹。
OpenA I引入了 self-play,很难说他就是最好的,毕竟claude也不弱。
o1最明显的表现就是思考时间更长了,经典问题9.11和9.9,哪个数字大,终于回答正确了。
这就是思维链思考的魅力,大模型会先把9.9转化为9.90,然后再和9.11比较。
o1 提供了一些默认的问题,比如“单词 strawberry 中有多少个字母 r?”
可将此问题置于其他大型模型中进行提问,然而所得到的答案往往难以确保正确性。
对于这种简单的的问题,以往大模型经常会出错,o1总算有所长进。
在网上找了一道稍微有一点点难度的逻辑思考题:
A、B、C、D四个学生参加一次数学竞赛,赛后他们四人预测名次如下:
A说:“C第一,我第三。”
B说:“我第一,D第四。”
C说:“我第三,D第二。”
D没有说话。
等到最后公布考试成绩时,发现他们每人预测对了一半,请说出他们竞赛的排名次序。
回答是正确的,可以看看o1思考的过程,从思考过程探讨原理。
这也是为什么 o1 强调花更多时间思考,完成复杂的任务。
处理问题过程中,o1会用Agent的方式,把问题拆分成多个小任务,小问题,并按顺序去执行,比如这道题,o1会先检查题目的目的,然后规划整个处理流程。
收集信息 > 探求排名 > 确定首位 > 初步分析 > 重新分析Rank > 核实预测正确性
比如这道题:
中国2024年9月9日(星期一)开始到10月13日的放假调休安排:
上6休3上3休2上5休1上2休7再上5休1。
正常的放假安排:普通的周末,9月份有一个中秋节放假1天和国庆节法定假期放假7天
请你告诉我除了我本来该休的周末,我因为放假多休息了几天?
这是o1的答案:
这是网友的答案:
四舍五入等于多放7天,真爽。
其实再深入思考了一下,大模型有可能不理解放假的规则,如果我把具体的规则和细节告诉大模型,是否就能得到完整的答案。
可是,到这里,次数已经用完了,别说一周30次,一天30次也不够用啊。
只能换成o1-mini了。
这是中国2024年9月9日(星期一)开始到10月13日的放假调休安排:
上6休3上3休2上5休1上2休7再上5休1。
正常的放假安排:普通的周末放假,9月份有一个中秋节放假1天和国庆节法定假期放假7天
请注意:假期可能与周末重叠的情况
请你告诉我除了我本来该休的周末和法定假期,我因为放假多休息了几天?
有一说一,同样的提示,在其他大模型上没有得到正确的回复。
04
最后,我觉得o1在思考推理这个维度非常强,但目前来说和大部分人来说,并没有太大的关系。
别的不说,价格非常贵,如果平日用来写写文案,写写代码,还用不上。
但站在科研发展的角度上,OpenAI 又一次走到了前面,某一个领域,可以基于o1的强大推理思考能力,或许能够实现重大飞跃。
特别鸣谢所罗门提供的Plus账号。
wx: gptplusmidjourney 如有需要,备注伟豪推荐享有折扣优惠
如果本文章能给你一点启发,感谢点个赞、在看、转发三连,如果想第一时间收到推送,请点上星标⭐关注公众号,回复“知识库”,获取伟豪的精选知识库知识。
欢迎加入伟豪的免费知识星球,可以看到我每天更新的成长、AI媒体信息限时免费哈,已经满3000人了。