OpenAI o1 模型正式发布并已上线，拥有系统2思维的GPT，会强到什么地步？

教育 2024-09-13 10:28 浙江

AI 圈在沉寂了一段时间后，终于又热闹起来了！

昨天刚被一个claude提示词刷屏，我也是想尽办法，终于注册了一个claude，发现他在文本处理方面确实🐂🍺

而且直接输出SVG，就是直接展示成图片，文字还非常犀利，贴几张你看一下：

...

然而，今天凌晨，OpenAI 发布了新的 o1 模型，再次封神！

直接先跑个分（已翻译成中文）

在逻辑和推理能力上，碾压GPT-4o，这玩意有多离谱。

AIME 2024，一个高水平的数学竞赛，GPT4o准确率为13.4%，而这次的o1 预览版，是56.7%，还未发布的o1正式版，是83.3%。

代码竞赛，GPT4o准确率为11.0%，o1 预览版为62%，o1正式版，是89%。

而最牛逼的博士级科学问题 (GPQA Diamond)，GPT4o是56.1，人类专家水平是69.7，o1达到了恐怖的78%。

...

所以，这个 o1，到底是个啥？

o1是通过自学习机制，也就是Self-play RL，训练的大模型。

o1学会了磨练其思维链并完善所使用的策略，学会了识别和纠正自己的错误。

这用一个简单的比喻，来解释Self-play强化学习:

想象o1模型是一个正在学习下棋的小孩。
这个小孩不是通过与人类对弈来学习，而是不断地与自己对弈。

每次下棋时，它会:
1、分成两个"自我"，互相对弈
2、记录每一步棋的好坏
3、根据对弈结果，调整自己的策略

通过这种方式，o1模型能够:
-快速积累大量经验
-不断发现新策略
-克服自己的弱点

随着时间推移，O1模型会变得越来越强。

它不仅学会了基本规则，还能发展出复杂的策略，甚至可能超越人类棋手的水平。

这种学习方法的优点是:
-效率高: 不需要人类参与，可以24小时不停训练
-创新性强: 可能发现人类没想到的新策略
-适应性好: 能够不断调整以应对不同情况

他学会的这些，就是我们人类，最核心的思考方式：慢思考。

诺贝尔经济学奖得主丹尼尔·卡尼曼有一本著作，名叫：《思考，快与慢》。

非常详细的阐述了人类的两种思考方式：

系统1的例子(快速、自动、直觉的思考):

🔸看到红灯时立即停车 - 这是一种条件反射,无需深思
🔸听到熟悉的歌曲就不自觉地跟着哼唱 - 这是一种自发的反应
🔸闻到食物香味时口水分泌 - 这是身体的自然反应，不需要刻意思考

系统2的例子(缓慢、费力、有意识的思考):

🔹计算复杂的数学题，如23 x 17 - 这需要集中注意力逐步计算
🔹学习一项新技能，如弹钢琴 - 需要刻意练习和反复思考
🔹做出重要决定，如选择工作或购买房子 - 需要仔细权衡各种因素

...

那么，拥有系统2思维的o1，到底有多🐂🍺？

我还没有权限，看了网上的资料，o1现在可以做对姜萍参加的奥数题了！

一些智力题也自然不在话下。

X 上的 Andrej Karpathy 大神，还问了一个深刻的问题：

o1 答复：

我直接在微信中翻译了下，o1想了一会儿，然后回答：

...

目前，o1模型已经逐步向所有ChatGPT Plus和 Team 用户开放，未来会考虑对免费用户开放。

但是有如下限制，可见新模型的成本也非常高：

o1预览版每周30条，o1-mini每周50条。

...

感觉一个新纪元已经打开，各大模型应该都会跟上这种模式，OpenAI又引领了时代！

...

✨你觉得OpenAI 的新模型怎么样？你有什么问题想问他的？欢迎留言分享，或转发给身边的朋友~

✨扫👇备注「加群」，还有下图中的超多干货！

http://mp.weixin.qq.com/s?__biz=MzIwMjI3OTQzMg==&mid=2247487415&idx=1&sn=d25ba7284cc11da3d12e631b7b3b7fa0

思维不定势

突破自我限制，跳出思维定势！分享新思想，新科技，还有AI前沿！

AI 要对便便下手了，分析你的便便，你敢信？

第一期AI创作体验课圆满结束，正式课马上就来

「网红」这个职业的2个秘密

第1期，好用AI工具榜

第201篇，AI学习精选文章合集

这些AI已经可以理解狗狗叫声、鸟语、婴儿啼哭了

哪些行业创造的财富最多？第一名你可能都看不上

全世界的财富都在哪里？

个人实现财富自由的路径，他们都有这4个特点

牛市二阶段来了？买点啥呢，先看看这本《万亿指数》

个人自由现金流的3个误解，你也有吗

《侥幸》：机缘巧合还是命中注定？

《奇点更近》2045 年将迎来奇点时刻

为什么听过很多道理，却还是过不好这一生？

问题越解决越糟？来试试反直觉的解决方案

人生和工作的结果 = 思维方式 × 热情 × 能力 | 《干法》

5个问题，帮你快速识人

财富和幸福指南，都在这本书里了 | 《纳瓦尔宝典》

要想让自己有丰富蓬勃的一生，这一生就不能是为了自己而活

「高龄」职场人的转行之路，四十才是当打之年

GAP Year 后，想重新找工作，怎么办？

大脑也能换挡？怎么换？|《超高效》

为什么知道很多道理，却依然过不好这一生？| 《中年之路2》

什么是财富自由的关键？

看电视让人变笨，玩游戏让人聪明

o1会有邪恶的想法？AI该不该「非礼勿想」？

用向下射击的机枪组装成一个飞行背包，能让人飞天吗? | 围观o1怎么回答

告别苦哈哈写函数，用好AI，成为Excel高手