OpenAI o1 模型正式发布并已上线,拥有系统2思维的GPT,会强到什么地步?

教育   2024-09-13 10:28   浙江  

AI 圈在沉寂了一段时间后,终于又热闹起来了!
昨天刚被一个claude提示词刷屏,我也是想尽办法,终于注册了一个claude,发现他在文本处理方面确实🐂🍺
而且直接输出SVG,就是直接展示成图片,文字还非常犀利,贴几张你看一下:

...
然而,今天凌晨,OpenAI 发布了新的 o1 模型,再次封神!

直接先跑个分(已翻译成中文)

在逻辑和推理能力上,碾压GPT-4o,这玩意有多离谱。

AIME 2024,一个高水平的数学竞赛,GPT4o准确率为13.4%,而这次的o1 预览版,是56.7%,还未发布的o1正式版,是83.3%。
代码竞赛,GPT4o准确率为11.0%,o1 预览版为62%,o1正式版,是89%。
而最牛逼的博士级科学问题 (GPQA Diamond),GPT4o是56.1,人类专家水平是69.7,o1达到了恐怖的78%。
...
所以,这个 o1,到底是个啥?
o1是通过学习机制,也就是Self-play RL,训练的大模型。
o1学会了磨练其思维链并完善所使用的策略,学会了识别和纠正自己的错误。
这用一个简单的比喻,来解释Self-play强化学习:

想象o1模型是一个正在学习下棋的小孩。

这个小孩不是通过与人类对弈来学习,而是不断地与自己对弈。


每次下棋时,它会: 

1、分成两个"自我",互相对弈

2、记录每一步棋的好坏

3、根据对弈结果,调整自己的策略


通过这种方式,o1模型能够: 

-快速积累大量经验 

-不断发现新策略 

-克服自己的弱点 


随着时间推移,O1模型会变得越来越强。


它不仅学会了基本规则,还能发展出复杂的策略,甚至可能超越人类棋手的水平。


这种学习方法的优点是: 

-效率高: 不需要人类参与,可以24小时不停训练 

-创新性强: 可能发现人类没想到的新策略

-适应性好: 能够不断调整以应对不同情况


他学会的这些,就是我们人类,最核心的思考方式:慢思考
诺贝尔经济学奖得主丹尼尔·卡尼曼有一本著作,名叫:《思考,快与慢》。
非常详细的阐述了人类的两种思考方式:

系统1的例子(快速、自动、直觉的思考):

🔸看到红灯时立即停车 - 这是一种条件反射,无需深思
🔸听到熟悉的歌曲就不自觉地跟着哼唱 - 这是一种自发的反应
🔸闻到食物香味时口水分泌 - 这是身体的自然反应,不需要刻意思考

系统2的例子(缓慢、费力、有意识的思考):

🔹计算复杂的数学题,如23 x 17 - 这需要集中注意力逐步计算
🔹学习一项新技能,如弹钢琴 - 需要刻意练习和反复思考
🔹做出重要决定,如选择工作或购买房子 - 需要仔细权衡各种因素

...

那么,拥有系统2思维的o1,到底有多🐂🍺?
我还没有权限,看了网上的资料,o1现在可以做对姜萍参加的奥数题了!
一些智力题也自然不在话下。
X 上的 Andrej Karpathy 大神,还问了一个深刻的问题:

o1 答复:

我直接在微信中翻译了下,o1想了一会儿,然后回答:
...
目前,o1模型已经逐步向所有ChatGPT Plus和 Team 用户开放,未来会考虑对免费用户开放。
但是有如下限制,可见新模型的成本也非常高:
o1预览版每周30条,o1-mini每周50条。
...
感觉一个新纪元已经打开,各大模型应该都会跟上这种模式,OpenAI又引领了时代!
...
✨你觉得OpenAI 的新模型怎么样?你有什么问题想问他的?欢迎留言分享,或转发给身边的朋友~
✨扫👇备注「加群」,还有下图中的超多干货!

思维不定势
突破自我限制,跳出思维定势!分享新思想,新科技,还有AI前沿!
 最新文章