昨天刚被一个claude提示词刷屏,我也是想尽办法,终于注册了一个claude,发现他在文本处理方面确实🐂🍺而且直接输出SVG,就是直接展示成图片,文字还非常犀利,贴几张你看一下:
然而,今天凌晨,OpenAI 发布了新的 o1 模型,再次封神!
在逻辑和推理能力上,碾压GPT-4o,这玩意有多离谱。
AIME 2024,一个高水平的数学竞赛,GPT4o准确率为13.4%,而这次的o1 预览版,是56.7%,还未发布的o1正式版,是83.3%。代码竞赛,GPT4o准确率为11.0%,o1 预览版为62%,o1正式版,是89%。而最牛逼的博士级科学问题 (GPQA Diamond),GPT4o是56.1,人类专家水平是69.7,o1达到了恐怖的78%。o1是通过自学习机制,也就是Self-play RL,训练的大模型。o1学会了磨练其思维链并完善所使用的策略,学会了识别和纠正自己的错误。这用一个简单的比喻,来解释Self-play强化学习:想象o1模型是一个正在学习下棋的小孩。
这个小孩不是通过与人类对弈来学习,而是不断地与自己对弈。
每次下棋时,它会:
1、分成两个"自我",互相对弈
2、记录每一步棋的好坏
3、根据对弈结果,调整自己的策略
通过这种方式,o1模型能够:
-快速积累大量经验
-不断发现新策略
-克服自己的弱点
随着时间推移,O1模型会变得越来越强。
它不仅学会了基本规则,还能发展出复杂的策略,甚至可能超越人类棋手的水平。
这种学习方法的优点是:
-效率高: 不需要人类参与,可以24小时不停训练
-创新性强: 可能发现人类没想到的新策略
-适应性好: 能够不断调整以应对不同情况
他学会的这些,就是我们人类,最核心的思考方式:慢思考。诺贝尔经济学奖得主丹尼尔·卡尼曼有一本著作,名叫:《思考,快与慢》。系统1的例子(快速、自动、直觉的思考):
🔸看到红灯时立即停车 - 这是一种条件反射,无需深思
🔸听到熟悉的歌曲就不自觉地跟着哼唱 - 这是一种自发的反应
🔸闻到食物香味时口水分泌 - 这是身体的自然反应,不需要刻意思考
系统2的例子(缓慢、费力、有意识的思考):
🔹计算复杂的数学题,如23 x 17 - 这需要集中注意力逐步计算
🔹学习一项新技能,如弹钢琴 - 需要刻意练习和反复思考
🔹做出重要决定,如选择工作或购买房子 - 需要仔细权衡各种因素
...
我还没有权限,看了网上的资料,o1现在可以做对姜萍参加的奥数题了!X 上的 Andrej Karpathy 大神,还问了一个深刻的问题:
o1 答复:
我直接在微信中翻译了下,o1想了一会儿,然后回答:目前,o1模型已经逐步向所有ChatGPT Plus和 Team 用户开放,未来会考虑对免费用户开放。感觉一个新纪元已经打开,各大模型应该都会跟上这种模式,OpenAI又引领了时代!✨你觉得OpenAI 的新模型怎么样?你有什么问题想问他的?欢迎留言分享,或转发给身边的朋友~