上周发布的OpenAI 的o1 新模型彻底颠覆了我们对AI模型能力的认知。
OpenAI的新模型o1-preview 直接把GPT-4o给干翻了!不仅如此,它还在ARC Prize测试中与Claude 3.5 Sonnet打得有来有回。
这不是要让其他AI模型集体失业吗?
那问题来了,o1 这个"怪物"能带我们通向AGI(通用人工智能)吗?
o1模型:OpenAI的新宠儿
OpenAI刚刚发布了他们的最新模型家族o1,包括o1-preview
和o1-mini
两个版本。这两个小家伙可不简单,它们在ARC-AGI公开评估数据集上的表现直接超越了GPT-4o!
来看看具体数据:
模型名称 | 公开评估得分 | 半私有评估得分 | 平均每任务用时(分钟) |
---|---|---|---|
o1-preview | 21.2% | 18% | 4.2 |
Claude 3.5 | 21% | 14% | 0.3 |
o1-mini | 12.8% | 9.5% | 3.0 |
GPT-4o | 9% | 5% | 0.3 |
Gemini 1.5 | 8% | 4.5% | 1.1 |
o1-preview不仅打败了GPT-4o,还与Claude 3.5 Sonnet不相上下。虽然它用时比Claude 3.5多了10倍,但这已经是相当惊人的成绩了!
链式思考:o1的制胜法宝
那么,o1是如何做到这一点的呢?
答案就在于它的核心技术:链式思考(Chain-of-Thought,CoT)。
上图展示了o1在不同任务上的表现。
这就是链式思考的威力!
简单来说,链式思考就是让AI像人类一样,一步一步地思考问题。OpenAI在训练和推理过程中都应用了这种方法,使得o1在需要规划的任务上表现更好。
不仅如此,OpenAI还使用了新的强化学习算法,让o1能够在推理时不断优化自己的思考策略。这就像是给AI装上了一个"自我完善"的引擎,太酷了!
测试时计算量:性能提升的秘密武器?
但是,o1的强大表现背后还有一个秘密:测试时计算量。
简单来说,就是给AI更多的时间和计算资源来思考问题。这就像是让学生做题时多给一些时间,naturally,成绩会更好。
上图展示了随着计算量的增加,模型的准确率如何提升。
看到这漂亮的上升曲线了吗?
这就是为什么o1能够在某些任务上表现得如此出色。
但是,这也带来了一个问题:**如何客观地比较不同AI系统的智能水平?**毕竟,给的时间越多,表现自然越好。这就像是比赛跑步,但允许有些人骑自行车一样,不太公平对吧?
挑战与局限:o1模型的"软肋"
虽然o1在很多任务上表现出色,但它在ARC-AGI测试中的表现却不如预期。这是为什么呢?
原因可能在于,o1主要是在已知的思考模式上做得更好了,但面对全新的、需要创造性思维的问题时,它仍然力不从心。
这就像是一个学霸,他可以很快地解决已经学过的题型,但遇到完全陌生的问题时,可能就会卡壳。
o1模型 vs AGI
那么,o1模型是否意味着我们离AGI更近了一步呢?
答案是:既是,又不是。
一方面,o1展示了链式思考和测试时优化的强大潜力,这无疑是向AGI迈进的一大步。
但另一方面,o1的局限性也提醒我们,真正的AGI还需要更多创新。我们需要的不仅是能够更好地"记忆推理过程"的AI,还需要能够真正"创造性思考"的AI。
正如ARC Prize的研究者所说:
我们仍然需要新的想法来实现AGI。
👇
👇
👇
👇
本文同步自于知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本。
每天挖掘出10+ 热门的/新的 github 开源 AI 项目
每天转译、点评 10+ 热门 arxiv AI 前沿论文
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!
👇👇👇快人一步,掌控AI👇👇👇