o1模型能否通向AGI?

旅行   科技   2024-09-17 00:01   北京  

上周发布的OpenAI 的o1 新模型彻底颠覆了我们对AI模型能力的认知。

ARC-AGI-Pub Leaderboard

OpenAI的新模型o1-preview 直接把GPT-4o给干翻了!不仅如此,它还在ARC Prize测试中与Claude 3.5 Sonnet打得有来有回。

这不是要让其他AI模型集体失业吗?

那问题来了,o1 这个"怪物"能带我们通向AGI(通用人工智能)吗?

o1模型:OpenAI的新宠儿

OpenAI刚刚发布了他们的最新模型家族o1,包括o1-previewo1-mini两个版本。这两个小家伙可不简单,它们在ARC-AGI公开评估数据集上的表现直接超越了GPT-4o!

来看看具体数据:

模型名称公开评估得分半私有评估得分平均每任务用时(分钟)
o1-preview21.2%18%4.2
Claude 3.521%14%0.3
o1-mini12.8%9.5%3.0
GPT-4o9%5%0.3
Gemini 1.58%4.5%1.1

o1-preview不仅打败了GPT-4o,还与Claude 3.5 Sonnet不相上下。虽然它用时比Claude 3.5多了10倍,但这已经是相当惊人的成绩了!

链式思考:o1的制胜法宝

那么,o1是如何做到这一点的呢?

答案就在于它的核心技术:链式思考(Chain-of-Thought,CoT)

OpenAI o1 Performance Chart

上图展示了o1在不同任务上的表现。

这就是链式思考的威力!

简单来说,链式思考就是让AI像人类一样,一步一步地思考问题。OpenAI在训练和推理过程中都应用了这种方法,使得o1在需要规划的任务上表现更好。

不仅如此,OpenAI还使用了新的强化学习算法,让o1能够在推理时不断优化自己的思考策略。这就像是给AI装上了一个"自我完善"的引擎,太酷了!

测试时计算量:性能提升的秘密武器?

但是,o1的强大表现背后还有一个秘密:测试时计算量

简单来说,就是给AI更多的时间和计算资源来思考问题。这就像是让学生做题时多给一些时间,naturally,成绩会更好。

Top 3 Accuracy vs k

上图展示了随着计算量的增加,模型的准确率如何提升。

看到这漂亮的上升曲线了吗?

这就是为什么o1能够在某些任务上表现得如此出色。

但是,这也带来了一个问题:**如何客观地比较不同AI系统的智能水平?**毕竟,给的时间越多,表现自然越好。这就像是比赛跑步,但允许有些人骑自行车一样,不太公平对吧?

挑战与局限:o1模型的"软肋"

虽然o1在很多任务上表现出色,但它在ARC-AGI测试中的表现却不如预期。这是为什么呢?

原因可能在于,o1主要是在已知的思考模式上做得更好了,但面对全新的、需要创造性思维的问题时,它仍然力不从心。

这就像是一个学霸,他可以很快地解决已经学过的题型,但遇到完全陌生的问题时,可能就会卡壳。

o1模型 vs AGI

那么,o1模型是否意味着我们离AGI更近了一步呢?

答案是:既是,又不是。

一方面,o1展示了链式思考和测试时优化的强大潜力,这无疑是向AGI迈进的一大步。

但另一方面,o1的局限性也提醒我们,真正的AGI还需要更多创新。我们需要的不仅是能够更好地"记忆推理过程"的AI,还需要能够真正"创造性思考"的AI。

正如ARC Prize的研究者所说:

我们仍然需要新的想法来实现AGI。

👇

👇

👇

👇

本文同步自于知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本。

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

👇👇👇快人一步,掌控AI👇👇👇

AGI Hunt
关注AGI 的沿途风景!
 最新文章