o1:从LLM到"近似推理者"的进化

旅行   科技   2024-09-17 09:00   北京  

上周发布的OpenAI 的o1 新模型彻底颠覆了我们对AI模型能力的认知。

那这个神秘的o1到底是个什么妖魔鬼怪呢?

1. o1:AI版的"阿尔法狗"?

首先,让我们来听听AI研究大佬Subbarao Kambhampati的猜测:

o1可能是在尝试将"广义化的AlphaGo"——姑且叫它GPTGo吧——移植到LLM的token预测子状态上。

这不就是把下围棋的AI搬到了语言模型上吗?

但是,这里面有两个大问题:

  1. GPTGo的"棋步"是啥?
  2. 它从哪里获得外部的成功/失败信号?

2. o1的秘密武器:自动生成的思维链

Kambhampati大佬猜测,o1的"棋步"可能是自动生成的思维链(CoT)

简单来说就是:o1不是直接给出答案,而是自己生成一系列推理步骤,然后根据这些步骤来扩展prompt。

这就好比下棋时,AI不是直接落子,而是先在脑子里模拟几步,然后再决定怎么走。

3. o1的训练秘诀:RL + 私密CoT

那么,o1是怎么学会这么聪明的呢?Kambhampati给出了这样的猜测:

  1. 有正确答案的训练数据作为成功/失败信号。
  2. 给定原始问题prompt,生成并选择一个CoT,用它来扩展prompt。
  3. 获得最终的成功/失败信号。
  4. 在海量训练样本上重复这个过程。
  5. 让RL(强化学习)算法来分配功劳,更新CoT生成器的权重。

这不就是让AI自己学会了如何思考吗?!

4. o1:一个"近似推理者"

经过这样的训练,o1就从一个简单的"近似检索者"(传统LLM)进化成了一个"近似推理者"。

这意味着什么?

  1. o1可能比单纯在合成数据上微调更强。
  2. o1的答案可能概率上更正确,但仍然没有保证。
  3. 推理过程可能会很慢,用户不一定愿意等。

5. o1带来的新挑战

但是,o1也带来了新的问题:

  1. 不可控性:o1似乎很难被引导,经常无视输出格式指令。
  2. 与微调数据的脱节:o1可能不会严格遵循你的企业特定数据。
  3. 可能在某些简单任务上表现不如LLM

Kambhampati打趣道:

一旦你成为一个近似推理者,你可能就会产生"别告诉我怎么解决问题;我已经有自己的方法了"的心理。

👇

👇

👇

👇

本文同步自于知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本。

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

👇👇👇快人一步,掌控AI👇👇👇

AGI Hunt
关注AGI 的沿途风景!
 最新文章