OpenAI o1系列:AI时代的新里程碑

文摘   2024-09-13 11:37   新加坡  

引言:AI领域的新变革

最近,Cursor AI编程工具的大火一直占据了我主要的精力。就在我考虑从OpenAI转向Claude 3.5 sonnet时,OpenAI适时发布了全新的o1系列模型,再次吸引了我的注意力。

北京时间9月13日,备受瞩目的o1系列正式亮相,不仅在推理能力上取得了重大突破,更为人工智能领域树立了新的技术里程碑。o1系列分为o1-previewo1-mini两个版本,针对不同用户需求,开启了AI应用的新篇章。

AI推理能力的突破性进展

o1系列的核心亮点在于其强大的推理能力,尤其是在复杂问题处理方面表现突出。通过引入Self-playRL(自我对弈强化学习)机制,o1学会了如何更好地思考、推理,并自主解决问题。

这一机制使得o1在科学、编程和数学等领域的表现远超预期。无论是处理繁复的逻辑推理,还是应对高难度的数学题目,o1都展现出了其技术前沿的实力。

实测对比:亮点与短板并存

为了全面评估o1-preview的表现,我们针对其进行了多项测试,在此列出四个具体测试问题及其对应的结果:

1. 数字大小比较:

  • 问题:9.9和9.11,哪个数字更大?
  • 结果o1-preview错误地回答9.11更大。这一结果出乎意料,因为此前的GPT-4模型在类似任务中通过“Think in Step”提示能够正确作答。这反映出o1-preview在基础任务上仍有改进空间。

错误回答截图:

这是我问国产kimichat的截图:

2. 字符计数问题:

  • 问题:Strawberry这个单词里有几个“r”?
  • 结果o1-preview准确回答了这个问题,指出了3个“r”。这个是相当不错的进步,之前的大模型在这个问题上都栽了,谷歌还专门出了一篇论文解释为什么大模型不会数r,原因是嵌入维度,不仅仅是分词器的问题。

3. 阿里巴巴数学竞赛题目:

  • 问题:这是一道涉及空间几何推理的复杂问题,要求计算在特定条件下最多可能有多少名同学。
题目1:有一群学生去某个城市旅行,该城市有 6 座塔,分别位于 A、B、C、D、E 和 F。每位学生都能看到位于 A、B、C、D 的塔,但无法看到 E 和 F。假设这些塔的位置是固定的,学生最多能组成多大的团队?
选择答案:
(A) 3
(B) 4
(C) 6
(D) 12
  • 结果:模型给出的答案是 D:12,但正确答案是 C:6。这个问题测试了学生们对空间几何的理解,然而在解题时,模型似乎误解了塔的排列规则。

4. 战机游戏数学问题:

  • 问题:这是一个概率论和期望值计算的问题,涉及战机游戏的策略优化。
图片中包含的是关于一个战机游戏的数学问题,具体内容如下:

小明玩战机游戏。游戏开始时,他的初始积分为2分。在游戏中,积分会以每单位时间段减少1分的速度线性连续减少。每隔一个随机时间段,会有一架敌机出现,这个时间段的长度遵循参数为1的指数分布。每当敌机出现,小明可以选择击落敌机或者被敌机击落。如果小明被敌机击落,游戏结束。如果小明击落敌机,他将获得1.5分,并可以选择立即退出游戏或者继续游戏。如果选择继续,他必须等到下一架敌机出现,期间不能退出。随着游戏进行,敌机的难度递增,击落第n架敌机的概率为(0.85)^n,被击落的概率为1 - (0.85)^n,且每次击落敌机的事件是独立的。如果积分降到0分,游戏也会自动结束。

问题分为两部分:

(1) 如果游戏中,小明被击落后,其之前的积分保持不变。那么为了使得游戏结束时的累积积分的数学期望最大化,小明应该在其击落第几架敌机后主动结束游戏?
- (A) 1.
- (B) 2.
- (C) 3.
- (D) 4.

(2) 假设游戏中,小明被击落后,其之前积累的积分会清零。那么为了结束时的期望积分最大化,小明也会选择一个最优的时间主动结束游戏。请问在游戏结束时(小明主动结束、或积分减到0),下列哪一个选项最接近游戏结束时小明的期望积分?
- (A) 2.
- (B) 4.
- (C) 6.
- (D) 8.
  • 结果o1-preview成功给出了正确答案,展示了它在处理复杂概率问题时的强大推理能力。

剩下的五道预赛题,因为现在的大模型聊天框还不支持图片处理和数学公式的输入,我就没有测试,加上一周只能测试30次,还是要节约一点。不过假如以现在的o1模型的能力去参加今年的阿里巴巴数学竞赛,估计能超过34分,拿到AI赛道的第一名

o1-mini:编程能力的显著提升

o1-previewo1-miniOpenAI推出的两个各具特色的大语言模型。

o1-preview在处理复杂推理任务时展现出了强大的能力,尤其是在科学研究和高级数学问题上。虽然在某些基础任务上仍有待改进,但其在处理需要深度思考的问题时表现出色。

与此同时,o1-mini专注于编程和实用数学领域,展现出了令人印象深刻的实力。作为专门为解决编程问题设计的版本,o1-mini在代码生成和分析能力上有了显著提升。其128k的上下文窗口和64k的最大输出,使其能够轻松应对大规模代码分析和复杂项目需求。对于开发者而言,o1-mini无疑是一个得力助手,能够快速高效地解决各种编程难题,大大提高工作效率。

使用限制与未来展望

尽管o1系列在推理和编程领域展现了强大的能力,但目前它的使用仍然存在一定的限制。现阶段,o1-preview每周的消息限额为30条,而o1-mini则为50条,这对于一些高频使用者来说可能稍显局限。

不过,OpenAI表示将逐步提升这些限额,并开发自动选择最适合用户需求的模型功能,以提升整体用户体验。我了解到对付费超过1000美元的用户,可以选择升级成GPT Pro账号,月费200美元,好像消息不受限制。

从更长远的角度来看,o1-previewo1-mini的发布让我不禁开始猜测其潜在应用。如果将这些模型的推理成本进一步降低,结合multi-agent(多智能体)系统,打造出来地企业数字员工将能够达到一个全新的水平,替代初级文员的部分工作不再只是纸上谈兵。

不仅如此,这种技术的普及也将大幅提升现有员工的效率。面对这样的发展前景,我个人对正式版的发布充满期待,暂时不会急于切换到Claude 3.5 Sonnet上。

顶多可能再去订阅一个Claude的账号,去研究Cursor AI的各种潜力,我这两天发现用它来开发IOS应用好像也不是很难得事情,不过用代码编程的一个挑战就是它目前的水平也是会产生”屎山“代码,将来的维护会是一个大问题,而且开发中途出了bug,怎么去调试,还在研究中,特别是针对不熟悉的语言。

然而,裸推理的极限似乎已经逐渐显现,这次用到的self-play加上RL,似乎没有其他新的突破了,比如记忆模块就没有任何突破,未来AI技术的进展可能需要更多跨领域的创新与突破。

这也就能够理解近期这么多技术大牛离开OpenAI了。反向思考一下,假如通向AGI(通用人工智能)的路径真的已经明朗,OpenAI近期也许就不会有那么多技术牛人选择离开公司。毕竟,参与创造历史的平台是不会轻易让人离开的。因此,或许未来的突破需要从更多新方向去挖掘,而不仅仅局限于现有的推理能力。AI的前路依然充满未知,但这也是技术创新最让人期待的地方。

最后是我喜欢的Andrej Karpathy在twitter上的一个截图,反应了他对这个版本的态度。


蔡荔谈AI
AI科普 AI培训 超级个体 创业
 最新文章