关于OpenAI o1系列大模型的几点思考

文摘   2024-09-18 19:47   新加坡  

OpenAI最新发布的o1系列大模型一经问世,便以其强大的思考能力震撼了科技界。作为一名专注于大模型应用的从业者,我不禁感到些许迷茫,同时也对AI的未来发展充满期待。

本文将从多个角度探讨o1模型的特点及其可能带来的影响。

OpenAI的人工智能发展五阶段

回顾OpenAI设定的人工智能发展五个阶段,我们可以清晰地看到AI的进化路径:

  1. 聊天机器人:能与人类进行对话的AI
  2. 推理者:具有类似人类的解决问题能力(目前阶段)
  3. 代理者:能够为用户执行任务的系统
  4. 创新者:能够协助发明创造的AI
  5. 组织:能够承担整个组织工作职责的AI

o1模型的核心特点

1.卓越的复杂问题解答能力:O1在处理高级数学、物理和编程问题上表现出色,甚至在智商测试中达到了120分的高分。Tyler Cowan,经济学教授,发现它能解答非常复杂的经济学问题。

2.两个版本的模型

  • O1-mini:比o1-preview小得多且更快,未来将提供给免费用户。在STEM任务中表现更好,但世界知识有限。能够探索比o1-preview更多的思维链,尤其在与代码相关的任务中表现出色。
  • O1-preview:是o1模型的早期检查点,规模适中。相对于o1-mini,在某些任务中表现良好。
  • 共同特点:两者的输入token计算方式与GPT-4o相同,使用相同的分词器(tokenizer)。

3.创新的训练方法:采用自我博弈和强化学习技术,显著提升了模型的推理能力。这种训练方式使得o1能够在回答之前进行内部的思维链推理,将复杂问题分解为小步骤,模拟人类的思考过程,这是不同于以往的模型的。

不过带来的问题就是,不论你的问题是简单还是复杂,o1大模型都会进行大量的思考。

另外也是因为RL+self-play,带来的一个局限就是,有明确对错的,才能搞self-play,没明确对错的不好搞。数学、编程这些有明确对错就可以提升,但其它的就不太好搞。

4.自我纠错和监督能力:能够在推理过程中识别并修正自身错误。幻觉现象减少:相比之前的模型,o1在生成回答时更少出现幻觉,信息更准确,可信度更高,减少了提供错误或不相关信息的概率。

5.安全性和合规性提升:虽然最近OpenAI安全方面的技术大牛不断离职,在安全性方面还是有了重大进展,更难以被绕过安全限制,不再容易被“越狱”。不太可能生成有害、有偏见或不适当的内容,增强了用户信任。

6.简化的提示词需求:用户可以使用简单直接的提示与模型交互,无需提供详细的思维链或复杂的指令,因为模型已经能够自行进行深度推理。

7.STEM领域的卓越表现:模型在科学、技术、工程和数学(STEM)领域表现突出,能够完成高水平的学术和专业任务,例如代码编写和优化。来自加州大学欧文分校(UCI)的物理学博士 Kyle Kabasares 实测 o1 模型后发现,自己耗费约一年的博士代码,o1 竟在 1 小时内完成了。不过复旦的一个团队发现o1模型在做中学生的数学题的时候出错率反而变高了。

O1模型的潜在影响

  1. 教育变革:O1可能彻底改变传统教育模式,促进个性化学习和跨学科整合。
  2. 专业领域的转型:在编程、数学等领域可能引发工作流程重构和新兴专业的出现。不过目前看还在初期,Cursor AI在搭建产品原型和打造简单的小工具方面有出色表现,但是遇到复杂情况,效率还是比不上co-pilot。
  3. 提示词生态的演进:可能推动提示词工程向更注重思维过程引导的方向发展。以下是几个官方建议
  • Prompts要简单直接。模型对简短清晰指导。
  • 在prompts中避免思维链。01会自己进行内部推理,因此引导它一步一步思考和解释你的思考路径都是没用的。
  • 最好使用分隔符来提高清晰度。用“S等分隔符,清晰地区分prompts的不同部分,以帮助模型分批处理问题。
  • 限制检索增强生成中的额外上下文。只提供最相关的信息,避免模型过度思考。
  1. 商业与开源模型的分化:可能导致不同类型模型针对特定应用场景进行优化。接下来要看原先的领先者Claude会如何应对,也许大模型会出现两个分支,一条是沿着o1系列,另外一条是GPT系列,大概率明年会出GPT5,否则只靠o1是没法支撑1000亿美元的估值的。
  2. 组织结构的调整:大型企业可能继续主导,但也为"小而美"的创新企业提供了机会。我最近看到美国有不少SaaS分销商,果断放弃分销任务,自己用AI给客户提供软件服务,不再给像Salefource这样的软件巨头付费,我不确定这是否是长期有效的方法,因为软件还包括和第三方的对接、软件升级和维护,这个目前还是AI在发展的方向。

挑战与思考

  1. 使用限制与成本:目前的使用限制和高昂成本可能阻碍广泛应用。
  2. 过度推理的问题:模型在简单任务上可能过度思考,导致性能下降,一个简单的提问,也会消耗模型大量的token。
  3. 与现有生态的兼容:尽管o1具有高级推理能力,但短期内可能无法取代已经慢慢发展壮大的提示词生态。比如用提示词生成的小红书文案,基本上就是由行业专家调教好的,而现在的o1系列,写成的文案远远达不到商用的水平。
  4. 伦理和安全考量:需要审慎考虑AI发展带来的伦理问题和潜在风险。我朋友中很多人觉得智力的差异这次被抹平了,等到o1正式版上线,也许大家的价值真的没那么大了。

可能的机会

对照一堂的AI趋势预判表格,只有条件3:算法升级了,现在相当于能够把一个具有博士水平的AI放在口袋里,大家想想能干点什么呢?


蔡荔谈AI
AI科普 AI培训 超级个体 创业
 最新文章