OpenAI最新发布的o1系列大模型一经问世,便以其强大的思考能力震撼了科技界。作为一名专注于大模型应用的从业者,我不禁感到些许迷茫,同时也对AI的未来发展充满期待。
本文将从多个角度探讨o1模型的特点及其可能带来的影响。
OpenAI的人工智能发展五阶段
回顾OpenAI设定的人工智能发展五个阶段,我们可以清晰地看到AI的进化路径:
聊天机器人:能与人类进行对话的AI 推理者:具有类似人类的解决问题能力(目前阶段) 代理者:能够为用户执行任务的系统 创新者:能够协助发明创造的AI 组织:能够承担整个组织工作职责的AI
o1模型的核心特点
1.卓越的复杂问题解答能力:O1在处理高级数学、物理和编程问题上表现出色,甚至在智商测试中达到了120分的高分。Tyler Cowan,经济学教授,发现它能解答非常复杂的经济学问题。
2.两个版本的模型:
O1-mini:比o1-preview小得多且更快,未来将提供给免费用户。在STEM任务中表现更好,但世界知识有限。能够探索比o1-preview更多的思维链,尤其在与代码相关的任务中表现出色。 O1-preview:是o1模型的早期检查点,规模适中。相对于o1-mini,在某些任务中表现良好。 共同特点:两者的输入token计算方式与GPT-4o相同,使用相同的分词器(tokenizer)。
3.创新的训练方法:采用自我博弈和强化学习技术,显著提升了模型的推理能力。这种训练方式使得o1能够在回答之前进行内部的思维链推理,将复杂问题分解为小步骤,模拟人类的思考过程,这是不同于以往的模型的。
不过带来的问题就是,不论你的问题是简单还是复杂,o1大模型都会进行大量的思考。
另外也是因为RL+self-play,带来的一个局限就是,有明确对错的,才能搞self-play,没明确对错的不好搞。数学、编程这些有明确对错就可以提升,但其它的就不太好搞。
4.自我纠错和监督能力:能够在推理过程中识别并修正自身错误。幻觉现象减少:相比之前的模型,o1在生成回答时更少出现幻觉,信息更准确,可信度更高,减少了提供错误或不相关信息的概率。
5.安全性和合规性提升:虽然最近OpenAI安全方面的技术大牛不断离职,在安全性方面还是有了重大进展,更难以被绕过安全限制,不再容易被“越狱”。不太可能生成有害、有偏见或不适当的内容,增强了用户信任。
6.简化的提示词需求:用户可以使用简单直接的提示与模型交互,无需提供详细的思维链或复杂的指令,因为模型已经能够自行进行深度推理。
7.STEM领域的卓越表现:模型在科学、技术、工程和数学(STEM)领域表现突出,能够完成高水平的学术和专业任务,例如代码编写和优化。来自加州大学欧文分校(UCI)的物理学博士 Kyle Kabasares 实测 o1 模型后发现,自己耗费约一年的博士代码,o1 竟在 1 小时内完成了。不过复旦的一个团队发现o1模型在做中学生的数学题的时候出错率反而变高了。
O1模型的潜在影响
教育变革:O1可能彻底改变传统教育模式,促进个性化学习和跨学科整合。 专业领域的转型:在编程、数学等领域可能引发工作流程重构和新兴专业的出现。不过目前看还在初期,Cursor AI在搭建产品原型和打造简单的小工具方面有出色表现,但是遇到复杂情况,效率还是比不上co-pilot。 提示词生态的演进:可能推动提示词工程向更注重思维过程引导的方向发展。以下是几个官方建议
Prompts要简单直接。模型对简短清晰指导。 在prompts中避免思维链。01会自己进行内部推理,因此引导它一步一步思考和解释你的思考路径都是没用的。 最好使用分隔符来提高清晰度。用“S等分隔符,清晰地区分prompts的不同部分,以帮助模型分批处理问题。 限制检索增强生成中的额外上下文。只提供最相关的信息,避免模型过度思考。
商业与开源模型的分化:可能导致不同类型模型针对特定应用场景进行优化。接下来要看原先的领先者Claude会如何应对,也许大模型会出现两个分支,一条是沿着o1系列,另外一条是GPT系列,大概率明年会出GPT5,否则只靠o1是没法支撑1000亿美元的估值的。 组织结构的调整:大型企业可能继续主导,但也为"小而美"的创新企业提供了机会。我最近看到美国有不少SaaS分销商,果断放弃分销任务,自己用AI给客户提供软件服务,不再给像Salefource这样的软件巨头付费,我不确定这是否是长期有效的方法,因为软件还包括和第三方的对接、软件升级和维护,这个目前还是AI在发展的方向。
挑战与思考
使用限制与成本:目前的使用限制和高昂成本可能阻碍广泛应用。 过度推理的问题:模型在简单任务上可能过度思考,导致性能下降,一个简单的提问,也会消耗模型大量的token。 与现有生态的兼容:尽管o1具有高级推理能力,但短期内可能无法取代已经慢慢发展壮大的提示词生态。比如用提示词生成的小红书文案,基本上就是由行业专家调教好的,而现在的o1系列,写成的文案远远达不到商用的水平。 伦理和安全考量:需要审慎考虑AI发展带来的伦理问题和潜在风险。我朋友中很多人觉得智力的差异这次被抹平了,等到o1正式版上线,也许大家的价值真的没那么大了。
可能的机会
对照一堂的AI趋势预判表格,只有条件3:算法升级了,现在相当于能够把一个具有博士水平的AI放在口袋里,大家想想能干点什么呢?