太平洋的另一边又技术大爆发了。9月13日,OpenAI突然发布传说中“草莓”模型——OpenAI o1。
根据美国OpenAI的官方博客显示,OpenAI o1 在竞争性编程问题(Codeforces)中排名第 89 位,在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级准确度。
这么看很多人可能无法理解这个最新模型能力究竟有多强,毕竟很多大模型厂商都习惯性吹牛。大家看下下面这个图就比较清楚了,这是GPT4o(前一天OpenAI的最强模型)、OpenAI o1预览版和OpenAI o1正式版,在数学、代码和博士级科学问题的准确率数据对比。
很容易就可以得出一个结论,那就是碾压——OpenAI再一次自己碾压了自己。有人说过,能够超越OpenAI的只有OpenAI自己。现在看,此言不虚。OpenAI o1正式版的能力,可以说差不多是GPT4o的八、九倍。
所以,大家看到这次命名的区别了吗?很多人还在期待ChatGPT5,结果,按照OpenAI 在发布文档中说法,他们认为新模型在推理能力上代表了人工智能能力的新水平,因此,计数器将重置为1。
所以,开启了下一代大模型的 Orion(猎户座)系列。
按照此前的规律来看,打败OpenAI o1的大模型,很可能就是OpenAI o2。这同时意味着,GPT系列走到4很可能就已经绝版了,或许不会有GPT-5了。
OpenAI o1在技术上实现了如此重大的突破,核心是什么呢?答案指向了思维链。根据官方说法,与以往模型最大的不同就是,OpenAI o1拥有进化的推理能力,会在回答前进行缜密思考,生成一个长长的内部思维链。
什么是思维链?就是模型在生成回答之前,会经历一系列复杂的内部逻辑推理过程,从而构建起一个类似于人类思考路径的链条。说简单点,就是大模型会像人类一样思考你提出的问题。
现在很多其他大模型基本就是处于高阶版本的信息检索阶段,而有了思维链就能够将多个步骤的思考串联起来,每个环节都基于前一步骤的信息进行深化和拓展,最终形成一个连贯且合理的答案。
不知道大家是否还记得,从去年开始很多人说AI带来的新的职业工种就是,提示词工程师(prompt engineer)。当年,李彦宏曾经预测说,十年以后,全世界有50%工作会是提示词工程,不会写提示词(prompt)的人会被淘汰。
提示词工程师,就是通过写一堆大模型能听得懂的提示词,指引大模型生成自己想要的作品。然而,具备思维链的大模型横空出世,大模型本身就擅长理解和响应简短、清晰的指令,而不再需要大量的指导。所以,提示词工程师就没了存在的必要性了。
事实上,就在很多人觉得提示词工程师是AI时代的职业方向的时候,也有很多的大佬认为提示词工程师这个职业本就不该存在。OpenAI的CEO山姆奥特曼曾表示,提示工程是生成式AI的一个临时阶段。
哈佛商学院著名杂志《哈佛商业评论》刊文称“AI prompt engineering isn't future(提示工程不是未来)”,并认为prompt engineering是一种短暂的现象,随着AI模型的进步,它将变得多余。
实际上,早在去年的时候OpenAI就推出了图像生成工具DALL-E的最新版本DALL·E3。在使用DALL·E3生成图像时,用户无需再自己苦思冥想设计复杂的prompt。只需要向ChatGPT表达一个想法,它就能自动为DALL·E3生成一个量身定制、细致入微的prompt。
提示词工程师为什么如此短命?一个原因在于,门槛其实不高,而且提示词的使用也很容易复制和模仿。
但是根本原因是,AI的本意是智能化操作,让手动操作变成机器智能。怎么一个大模型出来了,还得让人类去学习怎么去操作这个大模型呢?这不是本末倒置了吗?所以,随着大模型的进化,一定是能够听得懂人类的自然语言。这就是技术进化的方向。
不过,话说回来,在创新驱动的领域,高质量的prompt仍然至关重要。正如Stable Diffusion的技术产品总监郑屹州曾说的,提示技术应该作为一项技能,而不该成为一个岗位。
虽然说现在也不适合下判断说李彦宏的十年预测错了,但是从技术发展方向来看似乎并不支持李彦宏老师的预判。
-全文完-
写干货,说人话,欢迎关注