前段时间,The information报道说OpenAI的高管们计划把ChatGPT的订阅价格调整到2000美元(约人民币14000元),同时底层模型将会专注于推理的草莓模型与名为Orion的旗舰大模型。
昨天,The information又发了一篇新的报道:OpenAI将在未来两周内发布“Strawberry”,而它将作为服务ChatGPT的一部分。
然后早上一边看新闻,一边在各大群冲浪的时候,就看到了一张订阅付款的截图。
为什么我会说2000美元可能发生呢?
过去,LLM大模型往往通过数据规模和模型规模,以“大力出奇迹”的方式去提升模型的性能。
但现在出现了一个问题:模型参数、数据集与计算量,无法与模型性能产生正反馈循环。
举个不恰当的例子,过去“模型参数+数据集+计算量”每提升1%的数量,可以为模型性能带来10%的提升。如今,这个反馈比要反过来,10%的量级数据,才能换来1%的提升,甚至更低。
于是乎,头部AI模型公司开始物色新的解决方案。
Self play RL(自博弈强化学习),再次步入了大众视野。
Self play(自博弈)是指AI自己与自己进行交互,从而不断超越自己。常常应用在围棋、国际象棋、扑克等领域。比如,AlphaGo Zero。当年AlphaGo Zero击败了自己的前身AlphaGo,而AlphaGo击败了柯洁。
● 科普一下:AlphaGo Zero采用的是Self play+RL的训练模式,所以它一切都是从0开始。仅仅自我训练了21天,就达到了当年击败柯洁的AlphaGo水平,也就是master版本。40天之后,与master版本对弈,胜率高达90%。
RL(强化学习)是机器学习中的一个重要范式。简单来说,AI通过与外部环境的交互中不断优化思路,最终找到一个最优解。
这里稍微讲一下(重点来了):
之前的ChatGPT采用的是预训练模式,也就GPT中的PT,Pre-training。AI学习的东西都是我们塞给它的,也就是所谓的现成的知识。比如说“1+1=2”,我是直接把答案输入给GPT,而没有跟GPT讲推导过程。
这就是为什么我们写提示词的时候,要讲清楚、讲逻辑,因为GPT不懂过程,只知道答案。它通过你给的过程去验算该给你什么样的答案。
预训练没办法让AI自动突破现有的数据,换句话说,预训练的大模型纯纯读死书,干啥都是死记硬背。
而Self play RL虽然是从0开始,但它会让AI用不同的路径的去尝试进步,如果进步神速,就更新神经网络的权重,让AI记住进步神速的原由,从而下一次的进步。换句话说,Self play RL能让AI以一种不可思议的速度去“自我成长”。
基于这种“自我成长”,AI就拥有了很强的推理能力。这也就是为什么AlphaGo Zero在围棋领域,以这么短时间就达到了世界之最。下围棋,本质是推演每一步之后可能产生的变化,最终找到一条取胜之路。谁想得多,想得远,谁就赢。
但Self play RL也不是毫无缺点。这种训练模式也有问题——反应速度慢。因为需要多思考。
在The information的报道有提到:Self play RL是链式思维提示,也就是上面我们提到的:它会尝试不同路径,并记住不同路径的情况,以一种相对最优解的方法继续尝试不同路径。
那什么叫做好的路径呢?这时,会引入“Reward model”奖励模型来给AI做判定。这个模型带来的好处是,它让AI对数学和代码非常敏捷,或者说在数学和代码领域,它能让AI强得可怕。
因为在数学和代码,好的标准非常明确。数学很简单,你能得出对的结果就是好,而代码只要能跑出来就是好代码。
我们之前提到的Claude3.5:Claude 3.5发布,最亮眼的功能竟是它?,有讲到网页在线生成代码,从而实现0编程基础也能设计交互网页的创举。
Claude 3.5用的就是Self play RL。
回到我们上面的问题:为什么我会说2000美元可能发生呢?
因为它思维发散,路径多且长。响应的时间是10-20秒。你体验gpt3.5的时候是不是不到1秒就反应,4.0的时候2秒之内必反应。
响应速度越慢,代表它思考得越久,想得也越多,调用的算力自然也就成倍上升。
网上有人做过统计:一个百亿参数的模型,假如用Self play RL来发散思维,每次涌现32个思路,每个思路有5个步骤,那一次推理回答下来所消耗的token数是100K,这个价格在6美元左右。
现在ChatGPT的这个200美元订阅,现阶段只能体验到GPT-4o无限次数访问(之前的plus会员是3小时80次)。这个价位应该是在为草莓大模型做铺垫。
毕竟OpenAI一直在说:草莓,是给下一代大模型做服务,而驱动是用Self play RL。
200美元的订阅费只是起点。未来当你需要用到更牛的“草莓”时,2000美元说不定还不是顶点。
〔写在最后〕
点这里👇关注我,记得标星哦~