OpenAI的「草莓」大模型打响头炮 | Self play RL成LLM新范式,第二阶段的大模型爆发期即将来临

文摘   科技   2024-09-11 18:42   广东  

前段时间,The information报道说OpenAI的高管们计划把ChatGPT的订阅价格调整到2000美元(约人民币14000元),同时底层模型将会专注于推理的草莓模型与名为Orion的旗舰大模型。

昨天,The information又发了一篇新的报道:OpenAI将在未来两周内发布“Strawberry”,而它将作为服务ChatGPT的一部分。

然后早上一边看新闻,一边在各大群冲浪的时候,就看到了一张订阅付款的截图。

嗯。。200美元一个月的订阅价格。但随着往下了解,我发现:之前网传的GPT2000美元订阅费,似乎真的有可能会发生。

为什么我会说2000美元可能发生呢?

过去,LLM大模型往往通过数据规模和模型规模,以“大力出奇迹”的方式去提升模型的性能。

但现在出现了一个问题:模型参数、数据集与计算量,无法与模型性能产生正反馈循环。

举个不恰当的例子,过去“模型参数+数据集+计算量”每提升1%的数量,可以为模型性能带来10%的提升。如今,这个反馈比要反过来,10%的量级数据,才能换来1%的提升,甚至更低。

于是乎,头部AI模型公司开始物色新的解决方案。

Self play RL(自博弈强化学习),再次步入了大众视野。

Self play(自博弈)是指AI自己与自己进行交互,从而不断超越自己。常常应用在围棋、国际象棋、扑克等领域。比如,AlphaGo Zero。当年AlphaGo Zero击败了自己的前身AlphaGo,而AlphaGo击败了柯洁。

● 科普一下:AlphaGo Zero采用的是Self play+RL的训练模式,所以它一切都是从0开始。仅仅自我训练了21天,就达到了当年击败柯洁的AlphaGo水平,也就是master版本。40天之后,与master版本对弈,胜率高达90%。

RL(强化学习)是机器学习中的一个重要范式。简单来说,AI通过与外部环境的交互中不断优化思路,最终找到一个最优解。

这里稍微讲一下(重点来了):

之前的ChatGPT采用的是预训练模式,也就GPT中的PT,Pre-training。AI学习的东西都是我们塞给它的,也就是所谓的现成的知识。比如说“1+1=2”,我是直接把答案输入给GPT,而没有跟GPT讲推导过程。

这就是为什么我们写提示词的时候,要讲清楚、讲逻辑,因为GPT不懂过程,只知道答案。它通过你给的过程去验算该给你什么样的答案。

预训练没办法让AI自动突破现有的数据,换句话说,预训练的大模型纯纯读死书,干啥都是死记硬背。

而Self play RL虽然是从0开始,但它会让AI用不同的路径的去尝试进步,如果进步神速,就更新神经网络的权重,让AI记住进步神速的原由,从而下一次的进步。换句话说,Self play RL能让AI以一种不可思议的速度去“自我成长”

基于这种“自我成长”,AI就拥有了很强的推理能力。这也就是为什么AlphaGo Zero在围棋领域,以这么短时间就达到了世界之最。下围棋,本质是推演每一步之后可能产生的变化,最终找到一条取胜之路。谁想得多,想得远,谁就赢。

但Self play RL也不是毫无缺点。这种训练模式也有问题——反应速度慢。因为需要多思考。

在The information的报道有提到:Self play RL是链式思维提示,也就是上面我们提到的:它会尝试不同路径,并记住不同路径的情况,以一种相对最优解的方法继续尝试不同路径。

那什么叫做好的路径呢?这时,会引入“Reward model”奖励模型来给AI做判定。这个模型带来的好处是,它让AI对数学和代码非常敏捷,或者说在数学和代码领域,它能让AI强得可怕。

因为在数学和代码,好的标准非常明确。数学很简单,你能得出对的结果就是好,而代码只要能跑出来就是好代码。

我们之前提到的Claude3.5:Claude 3.5发布,最亮眼的功能竟是它?,有讲到网页在线生成代码,从而实现0编程基础也能设计交互网页的创举。

Claude 3.5用的就是Self play RL。

回到我们上面的问题:为什么我会说2000美元可能发生呢?

因为它思维发散,路径多且长。响应的时间是10-20秒。你体验gpt3.5的时候是不是不到1秒就反应,4.0的时候2秒之内必反应。

响应速度越慢,代表它思考得越久,想得也越多,调用的算力自然也就成倍上升。

网上有人做过统计:一个百亿参数的模型,假如用Self play RL来发散思维,每次涌现32个思路,每个思路有5个步骤,那一次推理回答下来所消耗的token数是100K,这个价格在6美元左右。

现在ChatGPT的这个200美元订阅,现阶段只能体验到GPT-4o无限次数访问(之前的plus会员是3小时80次)。这个价位应该是在为草莓大模型做铺垫。

毕竟OpenAI一直在说:草莓,是给下一代大模型做服务,而驱动是用Self play RL。

200美元的订阅费只是起点。未来当你需要用到更牛的“草莓”时,2000美元说不定还不是顶点。

〔写在最后〕

英伟达CEO黄仁勋曾说:“AI会填平数字鸿沟。在这个AI时代,人人都是程序员。”
我们正处于一个新的计算时代,AI正在引领着一场计算革命。
Self play RL将成为你的助力。
不过这一切,我们只是看得到,但还不能用到。
因为Self play RL只是在数字和代码领域有比较强的泛化性,但针对其他领域,比如医药、物理、法律、金融等领域还缺乏比较明确的正确性标准。这一点,在文本领域最为明显。
但我觉得,全民“自博弈学习”的阶段已经来临,而第二阶段的大模型爆发期近来眼前。

你都看到这了,不如,随个赞、点个在看呗~
感谢你一路到看这。

点这里👇关注我,记得标星哦~



ACG彼方
彼方学院(Animation Comics Games Academy 简称:ACG )是一个拥有专业团队,面向全球动漫游戏数字媒体元宇宙的从业者及爱好者、高校、研发机构等相关行业,提供多样化、定制化服务的综合平台。
 最新文章