首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

OpenAI的「草莓」大模型打响头炮 | Self play RL成LLM新范式，第二阶段的大模型爆发期即将来临

文摘科技 2024-09-11 18:42 广东

前段时间，The information报道说OpenAI的高管们计划把ChatGPT的订阅价格调整到2000美元（约人民币14000元），同时底层模型将会专注于推理的草莓模型与名为Orion的旗舰大模型。

昨天，The information又发了一篇新的报道：OpenAI将在未来两周内发布“Strawberry”，而它将作为服务ChatGPT的一部分。

然后早上一边看新闻，一边在各大群冲浪的时候，就看到了一张订阅付款的截图。

嗯。。200美元一个月的订阅价格。但随着往下了解，我发现：之前网传的GPT2000美元订阅费，似乎真的有可能会发生。

为什么我会说2000美元可能发生呢？

过去，LLM大模型往往通过数据规模和模型规模，以“大力出奇迹”的方式去提升模型的性能。

但现在出现了一个问题：模型参数、数据集与计算量，无法与模型性能产生正反馈循环。

举个不恰当的例子，过去“模型参数+数据集+计算量”每提升1%的数量，可以为模型性能带来10%的提升。如今，这个反馈比要反过来，10%的量级数据，才能换来1%的提升，甚至更低。

于是乎，头部AI模型公司开始物色新的解决方案。

Self play RL（自博弈强化学习），再次步入了大众视野。

Self play（自博弈）是指AI自己与自己进行交互，从而不断超越自己。常常应用在围棋、国际象棋、扑克等领域。比如，AlphaGo Zero。当年AlphaGo Zero击败了自己的前身AlphaGo，而AlphaGo击败了柯洁。

● 科普一下：AlphaGo Zero采用的是Self play+RL的训练模式，所以它一切都是从0开始。仅仅自我训练了21天，就达到了当年击败柯洁的AlphaGo水平，也就是master版本。40天之后，与master版本对弈，胜率高达90%。

RL（强化学习）是机器学习中的一个重要范式。简单来说，AI通过与外部环境的交互中不断优化思路，最终找到一个最优解。

这里稍微讲一下（重点来了）：

之前的ChatGPT采用的是预训练模式，也就GPT中的PT，Pre-training。AI学习的东西都是我们塞给它的，也就是所谓的现成的知识。比如说“1+1=2”，我是直接把答案输入给GPT，而没有跟GPT讲推导过程。

这就是为什么我们写提示词的时候，要讲清楚、讲逻辑，因为GPT不懂过程，只知道答案。它通过你给的过程去验算该给你什么样的答案。

预训练没办法让AI自动突破现有的数据，换句话说，预训练的大模型纯纯读死书，干啥都是死记硬背。

而Self play RL虽然是从0开始，但它会让AI用不同的路径的去尝试进步，如果进步神速，就更新神经网络的权重，让AI记住进步神速的原由，从而下一次的进步。换句话说，Self play RL能让AI以一种不可思议的速度去“自我成长”。

基于这种“自我成长”，AI就拥有了很强的推理能力。这也就是为什么AlphaGo Zero在围棋领域，以这么短时间就达到了世界之最。下围棋，本质是推演每一步之后可能产生的变化，最终找到一条取胜之路。谁想得多，想得远，谁就赢。

但Self play RL也不是毫无缺点。这种训练模式也有问题——反应速度慢。因为需要多思考。

在The information的报道有提到：Self play RL是链式思维提示，也就是上面我们提到的：它会尝试不同路径，并记住不同路径的情况，以一种相对最优解的方法继续尝试不同路径。

那什么叫做好的路径呢？这时，会引入“Reward model”奖励模型来给AI做判定。这个模型带来的好处是，它让AI对数学和代码非常敏捷，或者说在数学和代码领域，它能让AI强得可怕。

因为在数学和代码，好的标准非常明确。数学很简单，你能得出对的结果就是好，而代码只要能跑出来就是好代码。

我们之前提到的Claude3.5：Claude 3.5发布，最亮眼的功能竟是它？，有讲到网页在线生成代码，从而实现0编程基础也能设计交互网页的创举。

Claude 3.5用的就是Self play RL。

回到我们上面的问题：为什么我会说2000美元可能发生呢？

因为它思维发散，路径多且长。响应的时间是10-20秒。你体验gpt3.5的时候是不是不到1秒就反应，4.0的时候2秒之内必反应。

响应速度越慢，代表它思考得越久，想得也越多，调用的算力自然也就成倍上升。

网上有人做过统计：一个百亿参数的模型，假如用Self play RL来发散思维，每次涌现32个思路，每个思路有5个步骤，那一次推理回答下来所消耗的token数是100K，这个价格在6美元左右。

现在ChatGPT的这个200美元订阅，现阶段只能体验到GPT-4o无限次数访问（之前的plus会员是3小时80次）。这个价位应该是在为草莓大模型做铺垫。

毕竟OpenAI一直在说：草莓，是给下一代大模型做服务，而驱动是用Self play RL。

200美元的订阅费只是起点。未来当你需要用到更牛的“草莓”时，2000美元说不定还不是顶点。

〔写在最后〕

英伟达CEO黄仁勋曾说：“AI会填平数字鸿沟。在这个AI时代，人人都是程序员。”

我们正处于一个新的计算时代，AI正在引领着一场计算革命。

而Self play RL将成为你的助力。

不过这一切，我们只是看得到，但还不能用到。

因为Self play RL只是在数字和代码领域有比较强的泛化性，但针对其他领域，比如医药、物理、法律、金融等领域还缺乏比较明确的正确性标准。这一点，在文本领域最为明显。

但我觉得，全民“自博弈学习”的阶段已经来临，而第二阶段的大模型爆发期近来眼前。

你都看到这了，不如，随个赞、点个在看呗~

感谢你一路到看这。

点这里👇关注我，记得标星哦～

彼方学院（Animation Comics Games Academy 简称:ACG ）是一个拥有专业团队，面向全球动漫游戏数字媒体元宇宙的从业者及爱好者、高校、研发机构等相关行业，提供多样化、定制化服务的综合平台。

最新文章

活动回顾 | 彼方学院&广州华商学院人工智能学院线下「AI & Prompt」主题分享会

OpenAI「圣诞狂欢」第三天 | Sora正式上线，它没有辜负期待，但也没超越期待

OpenAI「圣诞狂欢」第一天 | 满血版o1正式上线，有点东西但不多

10秒直出一张海报 | 即梦全新绘画大模型让设计师又双叒叕「失业」了

Sora遭遇严重泄露！艺术家愤怒"复仇"OpenAI，测试通道全网疯传3小时后紧急关闭

AI视频生成迎来重大突破：国产Vidu模型实现多主体完美融合，30秒生成电影级画面

秘塔AI上线“知识库”功能，AI搜索领域再掀波澜

打败Stability，赶超Midjourney，险胜FLUX，这个AI绘画产品叫Recaft

字节新产品「炉米Lumi」即将上线，剑指Liblib

智谱AI发布AutoGLM，解锁了人机交互更多的可能性

这个自定义网页的AI插件，让你体验到AI时代的“外挂”是什么

AI全自动短视频来了 | Suno Scenes让你一张图、一个视频秒转歌曲大作（附全网最详细教程）

从符合物理学到不讲物理，Pika 1.5全新特效功能「Pikaffects」引发全网病毒式传播

招生简章 | AI商业绘画系统班

被版权折磨的新媒体人，最终选择了AI

澳门研学精彩回顾丨2024“艺起探澳门”粤港澳大湾区文化交流之旅圆满结束！

播客AI化？NotebookLM，一期从无到有的播客音频只需要不到5分钟

GPT系列已被终结？OpenAI发布最强「o1」大模型，我们迈向了AI行业的新纪元

OpenAI的「草莓」大模型打响头炮 | Self play RL成LLM新范式，第二阶段的大模型爆发期即将来临

招生简章 | 虚幻引擎交互开发工程师班

无缝双语体验，这个国产最强AI翻译插件叫沉浸式翻译（附全网最细教程）

一个几分钟就能完成海报设计、网页设计的AI，它叫Ideogram（附教程）

告别熬夜，这个AI让你一键生成PPT，它就叫Kimi

腾讯元宝再度发力，上线长文精读，解救了我那蹩脚的英语阅读

彼方学院师生代表参加香港中文大学黄锦辉教授新书发布会

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉