来源:机器学习研究组订阅
怎么回事,大模型Scaling Law也撞墙了?
几天前,Sam Altman在YC独家专访中大胆预言,2025年AGI降临,并期待在同年要一个孩子。
没想到,The Information紧接着的一份独家爆料,直接打脸Altman:
GPT系列模型改进缓慢,OpenAI正在转变策略,另谋出路。
据称,下一代旗舰模型Orion并不像前代实现巨大的飞跃,虽然性能会超越OpenAI现有模型,但相较于从GPT-3到GPT-4的迭代,改进幅度要小得多。
不仅如此,这种提升也基本局限在了语言能力上——Orion的代码能力甚至不如旧模型,但成本却更高。
这篇文章直击OpenAI痛点,提出Scaling Law逐渐放缓,原因之一是高质量文本数据越来越少。
为此,OpenAI成立专门的基础团队,去研究如何解决训练数据匮乏问题改进模型,以及Scaling Law还能适用多久。
一时间,全网掀起了热议——对LLM能否通向AGI的质疑声此起彼伏。
向来都在唱衰的NYU教授马库斯,更是直接单方面宣布「胜利」:游戏结束,我赢了!
为了扭转这一局面,多位OpenAI研究人员当场急了,纷纷现身为一直以来坚守的LLM定律辩护。
德扑之父Noam Brown直接追问网友原因,对方回复称,「都已经过去一年半了,Scaling并没有给大模型带去显著的改善」。
Noam反问道,「o1-preview呢」?
俄勒冈州立大学名誉教授表示,「o1-preview是否是一个Scaling的实例?如果是,具体是什么在Scaling?在过去,『Scaling』指的是同时扩大数据规模、神经网络参数和计算资源」。
Noam称,「它是推理计算的Scaling」。
就这样,AI圈一场关于大模型Scaling Law的辩论就此展开了。
OpenAI大牛下场激辩,Sacling Law没撞墙
在说Scaling Law之前,先简要回顾下它具体指的是什么?
OpenAI团队2020年提交的arXiv论文中最先提出这一概念,是指LLM性能与计算量、参数量、数据量三者呈现幂律关系。
直白讲,也就是业界一直宣称的,随着大模型参数不断增加,超级智能终有一天实现。
而o1的诞生,标志着Scaling Law的另一个转向。
OpenAI研究员Adam称,Scaling刚刚找到了另一套「齿轮」!
o1系列模型scaling的两个重要维度——训练时间和测试(推理)时间。
传统的Scaling Law,专注于用更长时间(预)训练更大的模型,绝对仍然是一个重要因素。而且,这种规模仍是基础。
现在恰好出现了另一个Scaling因素,这两个维度有望一起解锁一些惊人的能力。
那么这个维度,是什么?
o1发布之际,Noam Brown对其推理思维做出了解释:
用强化学习训练后的o1在给出回答前,会通过一个私有的CoT进行「思考」。模型思考时间越长,在推理任务上表现的越好。
这种方法开创了模型scaling的新维度,模型性能不再仅仅受限于预训练阶段,现在可以通过增加推理计算资源来提升模型表现。
与此同时,Jason Wei昨天发长文更生动地解释了,o1思维链前后存在着细微但重要的差异。
在o1范式之前,思维链的实际表现和人类期望它达到的效果之间存在差距。它更像是先有了答案,再去对答案进行解释,列出步骤。
实际上,模型只是模仿了它在预训练中见过的推理路径,比如数学作业解答,而不是一步步推理得到答案。
这些数据的问题在于,它是作者在其他地方完成所有思考后才总结出来的解答,而不是真正的思维过程。所以这些解答通常信息密度很差。
一个明显的例子就是「答案是5,因为...」这样的表述,其中「5」这个数字突然包含了大量新信息。
在o1范式下,可以看到思维链与教科书中的数学解答很不相同。
这些思维链更像是「内心独白」或「意识流」。你可以看到模型在不断调整思路,说一些像「另外,让我们试试」或「等等,但是」这样的话。
虽然我没有直接测量过,但我敢打赌(我的心理语言学朋友们可能能够确认),思维链中的信息密度比互联网上的普通文本要均匀得多。
由此可见,o1的思维链更接近「人类的思维过程」,答案是通过推理得出的。
OpenAI产品副总Peter Welinder表示,「人们低估了测试时计算能力的强大:它可以持续更长时间的运算,进行并行处理,甚至能够任意地fork和branch——这就像是将你的思维复制1000份,然后从中挑选出最好的想法。」
也就意味着,在AI推理阶段,我们可以通过增加计算资源来显著提升模型表现。
OpenAI研究人员Clive Chan对此表示同感:自一月份加入OpenAI以来,我的观点已经从「这些都是无谓的炒作」转变为「AGI基本上已经到来了」。
依我拙见,接下来需要的并不是太多新的科学理论,而是需要多年辛苦的工程优化,去尝试在这个新范式下所有明显可行的想法,扩大Scaling并提升速度,同时找到方法来教会AI那些无法直接从网上学习的技能。
也许在这堵墙之后还有另一堵墙,但就目前来看,能看到的都是10倍级的进步空间。
这感觉就像,2022年Autopilot范式转变——「端到端机器学习」解决了以前难以解决的问题,但同时带来的新的挑战,即投入多年时间不断微调架构,并在全新的数据问题类型上玩「打地鼠游戏」。
OpenAI研究员Will Depue直接模仿马库斯的语气,照搬了原话颇具玩味。
或许你会说,OpenAI提出的Scaling Law,当前要坚守辩护了。那么,其他人怎么看?
别怕,OpenAI有技术实力
xAI研究员Hieu Pham用调侃的语气表示,我实在忍不住说出这几天一直萦绕在我脑海中的那个俏皮话:「技术力」问题。
那些说大模型Scaling Law已经放缓的人,就像再说摩尔定律在硬件领域已经放缓一样。从某种意义上说,虽然每个人都这么说,但总有公司能找到办法突破这些限制。
即便是面对现有的互联网数据耗尽问题,也会有公司找到解决的办法。
总而言之,OpenAI可能面临一些难题,但「技术力」绝不是问题。
抨击Information,为什么被一些人称为The [Mis]information的原因
数据科学家Yam Peleg郑重申明:深度学习没有撞墙。
另网友表示,关于AI发展正在放缓或即将终结的说法,现在已被证实是胡说八道,完全错误的!
随着OpenAI在o1和CoT(思维链)方面的突破,发展似乎看不到尽头。Q*(代号Strawberry)是带领我们迈向AGI突破性进展,这也是Sam Altman如此有信心的原因。
既然Scaling Law没死,Orion又是怎么回事?
使用成本激增,改进幅度微小,编程性能不进反退?
ChatGPT等其他AI产品的用户数,肉眼可见地增长。奥特曼最近称,ChatGPT已经成为全球第八大网站。
然而,Information称,支撑这些AI背后的基础大模型改进速度,似乎正在放缓。
在即将推出的代号为Orion的旗舰模型时,OpenAI内部遇到了巨大的挑战。
今年5月,Altman曾告诉员工,他预计下一代Orion很可能会比一年前发布的最后一个旗舰产品模型显著提升。
一位人士透露,尽管OpenAI仅完成了Orion训练过程的20%,但其在智能、完成任务、回答问题的能力方面已经与GPT-4相媲美。
但据OpenAI员工测试后发现,虽然Orion性能最终优于之前的模型,但与GPT-3和GPT-4之间的飞跃相比,性能提升要小得多。
他们认为,Orion在处理某些任务时,并不比上一代更可靠。
新模型在语言任务上会表现得更好,但在编码等任务上可能无法超越之前的模型,这是一大问题。
另外,一位知情人士表示,Orion可能比OpenAI最近发布的其他模型,在数据中心的运行成本更高。
Orion的情况可能会测试AI领域的一个核心假设,即所谓的Scaling Law:
只要有更多的数据供大模型学习,并有额外的计算能力来促进训练过程,它们就会继续以相同的速度改进。
就在昨天,科学家Yam Peleg爆料,「听说从某个前沿实验室(老实说不是OpenAI)传出消息,他们在尝试通过延长训练时间,使用越来越多数据来强行提升性能时,遇到了一个意想不到的巨大收益递减瓶颈」。
业界新方向:改进训练后的模型
为了应对GPT改进放缓,对基于训练的Scaling Law提出的挑战,业界似乎正在转向改进训练后的模型,这可能会产生不同类型的Scaling Law。
一些首席执行官,包括小扎在内,表示即使在最坏的情况下,即使当前技术没有改进,仍然有很大的空间可以在其基础上构建消费者和企业产品。
比如,OpenAI正忙于在其模型中嵌入更多代码编写功能,对抗最大劲敌Anthropic的重大威胁。
它还在开发能够控制个人电脑的软件,通过点击、移动光标、文本输入,以及其他人类在使用不同应用程序时进行的操作,来完成网页浏览或应用程序的白领任务。
这些产品,是朝着处理多步任务AI智能体发展的一个组成部分,可能会像最初推出的ChatGPT一样具有革命性。
此外,小扎、Altman,以及其他AI巨头的首席执行官们也公开表示,尚未达到传统Scaling Law的极限。
这也就不难理解,包括OpenAI在内的公司仍在开发昂贵的、耗资数十亿美元的数据中心,以尽可能多地从预训练模型中获取性能提升。
然而,OpenAI研究员Noam Brown在上个月的TEDAI会议上表示,「开发更先进的模型,可能在经济上变得不可行」。
他又表示,「毕竟,我们真的要训练那些耗资数千亿美元或数万亿美元的模型吗?在某个时候,Scaling Law会崩溃」。
在公开发布之前,OpenAI尚未完成Orion安全性测试的漫长过程。
有员工表示,当OpenAI在明年年初发布Orion时,可能会不同于其传统的「GPT」命名惯例,进一步强调了大语言模型改进的不断变化。
撞上数据墙,越训越像旧模型
OpenAI挽救策略
GPU一直在加,智能却不见涨
一些在AI领域投了数千万美元的投资者,也开始怀疑LLM的改进速度是否开始趋于平稳。
著名风投机构Andreessen Horowit联创Ben Horowitz,既是OpenAI股东,也是Mistral、Safe Superintelligence等竞争对手的直接投资者。
他在一个YouTube视频中表示,「我们正以同样的速度增加用于训练AI的GPU数量,但我们根本没有从中获得智能上的改进」。
Horowitz的同事Marc Andreessen在同一个视频中表示,有很多聪明的人正在努力突破渐近线,想办法达到更高水平的推理能力。
Databricks企业软件公司联合创始人兼主席,同时也是一个允许应用程序开发者评估不同大模型的网站的共同开发者Ion Stoica表示,大模型的性能可能在某些方面进入平台期,但在其他方面则没有。
他继续表示,虽然AI在编码和解决复杂的多步问题等任务上继续改善,但在执行一般任务的能力上,如分析文本的情感、描述疾病症状,进展似乎放缓。
对于一般知识问题,你可以说目前我们在LLM的表现上看到了一种平台期。我们需要更多的事实数据,而合成数据的帮助有限。
参考资料:
https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows?rc=epv9gi
阅读最新前沿科技研究报告,欢迎访问欧米伽研究所的“未来知识库”
截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告
上下滑动查看更多