新智元报道
新智元报道
【新智元导读】刚刚,外媒独家爆料,OpenAI下一代旗舰Orion改进大幅放缓,合成数据越训越像旧模型,编码性能甚至还在退步。为此,数位OpenAI大牛上线与网友开启了一场激烈的争辩。
怎么回事,大模型Scaling Law也撞墙了?
GPT系列模型改进缓慢,OpenAI正在转变策略,另谋出路。
据称,下一代旗舰模型Orion并不像前代实现巨大的飞跃,虽然性能会超越OpenAI现有模型,但相较于从GPT-3到GPT-4的迭代,改进幅度要小得多。
不仅如此,这种提升也基本局限在了语言能力上——Orion的代码能力甚至不如旧模型,但成本却更高。
这篇文章直击OpenAI痛点,提出Scaling Law逐渐放缓,原因之一是高质量文本数据越来越少。
为此,OpenAI成立专门的基础团队,去研究如何解决训练数据匮乏问题改进模型,以及Scaling Law还能适用多久。
一时间,全网掀起了热议——对LLM能否通向AGI的质疑声此起彼伏。
向来都在唱衰的NYU教授马库斯,更是直接单方面宣布「胜利」:游戏结束,我赢了!
马库斯:我早就说过,GPT正在陷入收益递减阶段
为了扭转这一局面,多位OpenAI研究人员当场急了,纷纷现身为一直以来坚守的LLM定律辩护。
德扑之父Noam Brown直接追问网友原因,对方回复称,「都已经过去一年半了,Scaling并没有给大模型带去显著的改善」。
Noam反问道,「o1-preview呢」?
俄勒冈州立大学名誉教授表示,「o1-preview是否是一个Scaling的实例?如果是,具体是什么在Scaling?在过去,『Scaling』指的是同时扩大数据规模、神经网络参数和计算资源」。
Noam称,「它是推理计算的Scaling」。
就这样,AI圈一场关于大模型Scaling Law的辩论就此展开了。
OpenAI大牛下场激辩,Sacling Law没撞墙
在说Scaling Law之前,先简要回顾下它具体指的是什么?
OpenAI团队2020年提交的arXiv论文中最先提出这一概念,是指LLM性能与计算量、参数量、数据量三者呈现幂律关系。
论文地址:https://arxiv.org/pdf/2001.08361
直白讲,也就是业界一直宣称的,随着大模型参数不断增加,超级智能终有一天实现。
而o1的诞生,标志着Scaling Law的另一个转向。
OpenAI研究员Adam称,Scaling刚刚找到了另一套「齿轮」!
o1系列模型scaling的两个重要维度——训练时间和测试(推理)时间。
传统的Scaling Law,专注于用更长时间(预)训练更大的模型,绝对仍然是一个重要因素。而且,这种规模仍是基础。
现在恰好出现了另一个Scaling因素,这两个维度有望一起解锁一些惊人的能力。
那么这个维度,是什么?
o1发布之际,Noam Brown对其推理思维做出了解释:
用强化学习训练后的o1在给出回答前,会通过一个私有的CoT进行「思考」。模型思考时间越长,在推理任务上表现的越好。
这种方法开创了模型scaling的新维度,模型性能不再仅仅受限于预训练阶段,现在可以通过增加推理计算资源来提升模型表现。
与此同时,Jason Wei昨天发长文更生动地解释了,o1思维链前后存在着细微但重要的差异。
在o1范式之前,思维链的实际表现和人类期望它达到的效果之间存在差距。它更像是先有了答案,再去对答案进行解释,列出步骤。
实际上,模型只是模仿了它在预训练中见过的推理路径,比如数学作业解答,而不是一步步推理得到答案。
这些数据的问题在于,它是作者在其他地方完成所有思考后才总结出来的解答,而不是真正的思维过程。所以这些解答通常信息密度很差。
一个明显的例子就是「答案是5,因为...」这样的表述,其中「5」这个数字突然包含了大量新信息。
在o1范式下,可以看到思维链与教科书中的数学解答很不相同。
这些思维链更像是「内心独白」或「意识流」。你可以看到模型在不断调整思路,说一些像「另外,让我们试试」或「等等,但是」这样的话。
虽然我没有直接测量过,但我敢打赌(我的心理语言学朋友们可能能够确认),思维链中的信息密度比互联网上的普通文本要均匀得多。
由此可见,o1的思维链更接近「人类的思维过程」,答案是通过推理得出的。
OpenAI产品副总Peter Welinder表示,「人们低估了测试时计算能力的强大:它可以持续更长时间的运算,进行并行处理,甚至能够任意地fork和branch——这就像是将你的思维复制1000份,然后从中挑选出最好的想法。」
也就意味着,在AI推理阶段,我们可以通过增加计算资源来显著提升模型表现。
OpenAI研究人员Clive Chan对此表示同感:自一月份加入OpenAI以来,我的观点已经从「这些都是无谓的炒作」转变为「AGI基本上已经到来了」。
依我拙见,接下来需要的并不是太多新的科学理论,而是需要多年辛苦的工程优化,去尝试在这个新范式下所有明显可行的想法,扩大Scaling并提升速度,同时找到方法来教会AI那些无法直接从网上学习的技能。
也许在这堵墙之后还有另一堵墙,但就目前来看,能看到的都是10倍级的进步空间。
这感觉就像,2022年Autopilot范式转变——「端到端机器学习」解决了以前难以解决的问题,但同时带来的新的挑战,即投入多年时间不断微调架构,并在全新的数据问题类型上玩「打地鼠游戏」。
OpenAI研究员Will Depue直接模仿马库斯的语气,照搬了原话颇具玩味。
或许你会说,OpenAI提出的Scaling Law,当前要坚守辩护了。那么,其他人怎么看?
别怕,OpenAI有技术实力
xAI研究员Hieu Pham用调侃的语气表示,我实在忍不住说出这几天一直萦绕在我脑海中的那个俏皮话:「技术力」问题。
那些说大模型Scaling Law已经放缓的人,就像再说摩尔定律在硬件领域已经放缓一样。从某种意义上说,虽然每个人都这么说,但总有公司能找到办法突破这些限制。
即便是面对现有的互联网数据耗尽问题,也会有公司找到解决的办法。
总而言之,OpenAI可能面临一些难题,但「技术力」绝不是问题。
抨击Information,为什么被一些人称为The [Mis]information的原因
数据科学家Yam Peleg郑重申明:深度学习没有撞墙。
另网友表示,关于AI发展正在放缓或即将终结的说法,现在已被证实是胡说八道,完全错误的!
随着OpenAI在o1和CoT(思维链)方面的突破,发展似乎看不到尽头。Q*(代号Strawberry)是带领我们迈向AGI突破性进展,这也是Sam Altman如此有信心的原因。
既然Scaling Law没死,Orion又是怎么回事?
使用成本激增,改进幅度微小,编程性能不进反退?
ChatGPT等其他AI产品的用户数,肉眼可见地增长。奥特曼最近称,ChatGPT已经成为全球第八大网站。
然而,Information称,支撑这些AI背后的基础大模型改进速度,似乎正在放缓。
在即将推出的代号为Orion的旗舰模型时,OpenAI内部遇到了巨大的挑战。
今年5月,Altman曾告诉员工,他预计下一代Orion很可能会比一年前发布的最后一个旗舰产品模型显著提升。
一位人士透露,尽管OpenAI仅完成了Orion训练过程的20%,但其在智能、完成任务、回答问题的能力方面已经与GPT-4相媲美。
但据OpenAI员工测试后发现,虽然Orion性能最终优于之前的模型,但与GPT-3和GPT-4之间的飞跃相比,性能提升要小得多。
他们认为,Orion在处理某些任务时,并不比上一代更可靠。
新模型在语言任务上会表现得更好,但在编码等任务上可能无法超越之前的模型,这是一大问题。
另外,一位知情人士表示,Orion可能比OpenAI最近发布的其他模型,在数据中心的运行成本更高。
Orion的情况可能会测试AI领域的一个核心假设,即所谓的Scaling Law:
只要有更多的数据供大模型学习,并有额外的计算能力来促进训练过程,它们就会继续以相同的速度改进。
就在昨天,科学家Yam Peleg爆料,「听说从某个前沿实验室(老实说不是OpenAI)传出消息,他们在尝试通过延长训练时间,使用越来越多数据来强行提升性能时,遇到了一个意想不到的巨大收益递减瓶颈」。
业界新方向:改进训练后的模型
撞上数据墙,越训越像旧模型
OpenAI挽救策略
GPU一直在加,智能却不见涨