Scaling Law撞墙,AI圈炸锅了!OpenAI旗舰Orion被曝遭遇瓶颈,大改技术路线

科技   2024-11-11 15:05   北京  



  新智元报道  

编辑:桃子 好困
【新智元导读】刚刚,外媒独家爆料,OpenAI下一代旗舰Orion改进大幅放缓,合成数据越训越像旧模型,编码性能甚至还在退步。为此,数位OpenAI大牛上线与网友开启了一场激烈的争辩。

怎么回事,大模型Scaling Law也撞墙了?

几天前,Sam Altman在YC独家专访中大胆预言,2025年AGI降临,并期待在同年要一个孩子。
没想到,The Information紧接着的一份独家爆料,直接打脸Altman:

GPT系列模型改进缓慢,OpenAI正在转变策略,另谋出路。

据称,下一代旗舰模型Orion并不像前代实现巨大的飞跃,虽然性能会超越OpenAI现有模型,但相较于从GPT-3到GPT-4的迭代,改进幅度要小得多。

不仅如此,这种提升也基本局限在了语言能力上——Orion的代码能力甚至不如旧模型,但成本却更高。

这篇文章直击OpenAI痛点,提出Scaling Law逐渐放缓,原因之一是高质量文本数据越来越少。

为此,OpenAI成立专门的基础团队,去研究如何解决训练数据匮乏问题改进模型,以及Scaling Law还能适用多久。

一时间,全网掀起了热议——对LLM能否通向AGI的质疑声此起彼伏。

向来都在唱衰的NYU教授马库斯,更是直接单方面宣布「胜利」:游戏结束,我赢了!

马库斯:我早就说过,GPT正在陷入收益递减阶段

为了扭转这一局面,多位OpenAI研究人员当场急了,纷纷现身为一直以来坚守的LLM定律辩护。

德扑之父Noam Brown直接追问网友原因,对方回复称,「都已经过去一年半了,Scaling并没有给大模型带去显著的改善」。

Noam反问道,「o1-preview呢」?

俄勒冈州立大学名誉教授表示,「o1-preview是否是一个Scaling的实例?如果是,具体是什么在Scaling?在过去,『Scaling』指的是同时扩大数据规模、神经网络参数和计算资源」。

Noam称,「它是推理计算的Scaling」。

就这样,AI圈一场关于大模型Scaling Law的辩论就此展开了。

OpenAI大牛下场激辩,Sacling Law没撞墙


在说Scaling Law之前,先简要回顾下它具体指的是什么?

OpenAI团队2020年提交的arXiv论文中最先提出这一概念,是指LLM性能与计算量、参数量、数据量三者呈现幂律关系。

论文地址:https://arxiv.org/pdf/2001.08361

直白讲,也就是业界一直宣称的,随着大模型参数不断增加,超级智能终有一天实现。

而o1的诞生,标志着Scaling Law的另一个转向。

OpenAI研究员Adam称,Scaling刚刚找到了另一套「齿轮」!

o1系列模型scaling的两个重要维度——训练时间和测试(推理)时间。

传统的Scaling Law,专注于用更长时间(预)训练更大的模型,绝对仍然是一个重要因素。而且,这种规模仍是基础。

现在恰好出现了另一个Scaling因素,这两个维度有望一起解锁一些惊人的能力。

那么这个维度,是什么?

o1发布之际,Noam Brown对其推理思维做出了解释:

用强化学习训练后的o1在给出回答前,会通过一个私有的CoT进行「思考」。模型思考时间越长,在推理任务上表现的越好。

这种方法开创了模型scaling的新维度,模型性能不再仅仅受限于预训练阶段,现在可以通过增加推理计算资源来提升模型表现。

与此同时,Jason Wei昨天发长文更生动地解释了,o1思维链前后存在着细微但重要的差异。

在o1范式之前,思维链的实际表现和人类期望它达到的效果之间存在差距。它更像是先有了答案,再去对答案进行解释,列出步骤。

实际上,模型只是模仿了它在预训练中见过的推理路径,比如数学作业解答,而不是一步步推理得到答案。

这些数据的问题在于,它是作者在其他地方完成所有思考后才总结出来的解答,而不是真正的思维过程。所以这些解答通常信息密度很差。

一个明显的例子就是「答案是5,因为...」这样的表述,其中「5」这个数字突然包含了大量新信息。

在o1范式下,可以看到思维链与教科书中的数学解答很不相同。

这些思维链更像是「内心独白」或「意识流」。你可以看到模型在不断调整思路,说一些像「另外,让我们试试」或「等等,但是」这样的话。

虽然我没有直接测量过,但我敢打赌(我的心理语言学朋友们可能能够确认),思维链中的信息密度比互联网上的普通文本要均匀得多。

由此可见,o1的思维链更接近「人类的思维过程」,答案是通过推理得出的。

OpenAI产品副总Peter Welinder表示,「人们低估了测试时计算能力的强大:它可以持续更长时间的运算,进行并行处理,甚至能够任意地fork和branch——这就像是将你的思维复制1000份,然后从中挑选出最好的想法。」

也就意味着,在AI推理阶段,我们可以通过增加计算资源来显著提升模型表现。

OpenAI研究人员Clive Chan对此表示同感:自一月份加入OpenAI以来,我的观点已经从「这些都是无谓的炒作」转变为「AGI基本上已经到来了」。

依我拙见,接下来需要的并不是太多新的科学理论,而是需要多年辛苦的工程优化,去尝试在这个新范式下所有明显可行的想法,扩大Scaling并提升速度,同时找到方法来教会AI那些无法直接从网上学习的技能。

也许在这堵墙之后还有另一堵墙,但就目前来看,能看到的都是10倍级的进步空间。

这感觉就像,2022年Autopilot范式转变——「端到端机器学习」解决了以前难以解决的问题,但同时带来的新的挑战,即投入多年时间不断微调架构,并在全新的数据问题类型上玩「打地鼠游戏」。

OpenAI研究员Will Depue直接模仿马库斯的语气,照搬了原话颇具玩味。

或许你会说,OpenAI提出的Scaling Law,当前要坚守辩护了。那么,其他人怎么看?

别怕,OpenAI有技术实力

xAI研究员Hieu Pham用调侃的语气表示,我实在忍不住说出这几天一直萦绕在我脑海中的那个俏皮话:「技术力」问题。

那些说大模型Scaling Law已经放缓的人,就像再说摩尔定律在硬件领域已经放缓一样。从某种意义上说,虽然每个人都这么说,但总有公司能找到办法突破这些限制。

即便是面对现有的互联网数据耗尽问题,也会有公司找到解决的办法。

总而言之,OpenAI可能面临一些难题,但「技术力」绝不是问题。

抨击Information,为什么被一些人称为The [Mis]information的原因

数据科学家Yam Peleg郑重申明:深度学习没有撞墙。

另网友表示,关于AI发展正在放缓或即将终结的说法,现在已被证实是胡说八道,完全错误的!

随着OpenAI在o1和CoT(思维链)方面的突破,发展似乎看不到尽头。Q*(代号Strawberry)是带领我们迈向AGI突破性进展,这也是Sam Altman如此有信心的原因。

既然Scaling Law没死,Orion又是怎么回事?

使用成本激增,改进幅度微小,编程性能不进反退?


ChatGPT等其他AI产品的用户数,肉眼可见地增长。奥特曼最近称,ChatGPT已经成为全球第八大网站。

然而,Information称,支撑这些AI背后的基础大模型改进速度,似乎正在放缓。

在即将推出的代号为Orion的旗舰模型时,OpenAI内部遇到了巨大的挑战。

今年5月,Altman曾告诉员工,他预计下一代Orion很可能会比一年前发布的最后一个旗舰产品模型显著提升。

一位人士透露,尽管OpenAI仅完成了Orion训练过程的20%,但其在智能、完成任务、回答问题的能力方面已经与GPT-4相媲美。

但据OpenAI员工测试后发现,虽然Orion性能最终优于之前的模型,但与GPT-3和GPT-4之间的飞跃相比,性能提升要小得多。

他们认为,Orion在处理某些任务时,并不比上一代更可靠。

新模型在语言任务上会表现得更好,但在编码等任务上可能无法超越之前的模型,这是一大问题。

另外,一位知情人士表示,Orion可能比OpenAI最近发布的其他模型,在数据中心的运行成本更高。

Orion的情况可能会测试AI领域的一个核心假设,即所谓的Scaling Law:

只要有更多的数据供大模型学习,并有额外的计算能力来促进训练过程,它们就会继续以相同的速度改进。

就在昨天,科学家Yam Peleg爆料,「听说从某个前沿实验室(老实说不是OpenAI)传出消息,他们在尝试通过延长训练时间,使用越来越多数据来强行提升性能时,遇到了一个意想不到的巨大收益递减瓶颈」。

业界新方向:改进训练后的模型

为了应对GPT改进放缓,对基于训练的Scaling Law提出的挑战,业界似乎正在转向改进训练后的模型,这可能会产生不同类型的Scaling Law。
一些首席执行官,包括小扎在内,表示即使在最坏的情况下,即使当前技术没有改进,仍然有很大的空间可以在其基础上构建消费者和企业产品。
比如,OpenAI正忙于在其模型中嵌入更多代码编写功能,对抗最大劲敌Anthropic的重大威胁。
它还在开发能够控制个人电脑的软件,通过点击、移动光标、文本输入,以及其他人类在使用不同应用程序时进行的操作,来完成网页浏览或应用程序的白领任务。
这些产品,是朝着处理多步任务AI智能体发展的一个组成部分,可能会像最初推出的ChatGPT一样具有革命性。
此外,小扎、Altman,以及其他AI巨头的首席执行官们也公开表示,尚未达到传统Scaling Law的极限。
这也就不难理解,包括OpenAI在内的公司仍在开发昂贵的、耗资数十亿美元的数据中心,以尽可能多地从预训练模型中获取性能提升。
然而,OpenAI研究员Noam Brown在上个月的TEDAI会议上表示,「开发更先进的模型,可能在经济上变得不可行」。
他又表示,「毕竟,我们真的要训练那些耗资数千亿美元或数万亿美元的模型吗?在某个时候,Scaling Law会崩溃」。
在公开发布之前,OpenAI尚未完成Orion安全性测试的漫长过程。
有员工表示,当OpenAI在明年年初发布Orion时,可能会不同于其传统的「GPT」命名惯例,进一步强调了大语言模型改进的不断变化。

撞上数据墙,越训越像旧模型


GPT发展放缓,一个原因是高质量文本和其他数据供应的减少。
LLM在预训练期间会处理这些数据,以理解世界和不同概念之间的关系,从而解决诸如撰写博客文章、解决编码错误等问题。
过去几年中,LLM使用了各种公开可用的文本以及来自网站、书籍,以及其他来源的其他数据进行预训练。
众所周知,互联网数据已经耗尽。另有Epoch AI研究佐证,2026年前全网高质量数据几近用完。
一些人表示,模型的开发者已尽可能,从这类数据中榨取了更多的信息。
为此,OpenAI组建了一个基础团队,由之前负责预训练Nick Ryder领导,以探索如何应对训练数据短缺以及Scaling Law还会持续多长时间。
据一位OpenAI员工透露,Orion部分训练是通过由其他OpenAI模型(包括GPT-4和最近发布的o1推理模型)生成的AI数据进行训练的。
然而,他又表示,这种所谓的「合成数据」导致了一个新问题——即Orion最终在某些方面可能与那些旧模型相似。

OpenAI挽救策略

虽然数据暂时无解,但OpenAI的研究人员正在通过改进模型处理特定任务的方式,来提升它们在后训练过程中的表现。
具体来说,他们让模型从大量已正确解决的问题(如数学或编程问题)中学习,这一过程被称为强化学习(RL)。
他们还要求人类评估员在特定的编程或问题解决任务上,测试预训练模型并对答案进行评分,这有助于研究人员微调模型,以改进其对某些类型请求(如写作或编码)的回答。
这一过程称为人类反馈强化学习(RLHF),也在以往AI模型性能改进方面,可以看到该方法的有效性。
为了处理这些评估,OpenAI和其他AI开发者通常依赖于,诸如Scale AI和Turing这样的初创公司来管理成千上万的合同工。
此外,o1推理模型,在给出答案前需要更多时间进行「思考」LLM训练过的数据,这一概念被称为测试时计算(Test-Time Compute)。
这意味着o1的响应质量可以继续提高,当模型在回答用户问题时,提供额外的计算资源,即使不对基础模型进行更改。
知情人士称,如果OpenAI能够继续提高基础模型的质量,即使速度较慢,也可以产生更好的推理结果。
Brown在TEDAI会议上表示,「这为Scaling打开了全新的维度,研究人员可以通过从『每次查询花费一分钱到每次查询花费十美分』来改善模型的响应」。
也就是说,不能暴力Scaling大模型,否则Scaling Law真的会崩溃。
与此同时,Altman在伦敦开发者日上,强调了OpenAI推理模型的重要性,这些模型可以与LLM结合使用。
「我希望『推理』能够解锁我们等待多年的许多事情——例如,让这样的模型能够为新科学做出贡献,帮助编写更多复杂的代码」。
在最近与YC首席执行官Garry Tan的采访中,Altman表示,「我们基本上知道该怎么去做」才能实现与人类能力相当的通用人工智能——其中一部分涉及「以创造性的方式使用当前模型」。
数学家和其他科学家表示,o1作为一个可以提供反馈、想法的伴侣,对他们的工作很有帮助。
但据两名了解情况的员工称,该模型的价格是非推理模型的6倍,因此缺少广泛的用户基础。

GPU一直在加,智能却不见涨


一些在AI领域投了数千万美元的投资者,也开始怀疑LLM的改进速度是否开始趋于平稳。
著名风投机构Andreessen Horowit联创Ben Horowitz,既是OpenAI股东,也是Mistral、Safe Superintelligence等竞争对手的直接投资者。
他在一个YouTube视频中表示,「我们正以同样的速度增加用于训练AI的GPU数量,但我们根本没有从中获得智能上的改进」。
Horowitz的同事Marc Andreessen在同一个视频中表示,有很多聪明的人正在努力突破渐近线,想办法达到更高水平的推理能力。
Databricks企业软件公司联合创始人兼主席,同时也是一个允许应用程序开发者评估不同大模型的网站的共同开发者Ion Stoica表示,大模型的性能可能在某些方面进入平台期,但在其他方面则没有。
他继续表示,虽然AI在编码和解决复杂的多步问题等任务上继续改善,但在执行一般任务的能力上,如分析文本的情感、描述疾病症状,进展似乎放缓。
对于一般知识问题,你可以说目前我们在LLM的表现上看到了一种平台期。我们需要更多的事实数据,而合成数据的帮助有限。
参考资料:
https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows?rc=epv9gi




新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
 最新文章