Garrison Lovely|是否存在一条通往 AGI 的“基本清晰”的道路?大模型真的遇到瓶颈了吗?

文摘   2024-11-18 13:02   北京  

深度学习真的遇到瓶颈了吗?Is Deep Learning Actually Hitting a Wall?
那么,是否存在一条通往 AGI 的“基本清晰”的道路呢?And is there a “basically clear” path to AGI?

加里森·洛夫利Garrison Lovely
2024 年 11 月 13 日Nov 13, 2024

[我应该感谢 Gary Marcus 在2022 年 3 月创造了“深度学习正在遭遇瓶颈”这个术语。考虑到这个词进入词典的次数,我实际上并没有意识到它完全是他发明的。他认为,LLM的收益将在 2024 年 4 月递减,这是我在 6 月份做出类似预测的依据。他还在周六发表了一篇文章,分析了本文中包含的一些相同证据。]

Ilya Sutskever 可能是扩展假设即规模定律最具影响力的支持者,该假设认为,只需增加数据量、训练时间和模型参数就可以提高性能,因此他在昨天的路透社文章中承认扩展已经达到稳定状态,这意义重大:

人工智能实验室 Safe Superintelligence (SSI) 和 OpenAI 的联合创始人 Ilya Sutskever 最近告诉路透社,扩大预训练规模(即训练人工智能模型的阶段,该模型使用大量未标记的数据来理解语言模式和结构)的结果已经达到稳定状态。

值得注意的是,SSI 的总资金远少于其竞争对手,因此推进这一叙述符合 Sutskever 的利益。

以下是路透社报道中 Sutskever 的原话:

“2010 年代是扩张的时代,现在我们又回到了好奇和发现的时代。每个人都在寻找下一个目标,”Sutskever 说。“扩张正确的事情现在比以往任何时候都更重要。”

路透社进一步补充报道了他的主张:

据三位熟悉私人事务的消息人士透露,在幕后,各大人工智能实验室的研究人员在发布一款大型语言模型的竞赛中遇到了拖延和令人失望的结果,该模型的性能要优于 OpenAI 近两年来的 GPT-4 模型。

早在 6 月份,我就预测过类似的情况,我写道:“我认为从这一代到下一代 LLM 的飞跃不会像从 GPT-3 / 3.5 到 4 的飞跃那么大。”

我为什么会这么想呢?以下是我当时写的内容:

1. 自 GPT-4 以来,我们在一年多的时间里只看到了微小的改进

2. 实验室人员的谣言

3. 缺乏良好的训练数据

4. 下一个单词预测 + RLHF [从人类反馈中进行强化学习] 可能存在一些内在限制(尽管带有自我游戏的 RL 可能完全有效!)

5. 许多流行的基准实际上并没有衡量我们关心的事情(比如在较长时间范围内的推理、在世界中行动的能力)。在这些方面取得进一步进展可能不会带来我们期望的下一代计算机的实用性飞跃


苏茨克维尔向路透社发表上述言论之前,《The Information》发表了一篇重要报道,称 OpenAI 正在开发的 Orion 模型也遇到了类似的问题,“今年 5 月,OpenAI 首席执行官萨姆·奥特曼 (Sam Altman) 告诉员工,他预计这家初创公司的研究人员正在训练的 Orion 可能会比一年前发布的最后一款旗舰模型好得多。”

但训练结束后,据报道模型并没有实现 Altman 的预测:

据一些使用或测试过 Orion 的 OpenAI 员工表示,虽然 Orion 的性能最终超过了之前的型号,但与该公司发布的最后两款旗舰型号 GPT-3 和 GPT-4 之间的飞跃相比,质量的提升要小得多。

显然,情况也并没有全面改善:

据 OpenAI 的一名员工称,Orion 在语言任务上表现更好,但在编码等任务上可能不会胜过之前的模型。其中一位员工表示,这可能是一个问题,因为与 OpenAI 最近发布的其他模型相比,Orion 在 OpenAI 数据中心运行的成本可能更高。

据 The Information 称,OpenAI 甚至可能不会在明年初发布 Orion 时为其命名 GPT。

为什么缩放定律可能会开始失效?据 OpenAI 员工和 AI 研究人员向 The Information 透露,公司正在耗尽高质量数据,而用合成数据进行补充导致模型与旧模型存在问题。

人工智能经济学


所有这些的最大警告是,OpenAI 最近的 o1 模型可能指明了前进的道路,即使扩展停滞不前。通过让模型在某些任务上“思考”更长时间,就像 o1 所做的那样,您可以提高性能并解锁新功能,而无需改进底层模型。

OpenAI报告称,o1 在具有挑战性的数学、编码和博士级科学基准上拥有最先进的性能,首次在某些领域击败了人类专家:

但目前尚不清楚这将如何转化为长期任务的表现,这在很大程度上取决于错误率和错误纠正等因素。

但仍然存在一些大问题,即:经济状况是否允许这样做?

OpenAI 研究员 Noam Brown在上个月的 TED AI 大会上提出了这个问题,“毕竟,我们真的要训练花费数千亿美元或数万亿美元的模型吗?”Brown 说。“在某个时候,扩展范式就会崩溃。”

以下是 OpenAI 在 o1 公告中发布的图表:

它表明,您可以通过增加预训练时间(经典扩展的一部分)或增加“测试时间计算”来提高技术基准的性能,即将更多的“思考”投入到正在解决的问题上。

据报道,为了说明这一技术在实践中如何发挥作用,布朗向TED AI 观众表示:

事实证明,让机器人在一手扑克牌中思考 20 秒,所获得的性能提升与将模型扩大 100,000 倍并训练 100,000 倍的时间相同。

那么,这是否意味着新的缩放定律已被解锁,而旧定律的潜在消亡也没什么大不了的呢?

别那么快。

OpenAI 没有公布上图 x 轴的绝对值,这一点很能说明问题。如果你有办法在 STEM 任务上胜过人类专家,但一天的任务成本却高达 10 亿美元,那么你就无法实现能力爆炸式增长,而这正是通用人工智能 (AGI) 理念对许多人如此有吸引力的主要原因。

此外,y 轴不是对数刻度,而 x 轴是,这意味着成本对于线性绩效回报呈指数增加(即,在任务上“思考”更长时间会导致边际收益递减)。

这让我想起了量子计算机或聚变反应堆——我们可以建造它们,但经济效益还远远不够。技术突破只是拼图中的一块。你还需要能够扩大规模(这对硅谷来说并不是什么新鲜事)。

更智能的基础模型可以减少完成某些任务所需的测试时间计算量,但扩大基础模型的规模也会增加推理成本(即提示模型的价格)。目前尚不清楚哪种影响会占主导地位,答案可能取决于任务。如果研究人员真的达到了瓶颈,他们可能会被困在比目前发布的模型稍微智能一点的基础模型上。

还有一个悬而未决的问题:如果有足够的周期,这些基础模型是否足够智能,能够实现 STEM 研发的自动化。换句话说,即使计算成本下降了几个数量级,是否足以通过当前堆栈实现 AGI(例如,GPT-4o 之上的 o1)?

AGI 可能真的很昂贵


AGI 之所以如此疯狂,一个关键因素是它突破了人类的正常极限。这可以体现在超人的速度、能力或规模上(或者三者兼而有之)。

我在 1 月份的Jacobin封面故事《人类能在人工智能未来生存吗?》中写到了这一点:

这是“人口”增长刺激智能爆炸这一想法的一个程式化版本:如果人工智能系统在研发方面能与人类科学家相媲美,那么这些系统将迅速激增,从而导致大量新的高产工人进入经济。换句话说,如果 GPT-7 可以完成人类工人的大部分任务,并且只需花费几美元就可以让训练有素的模型完成一天的任务,那么该模型的每个实例都将带来巨额利润,从而引发正反馈循环。这可能会产生数十亿或更多数字工人的虚拟“人口”,每个数字工人的价值都远远超过运行它们所需的能源成本。Sutskever认为“整个地球表面都将被太阳能电池板和数据中心覆盖”的可能性很大。

我坚持这一分析,但我现在认为,首批能够进行先进 STEM 研发的人工智能系统的成本将比人类研究人员同等工作的成本更高,这种可能性越来越大。这可能会催生出一个类似于培养肉的市场,即有可能制造出分子层面的“真”肉,但成本比旧方法高出几个数量级,至少在初期是这样。

跨越这个低谷将会有更多的经济激励,因为好处不仅仅是一个没有痛苦的汉堡包,而且价格与真正的汉堡有竞争力,而且可以部署任意数量的远程工作者等同于任何目的(包括降低运行更多员工的成本)。

当我写上面这段话时,聊天机器人几乎免费阅读我的整个草稿并提供反馈。但问题是反馈并不是那么有用。

但是现在,ChatGPT 高级帐户每周只能通过最先进的版本 o1 预览版 向您发送50 条消息(o1 mini 每天允许发送 50 条消息)。

OpenAI 的 API o1-preview价格比 GPT-4o 高出六倍(o1 的成本为每 100 万个输入代币 15 美元,每 100 万个输出代币 60 美元)。

启示


那又怎么样?如果深度学习真的遇到了瓶颈,那么这对行业和整个世界都会产生重大影响。这是我在 6 月份的预测帖子中写的内容:

- 对人工智能公司的投资大幅下降,这很大程度上是基于对持续改善的预期

- DL/LLM(深度学习/大型语言模型)怀疑论者的胜利主义

- 对监管的兴趣减少

- 更长的 AI 时间线

但我们似乎看到的情况与深度学习普遍陷入困境有所不同。更具体地说,它似乎是:扩大模型预训练的回报正在趋于稳定。

即使这是真的,o1 方法也为实现远程工作自动化提供了一条理论路径,除非我们在那里也遇到了瓶颈,或者它太昂贵而无法实用。

如果构建 AGI 需要非常庞大的基础模型和成倍增加的推理计算,那么这将给扩大训练和运行 AI 模型的关键输入带来更大的压力,例如数据中心、GPU 工厂和发电厂。由于 AI 公司受到越来越稀缺的计算资源的限制,因此这方面的压力本来就很大,因此很难判断最近的任何举措是否是停滞的证据(例如微软重启三哩岛核电站以支持数据中心)。

如果事实证明,第一个能够真正实现人工智能研究自动化的人工智能系统遇到了基础设施的严格物理限制,那么这对人类来说可能是个幸运的突破。为什么?假设的能力爆炸可能会受到这些限制的速率限制。“起飞速度”,即 AGI 引导到超级智能的速度,长期以来一直被视为人类失去对系统控制的可能性的关键因素。

事实上,OpenAI 首席执行官 Sam Altman 曾经认为,我们应该在“计算过剩”较少的时候竞相构建 AGI,这样我们的起步就会比较慢。人们认为,在构建 AGI 时可用的备用计算基础设施越多,就可以立即投入更多资源来启动模型。然而,Altman 从 2 月份开始推动大规模建设计算基础设施,故意试图增加计算过剩,这与他之前的安全计划相矛盾(我在这里写到了这一点)。

Altman最近表示,AGI 的发展路径“基本清晰”。如果他是对的,但这条路径需要计算成本降低几个数量级,那么 OpenAI 可能无法坚持足够长的时间来实现这一目标(更不用说构建它了),因为到 2024 年,OpenAI 的运营成本将接近 100 亿美元。

打破炒作


评估人工智能预测的主要挑战之一是,能够掌握该技术前沿最新信息的人都在推进某些叙述方面拥有巨大的经济利益。

建立基础模型的公司的每位高管都希望投资者相信 AGI 即将到来,因为这些公司目前是无底洞,没有明确的盈利途径。人工智能的单位经济效益实际上比软件差得多。复制 Microsoft Word 基本上不需要花费任何成本,但每个 ChatGPT 提示都需要花费大量金钱。正如我们所见,o1 方法可能只会加剧这个问题。

但综合考虑,我认为人工智能能力将继续进步,尽管进步速度会比AlexNet开启深度学习革命  十几年来的迅猛进步要慢。

投入该领域的资金和精力比以往任何时候都多。不到两年的时间里,推理成本下降了近三个数量级。尽管建立前沿人工智能模型的成本对于私营部门来说是惊人的,但对于世界上最大的政府来说,这只是九牛一毛,因为他们开始对这项技术产生了真正的兴趣。

毕竟,国防部与风险投资支持的人工智能初创公司有共同之处:两者都可以获得数十亿美元的资金,但无法盈利。主要区别在于国防部可以多加几个零。


https://garrisonlovely.substack.com/p/is-deep-learning-actually-hitting

科技世代千高原
透视深度科技化时代™ 探寻合意的人类未来
 最新文章