Scaling Law撞墙，AI圈炸锅了！OpenAI旗舰Orion被曝遭遇瓶颈，大改技术路线

科技 2024-11-12 17:36 北京

来源：机器学习研究组订阅

怎么回事，大模型Scaling Law也撞墙了？

几天前，Sam Altman在YC独家专访中大胆预言，2025年AGI降临，并期待在同年要一个孩子。

没想到，The Information紧接着的一份独家爆料，直接打脸Altman：

GPT系列模型改进缓慢，OpenAI正在转变策略，另谋出路。

据称，下一代旗舰模型Orion并不像前代实现巨大的飞跃，虽然性能会超越OpenAI现有模型，但相较于从GPT-3到GPT-4的迭代，改进幅度要小得多。

不仅如此，这种提升也基本局限在了语言能力上——Orion的代码能力甚至不如旧模型，但成本却更高。

这篇文章直击OpenAI痛点，提出Scaling Law逐渐放缓，原因之一是高质量文本数据越来越少。

为此，OpenAI成立专门的基础团队，去研究如何解决训练数据匮乏问题改进模型，以及Scaling Law还能适用多久。

一时间，全网掀起了热议——对LLM能否通向AGI的质疑声此起彼伏。

向来都在唱衰的NYU教授马库斯，更是直接单方面宣布「胜利」：游戏结束，我赢了！

马库斯：我早就说过，GPT正在陷入收益递减阶段

为了扭转这一局面，多位OpenAI研究人员当场急了，纷纷现身为一直以来坚守的LLM定律辩护。

德扑之父Noam Brown直接追问网友原因，对方回复称，「都已经过去一年半了，Scaling并没有给大模型带去显著的改善」。

Noam反问道，「o1-preview呢」？

俄勒冈州立大学名誉教授表示，「o1-preview是否是一个Scaling的实例？如果是，具体是什么在Scaling？在过去，『Scaling』指的是同时扩大数据规模、神经网络参数和计算资源」。

Noam称，「它是推理计算的Scaling」。

就这样，AI圈一场关于大模型Scaling Law的辩论就此展开了。

OpenAI大牛下场激辩，Sacling Law没撞墙

在说Scaling Law之前，先简要回顾下它具体指的是什么？

OpenAI团队2020年提交的arXiv论文中最先提出这一概念，是指LLM性能与计算量、参数量、数据量三者呈现幂律关系。

论文地址：https://arxiv.org/pdf/2001.08361

直白讲，也就是业界一直宣称的，随着大模型参数不断增加，超级智能终有一天实现。

而o1的诞生，标志着Scaling Law的另一个转向。

OpenAI研究员Adam称，Scaling刚刚找到了另一套「齿轮」！

o1系列模型scaling的两个重要维度——训练时间和测试（推理）时间。

传统的Scaling Law，专注于用更长时间（预）训练更大的模型，绝对仍然是一个重要因素。而且，这种规模仍是基础。

现在恰好出现了另一个Scaling因素，这两个维度有望一起解锁一些惊人的能力。

那么这个维度，是什么？

o1发布之际，Noam Brown对其推理思维做出了解释：

用强化学习训练后的o1在给出回答前，会通过一个私有的CoT进行「思考」。模型思考时间越长，在推理任务上表现的越好。

这种方法开创了模型scaling的新维度，模型性能不再仅仅受限于预训练阶段，现在可以通过增加推理计算资源来提升模型表现。

与此同时，Jason Wei昨天发长文更生动地解释了，o1思维链前后存在着细微但重要的差异。

在o1范式之前，思维链的实际表现和人类期望它达到的效果之间存在差距。它更像是先有了答案，再去对答案进行解释，列出步骤。

实际上，模型只是模仿了它在预训练中见过的推理路径，比如数学作业解答，而不是一步步推理得到答案。

这些数据的问题在于，它是作者在其他地方完成所有思考后才总结出来的解答，而不是真正的思维过程。所以这些解答通常信息密度很差。

一个明显的例子就是「答案是5，因为...」这样的表述，其中「5」这个数字突然包含了大量新信息。

在o1范式下，可以看到思维链与教科书中的数学解答很不相同。

这些思维链更像是「内心独白」或「意识流」。你可以看到模型在不断调整思路，说一些像「另外，让我们试试」或「等等，但是」这样的话。

虽然我没有直接测量过，但我敢打赌（我的心理语言学朋友们可能能够确认），思维链中的信息密度比互联网上的普通文本要均匀得多。

由此可见，o1的思维链更接近「人类的思维过程」，答案是通过推理得出的。

OpenAI产品副总Peter Welinder表示，「人们低估了测试时计算能力的强大：它可以持续更长时间的运算，进行并行处理，甚至能够任意地fork和branch——这就像是将你的思维复制1000份，然后从中挑选出最好的想法。」

也就意味着，在AI推理阶段，我们可以通过增加计算资源来显著提升模型表现。

OpenAI研究人员Clive Chan对此表示同感：自一月份加入OpenAI以来，我的观点已经从「这些都是无谓的炒作」转变为「AGI基本上已经到来了」。

依我拙见，接下来需要的并不是太多新的科学理论，而是需要多年辛苦的工程优化，去尝试在这个新范式下所有明显可行的想法，扩大Scaling并提升速度，同时找到方法来教会AI那些无法直接从网上学习的技能。

也许在这堵墙之后还有另一堵墙，但就目前来看，能看到的都是10倍级的进步空间。

这感觉就像，2022年Autopilot范式转变——「端到端机器学习」解决了以前难以解决的问题，但同时带来的新的挑战，即投入多年时间不断微调架构，并在全新的数据问题类型上玩「打地鼠游戏」。

OpenAI研究员Will Depue直接模仿马库斯的语气，照搬了原话颇具玩味。

或许你会说，OpenAI提出的Scaling Law，当前要坚守辩护了。那么，其他人怎么看？

别怕，OpenAI有技术实力

xAI研究员Hieu Pham用调侃的语气表示，我实在忍不住说出这几天一直萦绕在我脑海中的那个俏皮话：「技术力」问题。

那些说大模型Scaling Law已经放缓的人，就像再说摩尔定律在硬件领域已经放缓一样。从某种意义上说，虽然每个人都这么说，但总有公司能找到办法突破这些限制。

即便是面对现有的互联网数据耗尽问题，也会有公司找到解决的办法。

总而言之，OpenAI可能面临一些难题，但「技术力」绝不是问题。

抨击Information，为什么被一些人称为The [Mis]information的原因

数据科学家Yam Peleg郑重申明：深度学习没有撞墙。

另网友表示，关于AI发展正在放缓或即将终结的说法，现在已被证实是胡说八道，完全错误的！

随着OpenAI在o1和CoT（思维链）方面的突破，发展似乎看不到尽头。Q*（代号Strawberry）是带领我们迈向AGI突破性进展，这也是Sam Altman如此有信心的原因。

既然Scaling Law没死，Orion又是怎么回事？

使用成本激增，改进幅度微小，编程性能不进反退？

ChatGPT等其他AI产品的用户数，肉眼可见地增长。奥特曼最近称，ChatGPT已经成为全球第八大网站。

然而，Information称，支撑这些AI背后的基础大模型改进速度，似乎正在放缓。

在即将推出的代号为Orion的旗舰模型时，OpenAI内部遇到了巨大的挑战。

今年5月，Altman曾告诉员工，他预计下一代Orion很可能会比一年前发布的最后一个旗舰产品模型显著提升。

一位人士透露，尽管OpenAI仅完成了Orion训练过程的20%，但其在智能、完成任务、回答问题的能力方面已经与GPT-4相媲美。

但据OpenAI员工测试后发现，虽然Orion性能最终优于之前的模型，但与GPT-3和GPT-4之间的飞跃相比，性能提升要小得多。

他们认为，Orion在处理某些任务时，并不比上一代更可靠。

新模型在语言任务上会表现得更好，但在编码等任务上可能无法超越之前的模型，这是一大问题。

另外，一位知情人士表示，Orion可能比OpenAI最近发布的其他模型，在数据中心的运行成本更高。

Orion的情况可能会测试AI领域的一个核心假设，即所谓的Scaling Law：

只要有更多的数据供大模型学习，并有额外的计算能力来促进训练过程，它们就会继续以相同的速度改进。

就在昨天，科学家Yam Peleg爆料，「听说从某个前沿实验室（老实说不是OpenAI）传出消息，他们在尝试通过延长训练时间，使用越来越多数据来强行提升性能时，遇到了一个意想不到的巨大收益递减瓶颈」。

业界新方向：改进训练后的模型

为了应对GPT改进放缓，对基于训练的Scaling Law提出的挑战，业界似乎正在转向改进训练后的模型，这可能会产生不同类型的Scaling Law。

一些首席执行官，包括小扎在内，表示即使在最坏的情况下，即使当前技术没有改进，仍然有很大的空间可以在其基础上构建消费者和企业产品。

比如，OpenAI正忙于在其模型中嵌入更多代码编写功能，对抗最大劲敌Anthropic的重大威胁。

它还在开发能够控制个人电脑的软件，通过点击、移动光标、文本输入，以及其他人类在使用不同应用程序时进行的操作，来完成网页浏览或应用程序的白领任务。

这些产品，是朝着处理多步任务AI智能体发展的一个组成部分，可能会像最初推出的ChatGPT一样具有革命性。

此外，小扎、Altman，以及其他AI巨头的首席执行官们也公开表示，尚未达到传统Scaling Law的极限。

这也就不难理解，包括OpenAI在内的公司仍在开发昂贵的、耗资数十亿美元的数据中心，以尽可能多地从预训练模型中获取性能提升。

然而，OpenAI研究员Noam Brown在上个月的TEDAI会议上表示，「开发更先进的模型，可能在经济上变得不可行」。

他又表示，「毕竟，我们真的要训练那些耗资数千亿美元或数万亿美元的模型吗？在某个时候，Scaling Law会崩溃」。

在公开发布之前，OpenAI尚未完成Orion安全性测试的漫长过程。

有员工表示，当OpenAI在明年年初发布Orion时，可能会不同于其传统的「GPT」命名惯例，进一步强调了大语言模型改进的不断变化。

撞上数据墙，越训越像旧模型

GPT发展放缓，一个原因是高质量文本和其他数据供应的减少。

LLM在预训练期间会处理这些数据，以理解世界和不同概念之间的关系，从而解决诸如撰写博客文章、解决编码错误等问题。

过去几年中，LLM使用了各种公开可用的文本以及来自网站、书籍，以及其他来源的其他数据进行预训练。

众所周知，互联网数据已经耗尽。另有Epoch AI研究佐证，2026年前全网高质量数据几近用完。

一些人表示，模型的开发者已尽可能，从这类数据中榨取了更多的信息。

为此，OpenAI组建了一个基础团队，由之前负责预训练Nick Ryder领导，以探索如何应对训练数据短缺以及Scaling Law还会持续多长时间。

据一位OpenAI员工透露，Orion部分训练是通过由其他OpenAI模型（包括GPT-4和最近发布的o1推理模型）生成的AI数据进行训练的。

然而，他又表示，这种所谓的「合成数据」导致了一个新问题——即Orion最终在某些方面可能与那些旧模型相似。

OpenAI挽救策略

虽然数据暂时无解，但OpenAI的研究人员正在通过改进模型处理特定任务的方式，来提升它们在后训练过程中的表现。

具体来说，他们让模型从大量已正确解决的问题（如数学或编程问题）中学习，这一过程被称为强化学习（RL）。

他们还要求人类评估员在特定的编程或问题解决任务上，测试预训练模型并对答案进行评分，这有助于研究人员微调模型，以改进其对某些类型请求（如写作或编码）的回答。

这一过程称为人类反馈强化学习（RLHF)，也在以往AI模型性能改进方面，可以看到该方法的有效性。

为了处理这些评估，OpenAI和其他AI开发者通常依赖于，诸如Scale AI和Turing这样的初创公司来管理成千上万的合同工。

此外，o1推理模型，在给出答案前需要更多时间进行「思考」LLM训练过的数据，这一概念被称为测试时计算（Test-Time Compute）。

这意味着o1的响应质量可以继续提高，当模型在回答用户问题时，提供额外的计算资源，即使不对基础模型进行更改。

知情人士称，如果OpenAI能够继续提高基础模型的质量，即使速度较慢，也可以产生更好的推理结果。

Brown在TEDAI会议上表示，「这为Scaling打开了全新的维度，研究人员可以通过从『每次查询花费一分钱到每次查询花费十美分』来改善模型的响应」。

也就是说，不能暴力Scaling大模型，否则Scaling Law真的会崩溃。

与此同时，Altman在伦敦开发者日上，强调了OpenAI推理模型的重要性，这些模型可以与LLM结合使用。

「我希望『推理』能够解锁我们等待多年的许多事情——例如，让这样的模型能够为新科学做出贡献，帮助编写更多复杂的代码」。

在最近与YC首席执行官Garry Tan的采访中，Altman表示，「我们基本上知道该怎么去做」才能实现与人类能力相当的通用人工智能——其中一部分涉及「以创造性的方式使用当前模型」。

数学家和其他科学家表示，o1作为一个可以提供反馈、想法的伴侣，对他们的工作很有帮助。

但据两名了解情况的员工称，该模型的价格是非推理模型的6倍，因此缺少广泛的用户基础。

GPU一直在加，智能却不见涨

一些在AI领域投了数千万美元的投资者，也开始怀疑LLM的改进速度是否开始趋于平稳。

著名风投机构Andreessen Horowit联创Ben Horowitz，既是OpenAI股东，也是Mistral、Safe Superintelligence等竞争对手的直接投资者。

他在一个YouTube视频中表示，「我们正以同样的速度增加用于训练AI的GPU数量，但我们根本没有从中获得智能上的改进」。

Horowitz的同事Marc Andreessen在同一个视频中表示，有很多聪明的人正在努力突破渐近线，想办法达到更高水平的推理能力。

Databricks企业软件公司联合创始人兼主席，同时也是一个允许应用程序开发者评估不同大模型的网站的共同开发者Ion Stoica表示，大模型的性能可能在某些方面进入平台期，但在其他方面则没有。

他继续表示，虽然AI在编码和解决复杂的多步问题等任务上继续改善，但在执行一般任务的能力上，如分析文本的情感、描述疾病症状，进展似乎放缓。

对于一般知识问题，你可以说目前我们在LLM的表现上看到了一种平台期。我们需要更多的事实数据，而合成数据的帮助有限。

参考资料：

https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows?rc=epv9gi

阅读最新前沿科技研究报告，欢迎访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或点击本文左下角“阅读原文”进入。

截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告

1. 牛津大学博士论文《深度具身智能体的空间推理与规划》230页

2. 2024低空经济场景白皮书v1.0（167页）

3. 战略与国际研究中心（CSIS）人类地月空间探索的总体状况研究报告（2024）

4. 人工智能与物理学相遇的综述（86页）

5. 麦肯锡：全球难题，应对能源转型的现实问题（196页）

6. 欧米伽理论，智能科学视野下的万物理论新探索（50页报告）

7. 《美国反无人机系统未来趋势报告（2024-2029 年）》

8. Gartner 2025 年主要战略技术趋势研究报告

9. 2024人工智能国外大模型使用手册+中文大模型使用手册

10. 详解光刻巨人ASML成功之奥妙-241015（94页）

11. CB Insights：未来变革者：2025年九大科技趋势研究报告

12. 国际电信联盟2023-2024年联合国人工智能AI活动报告388页

13. 《人工智能能力的人类系统集成测试和评估》最新51页，美国防部首席数字和人工智能办公室（CDAO）

14. 2024瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

15. MHP：2024全球工业4.0晴雨表白皮书

16. 世界经济论坛白皮书《AI价值洞察：引导人工智能实现人类共同目标》

17. 瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

18. AI智能体的崛起：整合人工智能、区块链技术与量子计算(研究报告，书）

19. OpenAI o1 评估：AGI 的机遇和挑战（280页）

20. 世界知识产权组织：2024 年全球创新指数（326页）

21. 美国白宫：国家近地天体防御策略与行动计划

22. 【CMU博士论文】持续改进机器人的探索，243页

23. 中国信通院：量子计算发展态势研究报告2024年58页

24. 2024年OpenAI最新大模型o1革新进展突出表现及领域推进作用分析报告

25. 【新书】通用人工智能，144页

26. 联合国：《未来契约》、《全球数字契约》和《子孙后代问题宣言》三合一

27. 世界气候组织：2024团结在科学中，守卫地球系统的未来

28. 世界经济论坛《量子技术助力社会发展：实现可持续发展目标》研究报告

29. 人工智能科学家：迈向全自动开放式科学发现

30. 欧盟：石墨烯旗舰项目十年评估报告

31. 美国信息技术和创新基金会：美国的数字身份之路研究报告

32. 麦肯锡：2024能源转型挑战未来研究报告

33. 联合国贸易与发展会议：2024世界投资报告

34. 兰德：评估人工智能对国家安全和公共安全的影响

35. 兰德：2024评估人工智能基础模型市场的自然垄断条件

36. 经合组织：2015-2022 年生物多样性与发展融资

37. ITIF：中国半导体创新能力研究报告

38. 英国皇家学会：数学未来计划，数学和数据教育的新方法研究报告

39. 欧盟：10年人类大脑计划创新评估报告

40. GLG格理集团：2024深度解读半导体行业关键趋势和专家洞见报告15页

41. 华为智能世界2030报告2024版741页

42. 联合国：2024为人类治理人工智能最终报告

43. 达信Marsh：2024全球科技产业风险研究报告英文版27页

44. 鼎帷咨询：2024英伟达人工智能发展战略研究报告149页

45. 【博士论文】大语言模型的测试与评价：准确性、无害性和公平性，223页pdf

46. 麦肯锡：2024世界能源产业展望

47. 世界经济论坛《太空：全球经济增长的 1.8 万亿美元机遇》

48. 世界经济论坛：世界“技术先锋”名单100家公司名单

49. 世界经济论坛：2024绘制地球观测的未来：气候情报技术创新

50. 核聚变技术作为清洁能源供应替代来源的全球发展和准备情况

51. 大模型生成的idea新颖性与人类对比研究报告（94页）

52. IQM ：2024 年量子状况报告

53. 2024十大新兴技术研究报告

54. 2024地球观测 (EO) 洞察带来的全球价值（58页）

55. 2023-2024世界基础设施监测报告

56. 世界银行：2024世界发展报告，中等收入陷阱

57. 2024国际前沿人工智能安全科学报告132页

58. 斯坦福大学2024人工智能指数报告

59. 美国总统科学技术顾问委员会：《利用人工智能应对全球挑战》63页报告

60. 柳叶刀行星健康：2024地球系统安全与健康评估报告

61. 中国未来50年产业发展趋势白皮书III

62. OpenAI o1系列产品原理与安全最新研究报告（80页）

63. 国家互联网信息办公室：国家信息化发展报告2023年110页

64. 埃森哲：2024年风险研究报告-重大颠覆需要持续重塑英文版39页

65. 36氪研究院：2024年中国城市低空经济发展指数报告41页

66. 美国信息技术与创新基金会：《中国在量子领域的创新能力如何》研究报告

67. 理解深度学习500页报告

68. 鼎帷咨询：2024全球人工智能发展研究报告44页

69. 【伯克利博士论文】大型语言模型迈向能够学习和发现一切的机器

70. 《量子技术：前景、危险和可能性》45页报告

71. 英国皇家学会报告：人工智能在科学、技术、工程和数学领域的应用

72. 未来今日研究所：2024世界技趋势报告（980页）

73. 面向大规模脉冲神经网络：全面综述与未来方向

74. 大模型+知识库市场全景报告

75. 《太空力量的理论基础：从经济学到不对称战争》2024最新94页报告

76. CBInsights：2024年第二季度全球企业风险投资状况报告英文版124页

77. 英国科学院：数据管理和使用：21 世纪的治理（2024），99页

78. 兰德智库：展望2045 一项前瞻性研究探讨未来 20 年全球趋势的影响

79. 世界知识产权组织：2024年世界知识产权报告：让创新政策促进发展

80. 全球灾难风险研究所：评估大型语言模型接管灾难的风险

81. 牛津马丁学院：人工智能风险国际科学评估的未来

82. 联合国贸易和发展署：2024世界投资报告

83. 兰德公司：人工智能军事应用的新风险和机遇

84. 英国皇家学会：AI时代的科学发展趋势研究报告

85. 百页风电行业研究方法论：从中国到世界从陆地到海洋-240902，98页

86. 中国信通院发布《大模型落地路线图研究报告（2024年）》

87. 星河智源：2024年无人驾驶技术全景报告35页

88. 星河智源：2024年光刻机技术全景报告37页

89. 人形机器人行业研究方法论：特斯拉领衔人形机器人的从1到N

90. 兰德：展望2045一项关于未来20年全球趋势影响的前瞻性研究报告英文版45页

91. 《军事创新与气候挑战》2024最新152页报告

92. 麦肯锡：2024困难点：驾驭能源转型的物理现实（196页）

93. 《麻省理工科技评论》万字长文：什么是人工智能？

94. 软件与服务行业：从特斯拉智能驾驶看人形机器人发展路径

95. 中国信通院：中国数字经济发展研究报告2024年82页

96. CB Insights：2024年第二季度全球风险投资状况报告 244页

97. 脑启发的人工智能：全面综述

98. 二十年关键技术跟踪报告

99. 中国首部城市大脑系列建设标准（8项）汇编

100. 麦肯锡2024技术趋势展望报告100页

人工智能学家

致力成为权威的人工智能科技媒体和前沿科技研究机构