首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Scaling Law撞墙，AI圈炸锅了！OpenAI旗舰Orion被曝遭遇瓶颈，大改技术路线

文摘 2024-11-11 19:10 山西

怎么回事，大模型Scaling Law也撞墙了？

几天前，Sam Altman在YC独家专访中大胆预言，2025年AGI降临，并期待在同年要一个孩子。

没想到，The Information紧接着的一份独家爆料，直接打脸Altman：

GPT系列模型改进缓慢，OpenAI正在转变策略，另谋出路。

据称，下一代旗舰模型Orion并不像前代实现巨大的飞跃，虽然性能会超越OpenAI现有模型，但相较于从GPT-3到GPT-4的迭代，改进幅度要小得多。

不仅如此，这种提升也基本局限在了语言能力上——Orion的代码能力甚至不如旧模型，但成本却更高。

这篇文章直击OpenAI痛点，提出Scaling Law逐渐放缓，原因之一是高质量文本数据越来越少。

为此，OpenAI成立专门的基础团队，去研究如何解决训练数据匮乏问题改进模型，以及Scaling Law还能适用多久。

一时间，全网掀起了热议——对LLM能否通向AGI的质疑声此起彼伏。

向来都在唱衰的NYU教授马库斯，更是直接单方面宣布「胜利」：游戏结束，我赢了！

马库斯：我早就说过，GPT正在陷入收益递减阶段

为了扭转这一局面，多位OpenAI研究人员当场急了，纷纷现身为一直以来坚守的LLM定律辩护。

德扑之父Noam Brown直接追问网友原因，对方回复称，「都已经过去一年半了，Scaling并没有给大模型带去显著的改善」。

Noam反问道，「o1-preview呢」？

俄勒冈州立大学名誉教授表示，「o1-preview是否是一个Scaling的实例？如果是，具体是什么在Scaling？在过去，『Scaling』指的是同时扩大数据规模、神经网络参数和计算资源」。

Noam称，「它是推理计算的Scaling」。

就这样，AI圈一场关于大模型Scaling Law的辩论就此展开了。

OpenAI大牛下场激辩，Sacling Law没撞墙

在说Scaling Law之前，先简要回顾下它具体指的是什么？

OpenAI团队2020年提交的arXiv论文中最先提出这一概念，是指LLM性能与计算量、参数量、数据量三者呈现幂律关系。

论文地址：https://arxiv.org/pdf/2001.08361

直白讲，也就是业界一直宣称的，随着大模型参数不断增加，超级智能终有一天实现。

而o1的诞生，标志着Scaling Law的另一个转向。

OpenAI研究员Adam称，Scaling刚刚找到了另一套「齿轮」！

o1系列模型scaling的两个重要维度——训练时间和测试（推理）时间。

传统的Scaling Law，专注于用更长时间（预）训练更大的模型，绝对仍然是一个重要因素。而且，这种规模仍是基础。

现在恰好出现了另一个Scaling因素，这两个维度有望一起解锁一些惊人的能力。

那么这个维度，是什么？

o1发布之际，Noam Brown对其推理思维做出了解释：

用强化学习训练后的o1在给出回答前，会通过一个私有的CoT进行「思考」。模型思考时间越长，在推理任务上表现的越好。

这种方法开创了模型scaling的新维度，模型性能不再仅仅受限于预训练阶段，现在可以通过增加推理计算资源来提升模型表现。

与此同时，Jason Wei昨天发长文更生动地解释了，o1思维链前后存在着细微但重要的差异。

在o1范式之前，思维链的实际表现和人类期望它达到的效果之间存在差距。它更像是先有了答案，再去对答案进行解释，列出步骤。

实际上，模型只是模仿了它在预训练中见过的推理路径，比如数学作业解答，而不是一步步推理得到答案。

这些数据的问题在于，它是作者在其他地方完成所有思考后才总结出来的解答，而不是真正的思维过程。所以这些解答通常信息密度很差。

一个明显的例子就是「答案是5，因为...」这样的表述，其中「5」这个数字突然包含了大量新信息。

在o1范式下，可以看到思维链与教科书中的数学解答很不相同。

这些思维链更像是「内心独白」或「意识流」。你可以看到模型在不断调整思路，说一些像「另外，让我们试试」或「等等，但是」这样的话。

虽然我没有直接测量过，但我敢打赌（我的心理语言学朋友们可能能够确认），思维链中的信息密度比互联网上的普通文本要均匀得多。

由此可见，o1的思维链更接近「人类的思维过程」，答案是通过推理得出的。

OpenAI产品副总Peter Welinder表示，「人们低估了测试时计算能力的强大：它可以持续更长时间的运算，进行并行处理，甚至能够任意地fork和branch——这就像是将你的思维复制1000份，然后从中挑选出最好的想法。」

也就意味着，在AI推理阶段，我们可以通过增加计算资源来显著提升模型表现。

OpenAI研究人员Clive Chan对此表示同感：自一月份加入OpenAI以来，我的观点已经从「这些都是无谓的炒作」转变为「AGI基本上已经到来了」。

依我拙见，接下来需要的并不是太多新的科学理论，而是需要多年辛苦的工程优化，去尝试在这个新范式下所有明显可行的想法，扩大Scaling并提升速度，同时找到方法来教会AI那些无法直接从网上学习的技能。

也许在这堵墙之后还有另一堵墙，但就目前来看，能看到的都是10倍级的进步空间。

这感觉就像，2022年Autopilot范式转变——「端到端机器学习」解决了以前难以解决的问题，但同时带来的新的挑战，即投入多年时间不断微调架构，并在全新的数据问题类型上玩「打地鼠游戏」。

OpenAI研究员Will Depue直接模仿马库斯的语气，照搬了原话颇具玩味。

或许你会说，OpenAI提出的Scaling Law，当前要坚守辩护了。那么，其他人怎么看？

别怕，OpenAI有技术实力

xAI研究员Hieu Pham用调侃的语气表示，我实在忍不住说出这几天一直萦绕在我脑海中的那个俏皮话：「技术力」问题。

那些说大模型Scaling Law已经放缓的人，就像再说摩尔定律在硬件领域已经放缓一样。从某种意义上说，虽然每个人都这么说，但总有公司能找到办法突破这些限制。

即便是面对现有的互联网数据耗尽问题，也会有公司找到解决的办法。

总而言之，OpenAI可能面临一些难题，但「技术力」绝不是问题。

抨击Information，为什么被一些人称为The [Mis]information的原因

数据科学家Yam Peleg郑重申明：深度学习没有撞墙。

另网友表示，关于AI发展正在放缓或即将终结的说法，现在已被证实是胡说八道，完全错误的！

随着OpenAI在o1和CoT（思维链）方面的突破，发展似乎看不到尽头。Q*（代号Strawberry）是带领我们迈向AGI突破性进展，这也是Sam Altman如此有信心的原因。

既然Scaling Law没死，Orion又是怎么回事？

使用成本激增，改进幅度微小，编程性能不进反退？

ChatGPT等其他AI产品的用户数，肉眼可见地增长。奥特曼最近称，ChatGPT已经成为全球第八大网站。

然而，Information称，支撑这些AI背后的基础大模型改进速度，似乎正在放缓。

在即将推出的代号为Orion的旗舰模型时，OpenAI内部遇到了巨大的挑战。

今年5月，Altman曾告诉员工，他预计下一代Orion很可能会比一年前发布的最后一个旗舰产品模型显著提升。

一位人士透露，尽管OpenAI仅完成了Orion训练过程的20%，但其在智能、完成任务、回答问题的能力方面已经与GPT-4相媲美。

但据OpenAI员工测试后发现，虽然Orion性能最终优于之前的模型，但与GPT-3和GPT-4之间的飞跃相比，性能提升要小得多。

他们认为，Orion在处理某些任务时，并不比上一代更可靠。

新模型在语言任务上会表现得更好，但在编码等任务上可能无法超越之前的模型，这是一大问题。

另外，一位知情人士表示，Orion可能比OpenAI最近发布的其他模型，在数据中心的运行成本更高。

Orion的情况可能会测试AI领域的一个核心假设，即所谓的Scaling Law：

只要有更多的数据供大模型学习，并有额外的计算能力来促进训练过程，它们就会继续以相同的速度改进。

就在昨天，科学家Yam Peleg爆料，「听说从某个前沿实验室（老实说不是OpenAI）传出消息，他们在尝试通过延长训练时间，使用越来越多数据来强行提升性能时，遇到了一个意想不到的巨大收益递减瓶颈」。

业界新方向：改进训练后的模型

为了应对GPT改进放缓，对基于训练的Scaling Law提出的挑战，业界似乎正在转向改进训练后的模型，这可能会产生不同类型的Scaling Law。

一些首席执行官，包括小扎在内，表示即使在最坏的情况下，即使当前技术没有改进，仍然有很大的空间可以在其基础上构建消费者和企业产品。

比如，OpenAI正忙于在其模型中嵌入更多代码编写功能，对抗最大劲敌Anthropic的重大威胁。

它还在开发能够控制个人电脑的软件，通过点击、移动光标、文本输入，以及其他人类在使用不同应用程序时进行的操作，来完成网页浏览或应用程序的白领任务。

这些产品，是朝着处理多步任务AI智能体发展的一个组成部分，可能会像最初推出的ChatGPT一样具有革命性。

此外，小扎、Altman，以及其他AI巨头的首席执行官们也公开表示，尚未达到传统Scaling Law的极限。

这也就不难理解，包括OpenAI在内的公司仍在开发昂贵的、耗资数十亿美元的数据中心，以尽可能多地从预训练模型中获取性能提升。

然而，OpenAI研究员Noam Brown在上个月的TEDAI会议上表示，「开发更先进的模型，可能在经济上变得不可行」。

他又表示，「毕竟，我们真的要训练那些耗资数千亿美元或数万亿美元的模型吗？在某个时候，Scaling Law会崩溃」。

在公开发布之前，OpenAI尚未完成Orion安全性测试的漫长过程。

有员工表示，当OpenAI在明年年初发布Orion时，可能会不同于其传统的「GPT」命名惯例，进一步强调了大语言模型改进的不断变化。

撞上数据墙，越训越像旧模型

GPT发展放缓，一个原因是高质量文本和其他数据供应的减少。

LLM在预训练期间会处理这些数据，以理解世界和不同概念之间的关系，从而解决诸如撰写博客文章、解决编码错误等问题。

过去几年中，LLM使用了各种公开可用的文本以及来自网站、书籍，以及其他来源的其他数据进行预训练。

众所周知，互联网数据已经耗尽。另有Epoch AI研究佐证，2026年前全网高质量数据几近用完。

一些人表示，模型的开发者已尽可能，从这类数据中榨取了更多的信息。

为此，OpenAI组建了一个基础团队，由之前负责预训练Nick Ryder领导，以探索如何应对训练数据短缺以及Scaling Law还会持续多长时间。

据一位OpenAI员工透露，Orion部分训练是通过由其他OpenAI模型（包括GPT-4和最近发布的o1推理模型）生成的AI数据进行训练的。

然而，他又表示，这种所谓的「合成数据」导致了一个新问题——即Orion最终在某些方面可能与那些旧模型相似。

OpenAI挽救策略

虽然数据暂时无解，但OpenAI的研究人员正在通过改进模型处理特定任务的方式，来提升它们在后训练过程中的表现。

具体来说，他们让模型从大量已正确解决的问题（如数学或编程问题）中学习，这一过程被称为强化学习（RL）。

他们还要求人类评估员在特定的编程或问题解决任务上，测试预训练模型并对答案进行评分，这有助于研究人员微调模型，以改进其对某些类型请求（如写作或编码）的回答。

这一过程称为人类反馈强化学习（RLHF)，也在以往AI模型性能改进方面，可以看到该方法的有效性。

为了处理这些评估，OpenAI和其他AI开发者通常依赖于，诸如Scale AI和Turing这样的初创公司来管理成千上万的合同工。

此外，o1推理模型，在给出答案前需要更多时间进行「思考」LLM训练过的数据，这一概念被称为测试时计算（Test-Time Compute）。

这意味着o1的响应质量可以继续提高，当模型在回答用户问题时，提供额外的计算资源，即使不对基础模型进行更改。

知情人士称，如果OpenAI能够继续提高基础模型的质量，即使速度较慢，也可以产生更好的推理结果。

Brown在TEDAI会议上表示，「这为Scaling打开了全新的维度，研究人员可以通过从『每次查询花费一分钱到每次查询花费十美分』来改善模型的响应」。

也就是说，不能暴力Scaling大模型，否则Scaling Law真的会崩溃。

与此同时，Altman在伦敦开发者日上，强调了OpenAI推理模型的重要性，这些模型可以与LLM结合使用。

「我希望『推理』能够解锁我们等待多年的许多事情——例如，让这样的模型能够为新科学做出贡献，帮助编写更多复杂的代码」。

在最近与YC首席执行官Garry Tan的采访中，Altman表示，「我们基本上知道该怎么去做」才能实现与人类能力相当的通用人工智能——其中一部分涉及「以创造性的方式使用当前模型」。

数学家和其他科学家表示，o1作为一个可以提供反馈、想法的伴侣，对他们的工作很有帮助。

但据两名了解情况的员工称，该模型的价格是非推理模型的6倍，因此缺少广泛的用户基础。

GPU一直在加，智能却不见涨

一些在AI领域投了数千万美元的投资者，也开始怀疑LLM的改进速度是否开始趋于平稳。

著名风投机构Andreessen Horowit联创Ben Horowitz，既是OpenAI股东，也是Mistral、Safe Superintelligence等竞争对手的直接投资者。

他在一个YouTube视频中表示，「我们正以同样的速度增加用于训练AI的GPU数量，但我们根本没有从中获得智能上的改进」。

Horowitz的同事Marc Andreessen在同一个视频中表示，有很多聪明的人正在努力突破渐近线，想办法达到更高水平的推理能力。

Databricks企业软件公司联合创始人兼主席，同时也是一个允许应用程序开发者评估不同大模型的网站的共同开发者Ion Stoica表示，大模型的性能可能在某些方面进入平台期，但在其他方面则没有。

他继续表示，虽然AI在编码和解决复杂的多步问题等任务上继续改善，但在执行一般任务的能力上，如分析文本的情感、描述疾病症状，进展似乎放缓。

对于一般知识问题，你可以说目前我们在LLM的表现上看到了一种平台期。我们需要更多的事实数据，而合成数据的帮助有限。

参考资料：

https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows?rc=epv9gi

想要了解更多资讯，请扫描下方二维码，关注机器学习研究会

转自：新智元

http://mp.weixin.qq.com/s?__biz=MzU1NTUxNTM0Mg==&mid=2247575897&idx=1&sn=de9618470d3a92d2827636dcd799257c

机器学习研究组订阅

机器学习研究会由百度七剑客雷鸣先生创办，旨在推动AI的技术发展和产业落地。参与组织北大、清华”AI前沿与产业趋势“公开课，广泛的和高校、企业、创业、VC开展合作，自身也参与优秀AI项目的投资和孵化。

最新文章

OpenAI「23个黑手党」出走创业，融资近百亿！华人科学家约占1/3

10种数据预处理中的数据泄露模式解析:识别与避免策略

「谍战」开启！基建狂魔马斯克122天交付10万卡超算，对手大恐慌派间谍飞机侦查

14天速成LLM高手！大佬开源学习笔记，GitHub狂揽700星

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%

Github上的十大RAG(信息检索增强生成)框架

斯坦福伯克利重磅发现DNA Scaling Law，Evo荣登Science封面！AI设计DNA/RNA/蛋白质再突破

ChatGPT深夜两弹更新！macOS版联动三款IDE无缝编程，Windows版全量上线

RAPTOR：多模型融合+层次结构 = 检索性能提升20%，结果还更稳健

国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

LLM4Rec最新重磅工作：字节跳动序列推荐分层大模型HLLM

OpenAI总裁出走3月终于归来！Greg结束「最长假期」专注重大技术挑战，每周狂肝100小时代码

Transformer打破三十年数学猜想！Meta研究者用AI给出反例，算法杀手攻克数学难题

FoundTS：首个覆盖多场景的时序预测基础模型评测基准

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

扩散模型失宠？端侧非自回归图像生成基础模型Meissonic登场，超越SDXL！

Scaling Law撞墙，AI圈炸锅了！OpenAI旗舰Orion被曝遭遇瓶颈，大改技术路线

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

奥特曼专访自曝OpenAI掌握AGI密钥，2025年降临！1人1万块GPU缔造十亿独角兽

哈佛推出全新类ChatGPT癌症诊断AI，登上Nature！准确率高达96%

基于图论的时间序列数据平稳性与连通性分析：利用图形、数学和 Python 揭示时间序列数据中的隐藏模式

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

川普赢了，AI圈炸了！英伟达市值突破3.6万亿， OpenAI研究员：他或将见证AGI诞生

失业小哥在父母卧室做AI应用，日入2万刀！晒账单爆火全网，AI初创价值3500万

特朗普回归，美国AI解禁！马斯克变身全球首富，硅谷科技圈颠覆在即

软体机器人领域顶尖学者齐聚清华！第九届软体机器人大会将于11月15—17日在清华举行

从今天起，ChatGPT入口就是chat.com！

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer，火爆国外

英伟达3.4万亿市值稳坐全球第一！苹果12年霸主地位终结

图结构赋能语言模型：华为诺亚MILA联合提出基于图的可控数据合成提升大语言模型长逻辑链推理能力

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

AI圈卷疯了！xAI、Anthropic同日上线API：Grok免费公测，Claude 3.5 Haiku价格暴涨

AGENTiGraph：一个交互式知识图谱平台驱动的基于私有数据多智能体系统 - 东京&耶鲁大学等最新研究

UCLA、MIT数学家推翻39年经典数学猜想！AI证明卡在99.99%，人类最终证伪

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

【NeurIPS2024】用于时间序列预测的检索增强扩散模型

世界首个1000亿AI智能体文明诞生！北大校友打造真实版「西部世界」，技术细节全公开

o1图像理解神秘现身，网友疯狂测试！Altman自曝：o2研究生级水平破105%

斯坦福&哈佛医学院 - MMedAgent，一个用于医疗领域的多模态医疗AI智能体

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

全球首款AI游戏诞生！无需游戏引擎，视频模型直出「我的世界」

时序异常检测新进展！华为诺亚方舟实验室&华东师大提出首个时序异常检测通用模型

吞吐量最高飙升20倍！豆包大模型团队开源RLHF框架，破解强化学习训练部署难题

打破RLHF瓶颈，克服奖励欺骗！Meta发布全新后训练方式CGPO，编程水平直升5%

KDD 2024 | 数据驱动的分布偏移检测与自适应

苹果地表最强AI PC诞生，M4 Max猛兽加持性能暴涨！顶配6万，续航飙至24小时

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉