天塌了，Scaling Law 已撞收益递减墙？OpenAI 在内，所有大模型都正遭遇巨大瓶颈

科技 2024-11-11 12:43 北京

整理 | 华卫、核子可乐

近日，有外媒报道称，OpenAI 正在制定新策略，以应对人工智能大模型改进速度放缓的问题。消息一出，知名认知科学家、AI 研究员 Gary Marcus 立即表示，“正如我所说，GPT 正在进入收益递减的时期。”而近期，遭遇发展瓶颈的大模型似乎并不只有 GPT，所遇到的问题也远不仅于一个。

OpenAI 在内，都撞到了同一堵墙

根据 The Information 的最新报道，OpenAI 的下一个旗舰模型可能不会像其“前辈”那样带来巨大的飞跃。测试代号为 Orion 的新模型的 OpenAI 员工发现，尽管它的性能超过了 OpenAI 的现有模型，并且只完成了 20% 的训练就达到了 GPT-4 的水平，但与从 GPT-3 到 GPT-4 的巨大飞跃相比，整体质量的提升要小得多。

换句话说，GPT 的升级速度似乎正在放缓。事实上，Orion 在某些领域（如编码）可能并不会比以前的模型更好。对于此前有关其旗舰车型计划的消息时，OpenAI 方面表示：“我们今年没有发布 Orion 模型的计划。

报道提到，GPT 开发速度放缓的部分原因是用于预训练的文本和数据供应减少（预训练有助于 LLM 理解概念之间的关系，从而解决起草内容或调试代码等任务）。根据 OpenAI 员工和研究人员的说法，该公司现在难以获得高质量的培训数据，开发人员已经耗尽了网站、书籍和其他用于预培训的公开文本。

为了解决这些问题，OpenAI 成立了一个基础团队，以研究如何在新训练数据不断减少的情况下继续改进其模型的新策略。据介绍，新策略包括在利用人工智能模型生成的合成数据训练模型，以及在后期训练过程中对具有有限新数据的模型进行更多改进。

这种减速或表明，由于数据稀缺和硬件成本飙升等因素，对大模型来说，传统的扩展改进可能已经达到极限。“传统 scaling laws 下的 LLM 进展可能会放缓”，有研究人员和企业家担心，生成式 AI 已经遇到了障碍，即使如 OpenAI 般急于扩大该技术使用规模的公司，也发现这在实践中很棘手。

类似的困境不止出现在 OpenAI，还有其他前沿实验室在这方面遇到更严重的问题。据数据科学家 Yam Peleg 曝料，从某个前沿实验室传出消息，他们试图通过更长时间的训练和使用越来越多的数据来强行获得更好的结果，结果却意外地达到了一个巨大的收益递减墙（比公开发布的更严重）。

“因此，我认为可以肯定的是，所有主要参与者都已经达到了训练时间更长、收集数据更多的极限...... 现在的关键是数据质量，而这需要时间。”Peleg 表示。而这样的说法正在被不少人认同，有网友表示，“所有的实验室似乎都撞到了这样的墙。”

总而言之，目前可能需要新的方法来推动 AI 技术超越其当前的极限。

“LLM 只会照本宣科”，

一生变就崩溃？

“我们的数据用完了。合成数据始终意味着提炼现有模型，而不是向人类学习。”一位网友在听到消息后这样说道。

另一位网友则表示，“未来应该是 LLM 与推理模型相结合，推理能力越强，效果越好。天不会塌下来。”

然而，最近麻省理工学院的一项研究却引发了许多人对于大模型本身理解和学习能力的诸多质疑，甚至有网友锐评道，“LLM 只会照本宣科，而不能像人类甚至其他动物那样将所学到的知识应用于新事物。”

研究人员发现，尽管生成式 AI 的输出令人印象深刻，但其对世界并没有连贯的理解。也就是说，一旦任务或者环境稍有变化，之前表现良好的模型可能会瞬间崩溃。

研究人员重点研究的是 transformer 模型，一类在随机生成的序列数据之上训练而成，另一类则由遵循策略生成的数据训练而成。并将评估示例放在确定性有限自动化（DFA）的问题上，分别是在纽约市的街道上导航以及玩棋盘游戏。

在导航的应用例中，虽然模型能够近乎完美地为用户提供纽约市的导航路线，但当研究人员封闭部分街道再添加绕行路线之后，其性能则会显著下降。哈佛大学博士后 Keyon Vafa 表示，“令人惊讶的是，只要添加一条绕行路线，模型性能就会迅速下降。哪怕我们只封闭掉 1% 的街道，准确率就会立即从接近 100% 下降到 67%。”

但两类 transformer 模型都没能在导航示例中形成连贯的世界模型，并且研究人员在还原模型生成的城市地图时发现，该地图往往包含随机方向的天桥或者大量现实中并不存在的街道。

而在棋盘游戏的示例中，他们发现 transformer 无需了解任何规则，就几乎能够准确预测游戏中的有效棋路。Vafa 解释道，“棋盘游戏中，如果你看到的是两台随机计算机在下棋，而不是冠军棋手在下棋，理论上你会看到所有可能的棋步，甚至是冠军棋手不会走的坏棋。”

令人惊讶的是，研究人员发现随机做出选择的 transformers 反而形成了更准确的世界模型，这可能是因为它们在训练期间接触过更多潜在的下一步棋路。不过，尽管 transformers 几乎在所有情况下都能生成准确的方向和有效的棋路，只有后一类模型能够生成连贯的世界模型。

研究人员强调，“看到这些模型那令人印象深刻的表现，我们往往认为它们一定是对现实世界有所了解。但我想提醒大家的是，这个问题不可轻下结论，更不能单凭直觉就言之凿凿。”

结语

对于目前大模型发展中显现的这些瓶颈，有网友提出了一些有趣的想法。

一位网友建议，“我想知道是否有可能将 LLM 与 Cyc（一个逻辑引擎和生活常识规则数据库）连接起来。该引擎可以找到语言模型（文本）和 Cyc 模型之间的最佳匹配，并对较短的候选模型（最小的逻辑图）进行加权。从语言模型生成候选 Cyc 模型可能首先需要大量的训练。”

还有一位网友表示，“现在需要人形机器人来改进 scaling law。如果没有机器人在现实世界中亲身经历的纯数据，GPT 就不可能得到改进。”

参考链接：

https://techcrunch.com/2024/11/09/openai-reportedly-developing-new-strategies-to-deal-with-ai-improvement-slowdown/

https://x.com/amir/status/1855367075491107039

https://www.eecs.mit.edu/despite-its-impressive-output-generative-ai-doesnt-have-a-coherent-understanding-of-the-world/

https://slashdot.org/story/24/11/10/1911204/generative-ai-doesnt-have-a-coherent-understanding-of-the-world-mit-researchers-find

会议推荐

就在 12 月 13 日 -14 日，AICon 将汇聚 70+ 位 AI 及技术领域的专家，深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外，还有丰富的圆桌论坛、以及展区活动，满足你对大模型实践的好奇与想象。现在正值 8 折倒计时，名额有限，快扫码咨询了解详情，别错过这次绝佳的学习与交流机会！

今日荐文

AI周报 | 字节弱化等级：不提倡称哥姐、隐掉职级性别；雷军或推小米驾校，1999元包训漂移？携程CEO：缩短工作时间或提高生育

6 年 OpenAI 高管揭秘：我为什么离开 OpenAI 及这个公司现在怎样了？

谷歌版贾维斯意外泄露！自主上网购物填表不在话下，“钢铁侠 ”成真指日可待？

Netflix 弃用人类游戏开发转向 AI，游戏大厂不敢跟风！Netflix 高管：这是“千载难逢”的机遇

Meta元宇宙梦碎：5年烧光465亿美元，硬件高管跳槽，资本圈集体唱衰

你也「在看」吗？👇

http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247626994&idx=1&sn=60527ffc8e6c5f25fbcedbe2d9859442

AI前线

面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

最新文章

仅4个多月RAG就进化到“一个新时代”了：成本降低到GraphRAG的0.1%

两位清华大牛联手带出的明星企业，摘得Robotaxi第一股，市值超360亿！

科技巨头重磅发力的 AI Agent，给了谁新出路？| 直播预约

泄露的 Sora 效果炸裂，还一次成型！OpenAI 白嫖丑闻闹大了，吃瓜网友看到了进化版模型

大模型让我们成了“提词狂魔”，未来开发者核心竞争力在哪里？

全员停发工资、高管跑路：被小米看上的智驾明星 IPO 三度败北，前员工吐槽“越做越赔钱”

Anthropic 工程师关于提示词工程的深入探讨

AI 杀死了程序员培训班：花 1.3 万美元学编程，却连面试机会都没有？

AI产品如何找到破局之道？秘塔 COO、B 站“王一快”在 AICon 带来答案！

孙宇晨花 624 万美元拍下一根香蕉；黄仁勋荣获港科大荣誉博士；70 多辆小米 SU7 自动泊车撞墙、撞柱 |AI周报

谷歌 AlphaChip 论文再被质疑，DeepMind 驳斥都没做预训练，顺带还揪出了“内鬼”？

强制销毁员工聊天记录！谷歌15年打造“隐瞒文化”：不要保留任何可能让我们难堪的东西！

Pokémon Go 公司构建大型地理空间模型，玩家不知不觉贡献了训练数据

ChatGPT 干掉了一家上市公司！千亿市值归零、10 多年 CEO 被迫离职，付费用户直呼上当

Mooncake 分离式推理架构创新与实践

营收翻倍、Blackwell芯片爆单，黄仁勋否认 Scaling Law 失效，但英伟达财报后股价还是跌了

“为什么说大模型可能是软件开发的死胡同？”

最大的 AI Agent 生态系统来了！微软推出适配 1800 种大模型的智能体，迈入自己的 Agent 时代

微软和清华大学为 LLM 提出了 DIFF Transformer 架构

粉丝福利 | 11 月 23 日，来一场边玩边赚钱的Party！

独家｜腾讯杰出科学家、混元大模型技术负责人之一刘威离职

Scaling Law，撞墙了吗？| 直播预告

全球超万亿使用量的热门数据库，首次被大模型揪出了严重漏洞

英伟达 Blackwell 芯片又又又曝问题！老黄大半年没搞定，微软们被迫换货、换方案

网易CodeWave：当低代码+AIGC 进入深水区，我们如何继续发展？

AI周报 | 月之暗面杨植麟回应近期争议；马斯克或遭调查，理由是“通俄”；小米汽车校招待遇曝光，一年可达 18 薪

通义灵码 SWE-GPT：从静态代码建模迈向软件开发过程长链推理

马斯克“当官”，硅谷大佬抢破头进 DOGE：零报酬、每周工作 80 个小时，录取率不到 1%

钉钉公布商业化核心进展：上半财年ARR远超2亿美元，6大新AI助理现已免费开放

Anthropic创始人访谈：不是因为Altman 与微软合作而离开OpenAI、Scaling Law不会撞墙、未来招聘将放缓

我们为什么不遗余力地举办 AICon？

助推“超级有用”的应用爆发，百度把开发门槛打下去了

续航超 4 小时、算力 550T，这款国产自研人形机器人让家务更轻松

AI 商业化落地难？百度“杀”出新增长

Mojo 作者 Chris Lattner：Mojo 不仅仅是一种 AI 语言

挨骂 6 个月后，DeepMind 急了：诺奖模型 AlphaFold 3 代码全网免费送，Nature 也发文力荐！

应用突破还是炫技噱头：大模型能否真正驱动行业升级？

天塌了，Scaling Law 已撞收益递减墙？OpenAI 在内，所有大模型都正遭遇巨大瓶颈

过去一年我开发 AI 视频编辑器的收获

一句话改图！字节豆包通用图像编辑模型 SeedEdit 上线测试

AI周报 | 字节弱化等级：不提倡称哥姐、隐掉职级性别；雷军或推小米驾校，1999元包训漂移？携程CEO：缩短工作时间或提高生育

著名 AI 学者、天工智能首席科学家颜水成离开昆仑万维，去年 9 月入职

微软将斥巨资 700 多亿元，从 AI 初创公司 CoreWeave 租用服务器

6 年 OpenAI 高管揭秘：我为什么离开 OpenAI 及这个公司现在怎样了？

腾讯混元康战辉：将开源大模型训练代码，但数据开源意义不大

谷歌版贾维斯意外泄露！自主上网购物填表不在话下，“钢铁侠 ”成真指日可待？

122 天打造的奇迹：深入探访 xAI 的 10 万块 GPU 超级 AI 计算机集群

Netflix 弃用人类游戏开发转向 AI，游戏大厂不敢跟风！Netflix 高管：这是“千载难逢”的机遇

用 AI 赋能会议耳机，未来智能要做打工人的嘴替脑替

甲骨文吴承杨：生成式 AI 难以落地，缺少以 AI 为中心的应用开发架构是关键

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉