别慌，Scaling Laws 的末日还早！“革新版”迅速出现，多位大牛都在叫好

科技 2024-11-16 10:16 辽宁

整理 | 华卫、核子可乐

近日，有外媒报道称，OpenAI 正在制定新策略，以应对人工智能大模型改进速度放缓的问题。当时消息一出，知名认知科学家、AI 研究员 Gary Marcus 立即表示，“正如我所说，GPT 正在进入收益递减的时期。”

而近期，遭遇发展瓶颈的大模型似乎并不只有 GPT，所遇到的问题也远不仅于一个。彭博社在最新文章中这样写道：“（OpenAI、谷歌、Anthropic）三家 AI 公司为开发新模型付出了巨额努力，但回报越来越少。

看到这一论断后，OpenAI 负责模型微调的研究员 Steven Heidel 公开表示，“即使大模型的进展完全停止（需要明确的是，这并没有发生），仍然有至少十年的产品可以在今天的模型上建立。”

言下之意大概是，大模型在未来几年仍“大有前途”。与此同时，AI 圈也在几波的消息冲击下，迎来了多项立于新视角的重大成果。

OpenAI 在内，

都撞到了同一堵墙

事情的最开始，是 The Information 突然曝料，OpenAI 的下一个旗舰模型可能不会像其“前辈”那样带来巨大的飞跃。测试代号为 Orion 的新模型的 OpenAI 员工发现，尽管它的性能超过了 OpenAI 的现有模型，并且只完成了 20% 的训练就达到了 GPT-4 的水平，但与从 GPT-3 到 GPT-4 的巨大飞跃相比，整体质量的提升要小得多。

换句话说，GPT 的升级速度似乎正在放缓。事实上，Orion 在某些领域（如编码）可能并不会比以前的模型更好。对于此前有关其旗舰车型计划的消息时，OpenAI 方面表示：“我们今年没有发布 Orion 模型的计划。

报道提到，GPT 开发速度放缓的部分原因是用于预训练的文本和数据供应减少（预训练有助于 LLM 理解概念之间的关系，从而解决起草内容或调试代码等任务）。根据 OpenAI 员工和研究人员的说法，该公司现在难以获得高质量的培训数据，开发人员已经耗尽了网站、书籍和其他用于预培训的公开文本。

为了解决这些问题，OpenAI 成立了一个基础团队，以研究如何在新训练数据不断减少的情况下继续改进其模型的新策略。据介绍，新策略包括在利用人工智能模型生成的合成数据训练模型，以及在后期训练过程中对具有有限新数据的模型进行更多改进。

这种减速或表明，由于数据稀缺和硬件成本飙升等因素，对大模型来说，传统的扩展改进可能已经达到极限。“传统 scaling laws 下的 LLM 进展可能会放缓”，有研究人员和企业家担心，生成式 AI 已经遇到了障碍，即使如 OpenAI 般急于扩大该技术使用规模的公司，也发现这在实践中很棘手。

并且，类似的困境不止出现在 OpenAI，还有其他前沿实验室在这方面遇到更严重的问题。据数据科学家 Yam Peleg 曝料，从某个前沿实验室传出消息，他们试图通过更长时间的训练和使用越来越多的数据来强行获得更好的结果，结果却意外地达到了一个巨大的收益递减墙（比公开发布的更严重）。

“因此，我认为可以肯定的是，所有主要参与者都已经达到了训练时间更长、收集数据更多的极限...... 现在的关键是数据质量，而这需要时间。”Peleg 表示。而这样的说法正在被不少人认同，有网友表示，“所有的实验室似乎都撞到了这样的墙。”

总而言之，目前可能需要新的方法来推动 AI 技术超越其当前的极限。

“LLM 只会照本宣科”，

一生变就崩溃？

“我们的数据用完了。合成数据始终意味着提炼现有模型，而不是向人类学习。”一位网友在听到消息后这样说道。

另一位网友则表示，“未来应该是 LLM 与推理模型相结合，推理能力越强，效果越好。天不会塌下来。”

一波未平一波再起，除此之外，最近麻省理工学院的一项研究又引发了许多人对于大模型本身理解和学习能力的诸多质疑，甚至有网友锐评道，“LLM 只会照本宣科，而不能像人类甚至其他动物那样将所学到的知识应用于新事物。”

研究人员发现，尽管生成式 AI 的输出令人印象深刻，但其对世界并没有连贯的理解。也就是说，一旦任务或者环境稍有变化，之前表现良好的模型可能会瞬间崩溃。

研究人员重点研究的是 transformer 模型，一类在随机生成的序列数据之上训练而成，另一类则由遵循策略生成的数据训练而成。并将评估示例放在确定性有限自动化（DFA）的问题上，分别是在纽约市的街道上导航以及玩棋盘游戏。

在导航的应用例中，虽然模型能够近乎完美地为用户提供纽约市的导航路线，但当研究人员封闭部分街道再添加绕行路线之后，其性能则会显著下降。哈佛大学博士后 Keyon Vafa 表示，“令人惊讶的是，只要添加一条绕行路线，模型性能就会迅速下降。哪怕我们只封闭掉 1% 的街道，准确率就会立即从接近 100% 下降到 67%。”

但两类 transformer 模型都没能在导航示例中形成连贯的世界模型，并且研究人员在还原模型生成的城市地图时发现，该地图往往包含随机方向的天桥或者大量现实中并不存在的街道。

而在棋盘游戏的示例中，他们发现 transformer 无需了解任何规则，就几乎能够准确预测游戏中的有效棋路。Vafa 解释道，“棋盘游戏中，如果你看到的是两台随机计算机在下棋，而不是冠军棋手在下棋，理论上你会看到所有可能的棋步，甚至是冠军棋手不会走的坏棋。”

令人惊讶的是，研究人员发现随机做出选择的 transformer 反而形成了更准确的世界模型，这可能是因为它们在训练期间接触过更多潜在的下一步棋路。不过，尽管 transformer 几乎在所有情况下都能生成准确的方向和有效的棋路，只有一类模型能够生成连贯的世界模型。

研究人员强调，“看到这些模型那令人印象深刻的表现，我们往往认为它们一定是对现实世界有所了解。但我想提醒大家的是，这个问题不可轻下结论，更不能单凭直觉就言之凿凿。”

对于目前大模型发展中显现的这些瓶颈，有网友提出了一些有趣的想法。

一位网友建议，“我想知道是否有可能将 LLM 与 Cyc（一个逻辑引擎和生活常识规则数据库）连接起来。该引擎可以找到语言模型（文本）和 Cyc 模型之间的最佳匹配，并对较短的候选模型（最小的逻辑图）进行加权。从语言模型生成候选 Cyc 模型可能首先需要大量的训练。”

还有一位网友表示，“现在需要人形机器人来改进 scaling law。如果没有机器人在现实世界中亲身经历的纯数据，GPT 就不可能得到改进。”

scaling 开始出现“正确的方向”

眼见 scaling laws “撞墙”的消息让 AI 圈炸开了锅，声势也愈演愈烈，隔几日后 The Information 再次发文对先前的曝料作了进一步解释。

据其介绍，此前 OpenAI 的 CEO Sam Altman 在 Reddit 上被问及 GPT-5 和 o1 的完整版本时透露，OpenAl 将优先考虑开发 o1 及其后续产品，而不是 GPT，理由是并行发布的计算资源有限。并且，OpenAI 可能会放弃其于 2018 年开始的 GPT 命名约定 (GPT-1)，考虑将 Orion 与 Q*/Strawberry 推理能力融合为“o2"。

The Information 称，Altman 之所以专注于推出推理模型，正是因为 GPT 的改进速度正在放缓。而他们的推理范式通过对数线性计算扩展引入了新的扩展潜力，尽管 o1 的定价比非推理模型高出六倍，目前还限制了其客户群。

路透社也发文称，有十几位人工智能科学家、研究人员和投资者认为，这些技术（OpenAI 最近发布的 o1 模型背后的技术）可能会重塑人工智能军备竞赛的格局，并对人工智能公司对能源和芯片类型等资源的需求产生影响。

对这场 scaling 广遭质疑的“闹剧”，图灵奖得主 LeCun 则引用 Ilya Sutskever 此前的表述道， “2010 年代是 scaling 的时代，现在我们又回到了奇迹和发现的时代”，“现在 scaling 正确的方向比以往任何时候都更重要。”

最近几天我们也看到，开始有围绕传统 scaling laws 作进一步改进和优化的成果和路线涌到公众视线中。

首先是 OpenAI 研究员 Noam Brown 转发了一项麻省理工学院关于“测试时训练 (Test-Time Training, TTT) 能够让 scaling 模型的性能有很大提升”的研究，并透露道，O1 中也开发了一种名为“测试时计算”的方法。“ 我很高兴看到学术研究人员朝着这个方向探索新方法。”Brown 说。

还有来自哈佛大学、斯坦福大学与 MIT 等机构的合作团队，提出了一种“精度感知”（precision-aware）的 scaling laws，该定律在模型参数数量和数据规模之外增加了精度的考量维度，允许预测模型在不同精度下的损失，并表明以较低精度训练较大的模型可能是计算最优的。

即将担任 UCSD 助理教授的 Dan Fu 这样评价该成果，“随着下一代的 GPU 上线，我一直在想的一件事是，我们可以将量化 /scaling 位数的范围降低到何种程度……这篇论文迈出了回答这个问题的第一步!”

参考链接：

https://www.bloomberg.com/news/articles/2024-11-13/openai-google-and-anthropic-are-struggling-to-build-more-advanced-ai?srnd=

https://techcrunch.com/2024/11/09/openai-reportedly-developing-new-strategies-to-deal-with-ai-improvement-slowdown/

https://www.eecs.mit.edu/despite-its-impressive-output-generative-ai-doesnt-have-a-coherent-understanding-of-the-world/

https://slashdot.org/story/24/11/10/1911204/generative-ai-doesnt-have-a-coherent-understanding-of-the-world-mit-researchers-find

https://www.reuters.com/technology/artificial-intelligence/openai-rivals-seek-new-path-smarter-ai-current-methods-hit-limitations-2024-11-11/

https://www.reddit.com/r/singularity/comments/1goycbf/the_information_expands_on_their_saturday_report/

Linus 大佬展现恐怖业务实力：只改动 21 行代码，Linux 性能狂升 2.6%

Kubernetes 是一条“死胡同”！？6 年挣扎后，Gitpod 另辟蹊径打造全新开发环境

Linux 版微信正式官宣，居然选了这个 90 年代的“过气”框架

会议推荐

就在 12 月 13 日 -14 日，AICon 将汇聚 70+ 位 AI 及技术领域的专家，深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外，还有丰富的圆桌论坛、以及展区活动，满足你对大模型实践的好奇与想象。现在正值 9 折倒计时，名额有限，快扫码咨询了解详情，别错过这次绝佳的学习与交流机会！

http://mp.weixin.qq.com/s?__biz=MjM5MDE0Mjc4MA==&mid=2651225617&idx=1&sn=d9bc857794947cdc860742905cc72e73

InfoQ

为一线互联网公司核心技术人员提供优质内容。科技圈的观察者，前沿技术的传播者。

Mooncake 分离式推理架构创新与实践

Scaling Law，撞墙了吗？| 直播预告

共话 AI 与出海新趋势，技术领袖探讨未来发展之道

Apache Tomcat 11.0提供了对虚拟线程和Jakarta EE 11的支持

Chrome 被强制出售？谷歌或将抛弃 ChromeOS 全面转向 Android 系统

独家｜腾讯杰出科学家、混元大模型技术负责人之一刘威离职

StarRocks Summit 剧透 | 云原生与 AI 驱动，湖仓落地场景前瞻

ISO C++主席 Herb Sutter 离开微软，并宣布即将发布的 C++ 26 是自 C++11 以来最具影响力的版本

微软在 GitHub Universe 上为开发者推出 AI 增强工具

一朝成名，一夜破产！这家谷歌前高管创立的AI公司突然宣布倒闭，专家：这个行业不适合AI

OpenAI死对头、Claude掌舵人访谈：与Altman分道扬镳不是因为商业化、scaling law不会撞墙

QCon演讲实录 | 赵彦奇：HTTPDNS 边缘下沉，性能、成本和稳定性之间的取舍与思考

极客游学·乌镇互联网大会站启航：共话 AI 与出海新趋势

优步借助 MyRocks 差异备份显著节省了存储成本

一场泰森拳王比赛就能让上云鼻祖宕机，员工：周末不想加班修bug

腾讯发布财报，员工平均月薪超9万！Kimi的瓜太多！杨植麟惨遭前投资人提起仲裁；特朗普如何“拯救”TikTok？| Q资讯

续航超 4 小时、算力 550T，这款国产自研人形机器人让家务更轻松

Cloudflare 使用 OpenTelemetry 彻底检修日志记录管道

别慌，Scaling Laws 的末日还早！“革新版”迅速出现，多位大牛都在叫好

是否应在 Kubernetes上运行Redis？快手这样做！

Safe C++提案能复制Rust的内存安全性吗？

Grab 通过 GPT-4、Glean 和 Slack 实施了利用 LLM 的转换数据发现

“天价”ERP项目导致欧洲最大政府破产：预算涨了10倍，上线半年8000多个错误，一年税收没正常过

B 站轻量级容灾演练体系构建与业务实践

儿歌点点携手火山引擎，共创儿童成长AI伙伴

好未来：多云环境下基于 JuiceFS 建设低运维模型仓库

阿里国际推出全球首个 B2B AI 搜索引擎 Accio

通义灵码 SWE-GPT：从静态代码建模迈向软件开发过程长链推理

RAG在企业落地的难点与创新 | AICon

适应性响应方法可弹性处理软件运维中的难题

Expedia 将大型 Cassandra 集群迁移至 ScyllaDB，实现了零停机目标

微软“甩锅”神操作？服务器“安全更新”成“系统大换血”，企业懵了

应用突破还是炫技噱头：大模型能否真正驱动行业升级？

考完软考，人麻了…… | 极客时间

百度沈抖：AI 应用在 B 端率先爆发

F5 全新报告：AI 时代 API 安全面临严峻挑战

李彦宏：大模型幻觉基本消除，这是只靠想法就能赚钱时代

我们为什么不遗余力地举办 AICon？

大模型“杀死”前端？开发者如何与AI共舞 | Q推荐

生成式AI项目，数据管理的“坑”和“诀窍” | 直播预告

一句话改图！字节豆包通用图像编辑模型 SeedEdit 上线测试

一个周末重写所有代码，性能提升10倍！没有这个1000 倍工程师，就没有现在的谷歌地图

Meta元宇宙梦碎：5年烧光465亿美元，硬件高管跳槽，资本圈集体唱衰

QCon演讲实录 | 徐广治：边缘云原生操作系统的设计与思考

3000+面试题，17小时专家课：程序员的求职加速包 | 极客时间

Pinterest大幅提升时序数据库Goku存储效率和资源使用

Linus 大佬展现恐怖业务实力：只改动 21 行代码，Linux 性能狂升 2.6%

对话Steve Klabnik和Herb Sutter：Rust和C++

海柔仿真系统存储实践：混合云架构下实现高可用与极简运维

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉