预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

科技 2024-12-15 11:11 北京

机器之心PRO · 会员通讯 Week 50

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. 预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

预训练数据还能继续 Scale 多少? AI的下一步发展有哪些论调？哪些工作在推理阶段给 LLM 打补丁？哪些工作在用更高维度的数据做 WM？哪些探索方向不受「撞墙争议」的影响？能力密度又带来了什么新视角？...

2. 世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

为什么说世界模型是通往 L4 级别的关键？与端到端大模型相比，区别是什么？解决什么难题？在实际落地应用中，世界模型在智驾系统中的哪些部分起具体作用？有哪些车企在方案中引入了世界模型？思路有何异同？...

3. 麦肯锡报告预测未来可能重塑全球经济的 18 个领域

麦肯锡的最新报告传递了哪些重要信息？重塑全球经济的 18 个领域有哪些？人工智能技术的飞速发展对于哪些行业的发展起到了关键作用？...

...本期完整版通讯含 3 项专题解读 + 27 项本周 AI & Robotics 赛道要事速递，其中技术方面 8 项，国内方面 5 项，国外方面 14 项。

本期通讯总计 25018 字，可免费试读至 9%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① 预训练将结束？AI 的下一步发展有哪些论调？Scaling Law 撞墙与否还重要吗？

引言：本周五，Ilya Sutskever在NeurIPS炸裂宣判：「预训练将结束，数据压榨到头了」。关于 Scaling Law 是否撞墙的争议在近期持续发生，不时有人给出 Scaling Law 将会撞墙的佐证，也有许多工作证明了 Scaling Law 的潜力尚未被充分挖掘，这一争议带来的是业界对 AI 下一步发展路线的众说纷纭。

「撞墙」争议下，AI 的下一步发展有哪些论调？

Scaling Law 在 2024 年里又一次性感，一度被视为实现 AGI 的「圣经」。也是因此，当有关 Scaling Law 撞墙的消息传出后引发了大量消极的论调。回顾 2022 年，深度学习领域也曾面临类似的“撞墙”质疑，但事实证明，这些担忧并未成为现实。语言模型的 Scaling Law 允许研究者预测模型性能随参数、数据和计算资源变化的趋势。尽管其在推动 AI 发展中扮演了重要角色，但构建更强大的 AI 系统并非只有一条路径。

1、2024 年里，AI 领域中有关 Scaling Law 是否到头的争议反复引起讨论。其话题冲突的核心在于，大模型的性能提升是否还能继续靠无限堆叠数据和参数规模从而大力出奇迹。

① 6 月，Gary Marcus 的「Is scaling all you need？」就 Scaling Law 收益递减的话题引发了大量讨论。Marcus 认为仅靠 Scaling 已经无法带来显著的性能提升，同期有声音认为 LLM 领域已经进入回报递减的时期，未来的发展需要新的方法和思路。（详见 Pro 会员通讯 2024 年 Week 36 期）

② 11 月，The Information 的报道《随着 GPT 提升减速，OpenAI 改变策略》，以及许多大型基础实验室声称均遇到预训练的瓶颈的声音又一次将 Scaling Law 撞墙的争议变成热议话题。

2、认为 Scaling Law 撞墙的佐证不断翻新，而反驳的观点也随着话题的热度不断涌现。以 OpenAI CEO Sam Altman 为代表的反驳观点认为，Scaling Law 的潜力尚未穷尽，而 OpenAI 的 o 系列和 GPT 系列均是 Scaling 仍然有效的范例。[10]

3、SSI 创始人、前 OpenAI 首席科学家 Ilya Sutskever 曾在访谈中表达「Scaling the right thing matters more now than ever。」近期在NeurIPS 2024 的演讲中，他进一步补充了「现有的预训练方法将会结束」的观点。[18]

① Sutskever 在演讲强调了数据枯竭的担忧，我们只有一个互联网，尽管现有数据仍能推动人工智能的发展，但可用的新数据已经耗尽，需要寻找新的方法来进一步提升AI的能力。

② 由于数据资源的有限性，Sutskever 认为这一趋势最终将迫使行业改变当前的模型训练方式。他预测下一代模型将会“以真正的方式表现出自主性”，并且具备推理能力。

③ Sutskever 提出，AI可能会超越现有的预训练方法，发现全新的扩展路径。这可能涉及到新的学习算法、更高效的数据处理技术，或者是能够从更少的数据中提取更多信息的方法。

4、LLM 的 Scaling Law 揭示了性能与其参数和数据规模之间的关系，但并非唯一视角。在 Scaling Law 撞墙与否的争议之外，仍有许多工作从不同的方向探求解锁下一代 AI 的路径。

5、对于评估不同规模 LLM 训练质量的方法上，清华大学刘知远教授团队近期提出了 Densing Law（密度定律），从 Scaling Law 之外的维度对 LLM 能力进行推演，提供指导性的规律发现。[11]

① 该工作针对近几年 LLM 工作中看似矛盾的「为了有效性而扩展 LLMs 的规模，为了效率而缩小 LLMs 的规模」路径，提出了 Capability Density（能力密度）度量指标，用于量化评估不同规模 LLMs 的质量。

② Capability Density 被定义为 LLM「有效参数量」于实际参数量的比值。「有效参数量」指参考模型达到与目标模型相当性能所需的最小参数数量。

③ 该工作用 Capability Density 评估了 29 个头部开源 LLM，并基于分析结果提出了 Density Law，即，LLM 的最大密度随时间呈指数增长，大约每 3.3 个月（约 100 天）翻一倍。

④ 结合 Densing Law 与摩尔定律，研究者指出，伴随 LLMs 密度+芯片计算能力各自随时间的增长，两者的交汇意味着主流终端如 PC、手机将能运行更高能力密度的模型，推动端侧智能在消费市场普及。

⑤ 结合 Densing Law 与 Scaling Law，研究者指出每个新模型的高性价比「有效期」不断缩短。开发者必须考虑模型密度的增长趋势，并采用更有效和通用的训练技术来提高模型密度。

6、从「Scaling What」更重要的视角出发，近期的许多工作探索新的 Scaling 目标。

① 以 OpenAI o1 模型的发布为契机，有一种说法认为 Scaling 的范式正在从预训练转移到推理阶段，其相关工作涉及「测试时计算（Test-Time Compute）」和「测试时训练（Test-Time Training）」等。

② 也有工作尝试从预训练数据入手，如哈佛等高校研究者尝试设计的「精度感知」的 Scaling Law，以及 UCL 和 Cohere 对预训练数据中「程序性知识」的研究。

③ 还有一类工作尝试用更高维度的数据和知识入手，如空间智能、世界模型和具身智能领域的相关工作。

预训练数据仍会是「The Right Thing to Scale」吗？

机器之心

专业的人工智能媒体和产业服务平台

最新文章

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

2025英伟达奖学金出炉，7位华人博士生入选，上交、中科大、浙大校友在列

图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈

智源发布FlagEval「百模」评测结果，丈量模型生态变局

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

CMU把具身智能的机器人给越狱了

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

微调时无需泄露数据或权重，这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

AI大模型时代，人才的需求已经变了

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

OpenAI被偷家，谷歌Veo 2反超Sora

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

企业大模型落地关键是什么？这家领先的大模型技术和应用公司给出答案

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了（全文+视频）

无人机：不是我想长腿，《Nature》论文说这样更省力

KDD2025 | 多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

OpenAI很会营销，而号称超强AI营销的灵感岛实测成效如何？

李飞飞：World Labs这样实现「空间智能」

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉