预训练将结束?AI的下一步发展有何论调?Scaling Law 撞墙与否还重要吗?

科技   2024-12-15 11:11   北京  
机器之心PRO · 会员通讯 Week 50
---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. 预训练将结束?AI的下一步发展有何论调?Scaling Law 撞墙与否还重要吗?
预训练数据还能继续 Scale 多少? AI的下一步发展有哪些论调?哪些工作在推理阶段给 LLM 打补丁?哪些工作在用更高维度的数据做 WM?哪些探索方向不受「撞墙争议」的影响?能力密度又带来了什么新视角?...
2. 世界模型才是智驾唯一解?造车新势力们对于自动驾驶世界模型的探索路线有何异同?
为什么说世界模型是通往 L4 级别的关键?与端到端大模型相比,区别是什么?解决什么难题?在实际落地应用中,世界模型在智驾系统中的哪些部分起具体作用?有哪些车企在方案中引入了世界模型?思路有何异同?...
3. 麦肯锡报告预测未来可能重塑全球经济的 18 个领域
麦肯锡的最新报告传递了哪些重要信息?重塑全球经济的 18 个领域有哪些?人工智能技术的飞速发展对于哪些行业的发展起到了关键作用?...

...本期完整版通讯含 3 项专题解读 + 27 项本周 AI & Robotics 赛道要事速递,其中技术方面 8 项,国内方面 5 项,国外方面 14 项。
本期通讯总计 25018 字,可免费试读至 9% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  预训练将结束?AI 的下一步发展有哪些论调?Scaling Law 撞墙与否还重要吗?

引言:本周五,Ilya Sutskever在NeurIPS炸裂宣判:「预训练将结束,数据压榨到头了」。关于 Scaling Law 是否撞墙的争议在近期持续发生,不时有人给出 Scaling Law 将会撞墙的佐证,也有许多工作证明了 Scaling Law 的潜力尚未被充分挖掘,这一争议带来的是业界对 AI 下一步发展路线的众说纷纭。
「撞墙」争议下,AI 的下一步发展有哪些论调?
Scaling Law 在 2024 年里又一次性感,一度被视为实现 AGI 的「圣经」。也是因此,当有关 Scaling Law 撞墙的消息传出后引发了大量消极的论调。回顾 2022 年,深度学习领域也曾面临类似的“撞墙”质疑,但事实证明,这些担忧并未成为现实。语言模型的 Scaling Law 允许研究者预测模型性能随参数、数据和计算资源变化的趋势。尽管其在推动 AI 发展中扮演了重要角色,但构建更强大的 AI 系统并非只有一条路径。

1、2024 年里,AI 领域中有关 Scaling Law 是否到头的争议反复引起讨论。其话题冲突的核心在于,大模型的性能提升是否还能继续靠无限堆叠数据和参数规模从而大力出奇迹。

① 6 月,Gary Marcus 的「Is scaling all you need?」就 Scaling Law 收益递减的话题引发了大量讨论。Marcus 认为仅靠 Scaling 已经无法带来显著的性能提升,同期有声音认为 LLM 领域已经进入回报递减的时期,未来的发展需要新的方法和思路。(详见 Pro 会员通讯 2024 年 Week 36 期)

② 11 月,The Information 的报道《随着 GPT 提升减速,OpenAI 改变策略》,以及许多大型基础实验室声称均遇到预训练的瓶颈的声音又一次将 Scaling Law 撞墙的争议变成热议话题。

2、认为 Scaling Law 撞墙的佐证不断翻新,而反驳的观点也随着话题的热度不断涌现。以 OpenAI CEO Sam Altman 为代表的反驳观点认为,Scaling Law 的潜力尚未穷尽,而 OpenAI 的 o 系列和 GPT 系列均是 Scaling 仍然有效的范例。[10]

3、SSI 创始人、前 OpenAI 首席科学家 Ilya Sutskever 曾在访谈中表达「Scaling the right thing matters more now than ever。」近期在NeurIPS 2024 的演讲中,他进一步补充了「现有的预训练方法将会结束」的观点。[18]

① Sutskever 在演讲强调了数据枯竭的担忧,我们只有一个互联网,尽管现有数据仍能推动人工智能的发展,但可用的新数据已经耗尽,需要寻找新的方法来进一步提升AI的能力。

② 由于数据资源的有限性,Sutskever 认为这一趋势最终将迫使行业改变当前的模型训练方式。他预测下一代模型将会“以真正的方式表现出自主性”,并且具备推理能力。

③ Sutskever 提出,AI可能会超越现有的预训练方法,发现全新的扩展路径。这可能涉及到新的学习算法、更高效的数据处理技术,或者是能够从更少的数据中提取更多信息的方法。

4、LLM 的 Scaling Law 揭示了性能与其参数和数据规模之间的关系,但并非唯一视角。在 Scaling Law 撞墙与否的争议之外,仍有许多工作从不同的方向探求解锁下一代 AI 的路径。

5、对于评估不同规模 LLM 训练质量的方法上,清华大学刘知远教授团队近期提出了 Densing Law(密度定律),从 Scaling Law 之外的维度对 LLM 能力进行推演,提供指导性的规律发现。[11]

① 该工作针对近几年 LLM 工作中看似矛盾的「为了有效性而扩展 LLMs 的规模,为了效率而缩小 LLMs 的规模」路径,提出了 Capability Density(能力密度)度量指标,用于量化评估不同规模 LLMs 的质量。

② Capability Density 被定义为 LLM「有效参数量」于实际参数量的比值。「有效参数量」指参考模型达到与目标模型相当性能所需的最小参数数量。

③ 该工作用 Capability Density 评估了 29 个头部开源 LLM,并基于分析结果提出了 Density Law,即,LLM 的最大密度随时间呈指数增长,大约每 3.3 个月(约 100 天)翻一倍。

④ 结合 Densing Law 与摩尔定律,研究者指出,伴随 LLMs 密度+芯片计算能力各自随时间的增长,两者的交汇意味着主流终端如 PC、手机将能运行更高能力密度的模型,推动端侧智能在消费市场普及。

⑤ 结合 Densing Law 与 Scaling Law,研究者指出每个新模型的高性价比「有效期」不断缩短。开发者必须考虑模型密度的增长趋势,并采用更有效和通用的训练技术来提高模型密度。

6、从「Scaling What」更重要的视角出发,近期的许多工作探索新的 Scaling 目标。

① 以 OpenAI o1 模型的发布为契机,有一种说法认为 Scaling 的范式正在从预训练转移到推理阶段,其相关工作涉及「测试时计算(Test-Time Compute)」和「测试时训练(Test-Time Training)」等。

② 也有工作尝试从预训练数据入手,如哈佛等高校研究者尝试设计的「精度感知」的 Scaling Law,以及 UCL 和 Cohere 对预训练数据中「程序性知识」的研究。

③ 还有一类工作尝试用更高维度的数据和知识入手,如空间智能、世界模型和具身智能领域的相关工作。

预训练数据仍会是「The Right Thing to Scale」吗?

机器之心
专业的人工智能媒体和产业服务平台
 最新文章