要事解读① 预训练将结束?AI 的下一步发展有哪些论调?Scaling Law 撞墙与否还重要吗?
1、2024 年里,AI 领域中有关 Scaling Law 是否到头的争议反复引起讨论。其话题冲突的核心在于,大模型的性能提升是否还能继续靠无限堆叠数据和参数规模从而大力出奇迹。
① 6 月,Gary Marcus 的「Is scaling all you need?」就 Scaling Law 收益递减的话题引发了大量讨论。Marcus 认为仅靠 Scaling 已经无法带来显著的性能提升,同期有声音认为 LLM 领域已经进入回报递减的时期,未来的发展需要新的方法和思路。(详见 Pro 会员通讯 2024 年 Week 36 期)
② 11 月,The Information 的报道《随着 GPT 提升减速,OpenAI 改变策略》,以及许多大型基础实验室声称均遇到预训练的瓶颈的声音又一次将 Scaling Law 撞墙的争议变成热议话题。
2、认为 Scaling Law 撞墙的佐证不断翻新,而反驳的观点也随着话题的热度不断涌现。以 OpenAI CEO Sam Altman 为代表的反驳观点认为,Scaling Law 的潜力尚未穷尽,而 OpenAI 的 o 系列和 GPT 系列均是 Scaling 仍然有效的范例。[10]
3、SSI 创始人、前 OpenAI 首席科学家 Ilya Sutskever 曾在访谈中表达「Scaling the right thing matters more now than ever。」近期在NeurIPS 2024 的演讲中,他进一步补充了「现有的预训练方法将会结束」的观点。[18]
① Sutskever 在演讲强调了数据枯竭的担忧,我们只有一个互联网,尽管现有数据仍能推动人工智能的发展,但可用的新数据已经耗尽,需要寻找新的方法来进一步提升AI的能力。
② 由于数据资源的有限性,Sutskever 认为这一趋势最终将迫使行业改变当前的模型训练方式。他预测下一代模型将会“以真正的方式表现出自主性”,并且具备推理能力。
③ Sutskever 提出,AI可能会超越现有的预训练方法,发现全新的扩展路径。这可能涉及到新的学习算法、更高效的数据处理技术,或者是能够从更少的数据中提取更多信息的方法。
4、LLM 的 Scaling Law 揭示了性能与其参数和数据规模之间的关系,但并非唯一视角。在 Scaling Law 撞墙与否的争议之外,仍有许多工作从不同的方向探求解锁下一代 AI 的路径。
5、对于评估不同规模 LLM 训练质量的方法上,清华大学刘知远教授团队近期提出了 Densing Law(密度定律),从 Scaling Law 之外的维度对 LLM 能力进行推演,提供指导性的规律发现。[11]
① 该工作针对近几年 LLM 工作中看似矛盾的「为了有效性而扩展 LLMs 的规模,为了效率而缩小 LLMs 的规模」路径,提出了 Capability Density(能力密度)度量指标,用于量化评估不同规模 LLMs 的质量。
② Capability Density 被定义为 LLM「有效参数量」于实际参数量的比值。「有效参数量」指参考模型达到与目标模型相当性能所需的最小参数数量。
③ 该工作用 Capability Density 评估了 29 个头部开源 LLM,并基于分析结果提出了 Density Law,即,LLM 的最大密度随时间呈指数增长,大约每 3.3 个月(约 100 天)翻一倍。
④ 结合 Densing Law 与摩尔定律,研究者指出,伴随 LLMs 密度+芯片计算能力各自随时间的增长,两者的交汇意味着主流终端如 PC、手机将能运行更高能力密度的模型,推动端侧智能在消费市场普及。
⑤ 结合 Densing Law 与 Scaling Law,研究者指出每个新模型的高性价比「有效期」不断缩短。开发者必须考虑模型密度的增长趋势,并采用更有效和通用的训练技术来提高模型密度。
6、从「Scaling What」更重要的视角出发,近期的许多工作探索新的 Scaling 目标。
① 以 OpenAI o1 模型的发布为契机,有一种说法认为 Scaling 的范式正在从预训练转移到推理阶段,其相关工作涉及「测试时计算(Test-Time Compute)」和「测试时训练(Test-Time Training)」等。
② 也有工作尝试从预训练数据入手,如哈佛等高校研究者尝试设计的「精度感知」的 Scaling Law,以及 UCL 和 Cohere 对预训练数据中「程序性知识」的研究。
③ 还有一类工作尝试用更高维度的数据和知识入手,如空间智能、世界模型和具身智能领域的相关工作。