要事解读① 扩展测试时计算是万能的吗?Scaling What成为关键
日期:11 月 10 日
事件:近日,外媒 The Information 的一篇报道引发了关于「模型 Scaling Laws 范式是否已经达到极限」的争议。OpenAI o1 模型的推出将 Scaling Laws 范式从预训练带向了推理层,模型推理层的开发和规模增长成为 AI 大模型玩家们新一轮「竞赛」的重点。涉及复杂计算和决策,缓慢逻辑思考的「System 2」思维成为主导。
传统的模型 Scaling Laws 范式已经达到极限了吗?
1、近日,The Information 的一篇报道内容引发了争议。报道表示,由于高质量文本和其他数据的供应量减少的原因,GPT 系列模型性能的提升正在放缓。OpenAI 计划发布的新一代模型 Orion 相比于 GPT-3 和 GPT-4 两款模型之间的飞跃,模型质量的提升要小得多。[1]
① 据此前 The Verge 的报道,Orion 模型是 OpenAI 计划在今年 12 月之前推出的下一代模型,与 GPT 系列模型不同的是,Orion 主要面向企业客户,计划首先向密切合作的公司提供 Orion 模型的访问权限;[2]
② The Information 报道表示,OpenAI 目前只完成了 Orion 训练过程的 20%,在智能和完成任务和回答问题的能力方面已经与 GPT-4 不相上下。而 Orion 模型相比于该公司发布的最新两款旗舰模型 GPT-3 和 GPT-4 之间的飞跃,质量的提升要小得多。由此,引发了关于大模型 Scaling Laws 进入边际效应递减阶段甚至达到极限的一系列争议。
2、传统的模型 Scaling Laws 来自 OpenAI 的论文《Scaling Laws for Neural Language Models》,强调了模型大小与性能之间的正相关性,即通过在预训练中使用更多的数据和算力来实现模型性能的提升。在 o1 模型推出后,模型的 Scaling Laws 范式从预训练阶段转向后训练即推理阶段,通过更多的强化学习(训练时计算)和更多的思考时间(测试时计算)来持续提高 o1 的性能。o1 在响应用户之前会先产生一个很长的内部思维链,完善自己的思维过程,尝试不同的策略,并认识到自己的错误。[3] [4]
3、对于传统的模型 Scaling Laws 范式是否已经达到极限,业内有着不同的观点。
① OpenAI 的 CEO Sam Altman 认为,目前尚未达到传统 Scaling Laws 的极限。OpenAI 成立了一个基础团队来研究应对模型的 Scaling Laws 将持续到什么时候。但 Altman 此前也曾在公开场合多次提到,后续模型能力提升可能是渐进式而非跳跃式的。
② 心理学家 Gary Marcus 和数据科学家 Yam Peleg 则认为传统的 Scaling Laws 已经进入边际效应递减阶段。
③ OpenAI 的 Adam GPT 则认为,「大模型的 Scaling Laws 和推理时间的优化是两个可以互相增益的维度。」The Information 报道文章的作者同样也表达了类似的看法,「更确切地说,未来似乎是 LLM 与推理模型相结合,推理能力更强,效果更好。」[5]
④ 前 OpenAI 首席科学家 Ilya Sutskever 更加专注「Scaling What」,Scaling Laws 的对象才是关键,重要的是「扩大正确的规模」。Ilya 认为,「大模型的 scaling 只是一种假设,还远不是 law,将采用不同的方式来扩展大模型性能。」据路透社报道,Ilya 的创业公司 SSI 正在尝试一种与 OpenAI 不同的 Scaling 方法。[6]
通过扩展「测试时计算」能否真正解决问题?
1、o1 的推出将传统的 Scaling Laws 范式带向了「Post-Training Scaling Law」,关注点逐渐转向推理层的 Scaling 。o1 在训练时间和测试时推理中应用了「让我们一步一步思考」的思路链 (CoT) 范式,「思考」时间越长,模型就能解决更复杂的问题。
① 相比于使用 CoT 扩展训练时间,o1 证明了扩展测试时更为重要。据 o1 的技术博客,在 AIME 任务上,准确率和测试时计算呈对数线性关系。简单来说,随着计算指数增加,准确率也会线性上升。
2、「测试时计算(Test-Time Compute)」和「测试时训练(Test-Time Training)」是近期业内关注的两项重点技术。「测试时计算」来自谷歌 DeepMind 和 UC 伯克利的研究者在 2024 年 8 月发布的论文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》,该论文探究了如何通过增加测试时的计算量来提高大型语言模型(LLMs)的性能。[7]
① 研究者基于现有的 RL self-play + MCTS 的方法开发了类似算法,并通过投入额外计算资源改进 LLM 的响应分布和对验证器(verifier)进行搜索的方式分析了 Scaling 模型 Test-Time Compute 对推理能力的影响。
② 该工作在一定程度上证实了用测试时计算来改进模型输出的可行性。在简单和中等难度的问题上,甚至在困难的问题上(取决于预训练和推理工作负载的特定条件),额外的测试时计算通常比预训练更能提升模型能力。但在最具挑战性的问题上,Scaling 测试时计算的好处则非常少,通过额外的预训练计算来取得进展更为有效。
3、近期,MIT 的一篇论文《The Surprising Effectiveness of Test-Time Training for Abstract Reasoning》指出了在推理阶段提升模型性能的另一技术「测试时训练」。该论文研究了测试时训练在提高语言模型(LMs)在抽象和推理语料库(ARC)任务上的性能方面的有效性。[8]