扩展测试时计算是万能的吗?Scaling What成为关键

科技   2024-11-17 15:01   北京  
机器之心PRO · 会员通讯 Week 46
---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----
1. 扩展测试时计算是万能的吗?Scaling What成为关键
传统的 Scaling Laws 范式是否已经达到极限?新的 Scaling Laws 范式能否解决数据难题?只要扩展测试时计算,就能够实现通用人工智能吗?「LLM + 推理模型」是否能实现类人智能?LLM 真的具有推理能力吗?...
2. 谁能进入下一轮?具身智能「练习生」的技术储备和商业路径有何异同?
具身智能创企融资规模如何?明星「练习生」都有哪些头部资源支持?各家创企技术路径有何差异?「练习生」都有哪些技术储备?具身智能还差些什么?...
3. Anthropic 深度访谈:当下的 Scaling Laws 局限不会改变 AI 的未来可期
Scaling Law 受阻问题不大?Anthropic 怎么解决 LLM 推理发展减速问题?Claude 3.5 系列有什么不同?AI 明年的风险级别要到 ASL-3?AI 迟早能处理所有任务?最佳失败率和 AI 有什么关系?....

...本期完整版通讯含 3 项专题解读 + 26 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 9 项,国外方面 8 项。
本期通讯总计 23535 字,可免费试读至 9% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  扩展测试时计算是万能的吗?Scaling What成为关键

日期:11 月 10 日

事件:近日,外媒 The Information 的一篇报道引发了关于「模型 Scaling Laws 范式是否已经达到极限」的争议。OpenAI o1 模型的推出将 Scaling Laws 范式从预训练带向了推理层,模型推理层的开发和规模增长成为 AI 大模型玩家们新一轮「竞赛」的重点。涉及复杂计算和决策,缓慢逻辑思考的「System 2」思维成为主导。

传统的模型 Scaling Laws 范式已经达到极限了吗?

1、近日,The Information 的一篇报道内容引发了争议。报道表示,由于高质量文本和其他数据的供应量减少的原因,GPT 系列模型性能的提升正在放缓。OpenAI 计划发布的新一代模型 Orion 相比于 GPT-3 和 GPT-4 两款模型之间的飞跃,模型质量的提升要小得多。[1]

① 据此前 The Verge 的报道,Orion 模型是 OpenAI 计划在今年 12 月之前推出的下一代模型,与 GPT 系列模型不同的是,Orion 主要面向企业客户,计划首先向密切合作的公司提供 Orion 模型的访问权限;[2]

② The Information 报道表示,OpenAI 目前只完成了 Orion 训练过程的 20%,在智能和完成任务和回答问题的能力方面已经与 GPT-4 不相上下。而 Orion 模型相比于该公司发布的最新两款旗舰模型 GPT-3 和 GPT-4 之间的飞跃,质量的提升要小得多。由此,引发了关于大模型 Scaling Laws 进入边际效应递减阶段甚至达到极限的一系列争议。

2、传统的模型 Scaling Laws 来自 OpenAI 的论文《Scaling Laws for Neural Language Models》,强调了模型大小与性能之间的正相关性,即通过在预训练中使用更多的数据和算力来实现模型性能的提升。在 o1 模型推出后,模型的 Scaling Laws 范式从预训练阶段转向后训练即推理阶段,通过更多的强化学习(训练时计算)和更多的思考时间(测试时计算)来持续提高 o1 的性能。o1 在响应用户之前会先产生一个很长的内部思维链,完善自己的思维过程,尝试不同的策略,并认识到自己的错误。[3] [4]

3、对于传统的模型 Scaling Laws 范式是否已经达到极限,业内有着不同的观点。

① OpenAI 的 CEO Sam Altman 认为,目前尚未达到传统 Scaling Laws 的极限。OpenAI 成立了一个基础团队来研究应对模型的 Scaling Laws 将持续到什么时候。但 Altman 此前也曾在公开场合多次提到,后续模型能力提升可能是渐进式而非跳跃式的。

② 心理学家 Gary Marcus 和数据科学家 Yam Peleg 则认为传统的 Scaling Laws 已经进入边际效应递减阶段。

③ OpenAI 的 Adam GPT 则认为,「大模型的 Scaling Laws 和推理时间的优化是两个可以互相增益的维度。」The Information 报道文章的作者同样也表达了类似的看法,「更确切地说,未来似乎是 LLM 与推理模型相结合,推理能力更强,效果更好。」[5]

④ 前 OpenAI 首席科学家 Ilya Sutskever 更加专注「Scaling What」,Scaling Laws 的对象才是关键,重要的是「扩大正确的规模」。Ilya 认为,「大模型的 scaling 只是一种假设,还远不是 law,将采用不同的方式来扩展大模型性能。」据路透社报道,Ilya 的创业公司 SSI 正在尝试一种与 OpenAI 不同的 Scaling 方法。[6]

通过扩展「测试时计算」能否真正解决问题?

1、o1 的推出将传统的 Scaling Laws 范式带向了「Post-Training Scaling Law」,关注点逐渐转向推理层的 Scaling 。o1 在训练时间和测试时推理中应用了「让我们一步一步思考」的思路链 (CoT) 范式,「思考」时间越长,模型就能解决更复杂的问题。

① 相比于使用 CoT 扩展训练时间,o1 证明了扩展测试时更为重要。据 o1 的技术博客,在 AIME 任务上,准确率和测试时计算呈对数线性关系。简单来说,随着计算指数增加,准确率也会线性上升。

2、「测试时计算(Test-Time Compute)」和「测试时训练(Test-Time Training)」是近期业内关注的两项重点技术。「测试时计算」来自谷歌 DeepMind 和 UC 伯克利的研究者在 2024 年 8 月发布的论文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》,该论文探究了如何通过增加测试时的计算量来提高大型语言模型(LLMs)的性能。[7]

① 研究者基于现有的 RL self-play + MCTS 的方法开发了类似算法,并通过投入额外计算资源改进 LLM 的响应分布和对验证器(verifier)进行搜索的方式分析了 Scaling 模型 Test-Time Compute 对推理能力的影响。

② 该工作在一定程度上证实了用测试时计算来改进模型输出的可行性。在简单和中等难度的问题上,甚至在困难的问题上(取决于预训练和推理工作负载的特定条件),额外的测试时计算通常比预训练更能提升模型能力。但在最具挑战性的问题上,Scaling 测试时计算的好处则非常少,通过额外的预训练计算来取得进展更为有效。

3、近期,MIT 的一篇论文《The Surprising Effectiveness of Test-Time Training for Abstract Reasoning》指出了在推理阶段提升模型性能的另一技术「测试时训练」。该论文研究了测试时训练在提高语言模型(LMs)在抽象和推理语料库(ARC)任务上的性能方面的有效性。[8]

机器之心
专业的人工智能媒体和产业服务平台
 最新文章