扩展测试时计算是万能的吗？Scaling What成为关键

科技 2024-11-17 15:01 北京

机器之心PRO · 会员通讯 Week 46

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. 扩展测试时计算是万能的吗？Scaling What成为关键

传统的 Scaling Laws 范式是否已经达到极限？新的 Scaling Laws 范式能否解决数据难题？只要扩展测试时计算，就能够实现通用人工智能吗？「LLM + 推理模型」是否能实现类人智能？LLM 真的具有推理能力吗？...

2. 谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

具身智能创企融资规模如何？明星「练习生」都有哪些头部资源支持？各家创企技术路径有何差异？「练习生」都有哪些技术储备？具身智能还差些什么？...

3. Anthropic 深度访谈：当下的 Scaling Laws 局限不会改变 AI 的未来可期

Scaling Law 受阻问题不大？Anthropic 怎么解决 LLM 推理发展减速问题？Claude 3.5 系列有什么不同？AI 明年的风险级别要到 ASL-3？AI 迟早能处理所有任务？最佳失败率和 AI 有什么关系？....

...本期完整版通讯含 3 项专题解读 + 26 项本周 AI & Robotics 赛道要事速递，其中技术方面 9 项，国内方面 9 项，国外方面 8 项。

本期通讯总计 23535 字，可免费试读至 9%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① 扩展测试时计算是万能的吗？Scaling What成为关键

日期：11 月 10 日

事件：近日，外媒 The Information 的一篇报道引发了关于「模型 Scaling Laws 范式是否已经达到极限」的争议。OpenAI o1 模型的推出将 Scaling Laws 范式从预训练带向了推理层，模型推理层的开发和规模增长成为 AI 大模型玩家们新一轮「竞赛」的重点。涉及复杂计算和决策，缓慢逻辑思考的「System 2」思维成为主导。

传统的模型 Scaling Laws 范式已经达到极限了吗？

1、近日，The Information 的一篇报道内容引发了争议。报道表示，由于高质量文本和其他数据的供应量减少的原因，GPT 系列模型性能的提升正在放缓。OpenAI 计划发布的新一代模型 Orion 相比于 GPT-3 和 GPT-4 两款模型之间的飞跃，模型质量的提升要小得多。[1]

① 据此前 The Verge 的报道，Orion 模型是 OpenAI 计划在今年 12 月之前推出的下一代模型，与 GPT 系列模型不同的是，Orion 主要面向企业客户，计划首先向密切合作的公司提供 Orion 模型的访问权限；[2]

② The Information 报道表示，OpenAI 目前只完成了 Orion 训练过程的 20%，在智能和完成任务和回答问题的能力方面已经与 GPT-4 不相上下。而 Orion 模型相比于该公司发布的最新两款旗舰模型 GPT-3 和 GPT-4 之间的飞跃，质量的提升要小得多。由此，引发了关于大模型 Scaling Laws 进入边际效应递减阶段甚至达到极限的一系列争议。

2、传统的模型 Scaling Laws 来自 OpenAI 的论文《Scaling Laws for Neural Language Models》，强调了模型大小与性能之间的正相关性，即通过在预训练中使用更多的数据和算力来实现模型性能的提升。在 o1 模型推出后，模型的 Scaling Laws 范式从预训练阶段转向后训练即推理阶段，通过更多的强化学习（训练时计算）和更多的思考时间（测试时计算）来持续提高 o1 的性能。o1 在响应用户之前会先产生一个很长的内部思维链，完善自己的思维过程，尝试不同的策略，并认识到自己的错误。[3] [4]

3、对于传统的模型 Scaling Laws 范式是否已经达到极限，业内有着不同的观点。

① OpenAI 的 CEO Sam Altman 认为，目前尚未达到传统 Scaling Laws 的极限。OpenAI 成立了一个基础团队来研究应对模型的 Scaling Laws 将持续到什么时候。但 Altman 此前也曾在公开场合多次提到，后续模型能力提升可能是渐进式而非跳跃式的。

② 心理学家 Gary Marcus 和数据科学家 Yam Peleg 则认为传统的 Scaling Laws 已经进入边际效应递减阶段。

③ OpenAI 的 Adam GPT 则认为，「大模型的 Scaling Laws 和推理时间的优化是两个可以互相增益的维度。」The Information 报道文章的作者同样也表达了类似的看法，「更确切地说，未来似乎是 LLM 与推理模型相结合，推理能力更强，效果更好。」[5]

④ 前 OpenAI 首席科学家 Ilya Sutskever 更加专注「Scaling What」，Scaling Laws 的对象才是关键，重要的是「扩大正确的规模」。Ilya 认为，「大模型的 scaling 只是一种假设，还远不是 law，将采用不同的方式来扩展大模型性能。」据路透社报道，Ilya 的创业公司 SSI 正在尝试一种与 OpenAI 不同的 Scaling 方法。[6]

通过扩展「测试时计算」能否真正解决问题？

1、o1 的推出将传统的 Scaling Laws 范式带向了「Post-Training Scaling Law」，关注点逐渐转向推理层的 Scaling 。o1 在训练时间和测试时推理中应用了「让我们一步一步思考」的思路链（CoT）范式，「思考」时间越长，模型就能解决更复杂的问题。

① 相比于使用 CoT 扩展训练时间，o1 证明了扩展测试时更为重要。据 o1 的技术博客，在 AIME 任务上，准确率和测试时计算呈对数线性关系。简单来说，随着计算指数增加，准确率也会线性上升。

2、「测试时计算（Test-Time Compute）」和「测试时训练（Test-Time Training）」是近期业内关注的两项重点技术。「测试时计算」来自谷歌 DeepMind 和 UC 伯克利的研究者在 2024 年 8 月发布的论文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》，该论文探究了如何通过增加测试时的计算量来提高大型语言模型（LLMs）的性能。[7]

① 研究者基于现有的 RL self-play + MCTS 的方法开发了类似算法，并通过投入额外计算资源改进 LLM 的响应分布和对验证器（verifier）进行搜索的方式分析了 Scaling 模型 Test-Time Compute 对推理能力的影响。

② 该工作在一定程度上证实了用测试时计算来改进模型输出的可行性。在简单和中等难度的问题上，甚至在困难的问题上（取决于预训练和推理工作负载的特定条件），额外的测试时计算通常比预训练更能提升模型能力。但在最具挑战性的问题上，Scaling 测试时计算的好处则非常少，通过额外的预训练计算来取得进展更为有效。

3、近期，MIT 的一篇论文《The Surprising Effectiveness of Test-Time Training for Abstract Reasoning》指出了在推理阶段提升模型性能的另一技术「测试时训练」。该论文研究了测试时训练在提高语言模型（LMs）在抽象和推理语料库（ARC）任务上的性能方面的有效性。[8]

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943282&idx=3&sn=3c9ed8756671e611ef1a9182721175a6

机器之心

专业的人工智能媒体和产业服务平台

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

大模型时代需要什么样的安全水位？火山方舟首度公开「会话无痕」技术细节

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

视觉模型学会LLM独门秘籍「上下文记忆」，迎来智能涌现的大爆发！

国内外六所高校、三家企业的AI人才招聘需求

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

穹彻智能-上交大最新Nature子刊速递：解析深度学习驱动的视触觉动态重建方案

外媒：OpenAI 、Anthropic、谷歌新模型表现均不及预期

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

刚刚，谷歌宣布35岁Keras之父Francois Chollet离职

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

WHALE来了，南大周志华团队做出更强泛化的世界模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉