GPT-5涌现能力可预测？UC伯克利仅使用当前模型检查点预测未来模型

科技 2024-11-30 12:53 北京

机器之心报道

机器之心编辑部‍‍‍‍‍‍‍‍

LLM 规模扩展的一个根本性挑战是缺乏对涌现能力的理解。特别是，语言模型预训练损失是高度可预测的。然而，下游能力的可预测性要差得多，有时甚至会出现涌现跳跃（emergent jump），这使得预测未来模型的能力变得具有挑战性。

最近，来自加州大学伯克利分校（UC 伯克利）的研究团队提出涌现预测的任务：是否可以仅通过使用 GPT-N 模型的检查点（即当前模型的状态）来预测 GPT-N+1（未来模型）是否会出现涌现能力？并在论文《Predicting Emergent Capabilities by Finetuning》中给出了答案。

论文标题：Predicting Emergent Capabilities by Finetuning
论文地址：https://arxiv.org/pdf/2411.16035

值得注意的是，这篇论文的作者包括强化学习大牛 Sergey Levine。

该研究拟合了一个参数函数 —— 涌现定律，模拟了涌现点如何随数据量的变化而变化。

为了进行验证，该研究使用四个标准 NLP 基准 ——MMLU、GSM8K、CommonsenseQA 和 CoLA。通过仅使用小规模 LLM 来拟合涌现定律，该研究能够准确预测涌现点。

最后，该研究提出了两个实际的涌现案例研究，表明该研究提出的涌现定律可用于预测更复杂的能力。

思维链提出者 Jason Wei 称赞：「这是一篇非常聪明的论文，可以预测预训练模型的下游性能，非常有价值。因为可以使用它来预测和证明对下一个大模型训练运行的资本投资的合理性。」

论文介绍

作者首先提出了涌现预测，并将涌现预测定义为仅使用涌现前的模型检查点，来识别发生涌现的扩展点的问题。

简单理解就是，对于给定的 LLM，其在特定任务上具有随机少样本准确率，我们能否预测这个 LLM 在哪个扩展点（例如，预训练损失）上性能将超越随机表现？

带着这一疑问，作者发现了这样一个见解：在给定的任务上微调 LLM，可以将涌现发生的临界点向着能力较低的模型移动，这意味着，通过微调，模型在涌现能力出现的时间点可以提前，这对于理解模型扩展和能力跃升的过程非常重要。微调所使用的数据量，会调节这种临界点移动的幅度。

图 3（左）绘制了每个模型在 GSM8K 和 MMLU 上的少样本和微调性能与预训练损失的关系。可以看到，微调后的模型遵循与少样本设置类似的 ReLU 形状。此外，在相同的预训练损失下，所有模型大小的转变都是一致的，这表明预训练损失可以作为少样本和微调设置中有效的独立变量。

作者还发现出现涌现偏移受微调数据量的影响。图 3（右）绘制了 3B 模型检查点在完整数据子集上进行微调后的性能。在 MMLU 和 GSM8K 上，随着微调数据量的增加，涌现点进一步向能力较弱的 LLM 偏移。因此，微调数据量可以调节涌现偏移。

为了将这一洞察付诸实践，作者针对不同数量的数据对 LLM 进行了微调，并拟合了一个参数函数（即涌现定律），该函数模拟了涌现点如何随数据量的变化而变化。

然后，根据这一发现可以推断出在少样本设置中关于涌现的预测。

作者利用四个标准 NLP 基准来验证涌现定律，结果发现涌现定律可以提前准确预测涌现点，最多可提前 4 倍 FLOP。

接下来作者进行了这样一个实验，就预训练 FLOPS 而言，可以提前多久成功做出预测。结果发现，可以提前预测涌现的程度在某种程度上取决于任务。

在 MMLU 和 GSM8K 上，可以分别提前最多 4.3 倍和 3.9 倍的 FLOPS 涌现出现。然而，在 CommonsenseQA 和 CoLA 上，分别只能提前预测 1.9 倍和 2.3 倍。

最后，作者还进行了真实世界的案例研究：1）低成本评估预训练数据质量（左）。2）使用困难 APPS 编码基准预测更复杂的能力，更接近未来前沿模型的能力（右）。

感兴趣的读者可以阅读论文原文，了解更多研究内容。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650945019&idx=4&sn=329d5192b6e82a33bac9ed92421503b1

机器之心

专业的人工智能媒体和产业服务平台

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

Ilya 「Scaling What」的答案会是程序性知识吗？

关于计算机视觉中的自回归模型，这篇综述一网打尽了

ChatGPT 发布后这两年，该关注什么？机器之心打包了24个主题350多篇高质量文章

三名高中生，为近百年的分形定理带来了新证明

陶哲轩：通义千问QwQ奥数真厉害，开源大模型顶流

GPT-5涌现能力可预测？UC伯克利仅使用当前模型检查点预测未来模型

多模态慢思考：分解原子步骤以解决复杂数学推理

「瞄准」o1：国内大模型厂商的技术思路有何不同？过度推理成通病？

AI现场发了2万红包，打开了大模型Act时代

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

斯坦福吴佳俊扩散自蒸馏来了！突破文生图身份保留挑战

算法系统协同优化，vivo与港中文推出BlueLM-V-3B，手机秒变多模态AI专家

上百万智能体在OASIS模拟平台上玩推特，AI玩社交媒体和真人有多像？

向量数据库的中场战事：长期主义者Zilliz如何全球突围

世界首次！智源研究院实现数字孪生心脏电功能超实时仿真

rebuttal真的有用！这篇ICLR论文，所有审稿人都加了2分，直接跃升排名第9

12%计算量就能媲美原模型，Adobe、罗切斯特大学等提出YOPO剪枝技术

LLM破局泛化诊断难题，MSSP刊登北航PHM实验室健康管理大模型交叉研究

刚刚，Ilya的Seq2Seq、Ian的GAN获NeurIPS时间检验奖

Scaling Law 撞墙？复旦团队大模型推理新思路：Two-Player架构打破自我反思瓶颈

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

遗憾不？原来百度2017年就研究过Scaling Law，连Anthropic CEO灵感都来自百度

HuggingFace工程师亲授：如何在Transformer中实现最好的位置编码

跨模态大升级！少量数据高效微调，LLM教会CLIP玩转复杂文本

Sora就这么泄露了三小时，网友调侃Altman急拔网线，艺术家们也在抗议被「白嫖」

创业一年半，胖了30斤，AI大佬感叹：还是回谷歌好

吴恩达出手，开源最新Python包，一个接口调用OpenAI等模型

陈天奇团队LLM结构化生成新引擎XGrammar：百倍加速、近零开销

「毕昇一号」DNA活字存储喷墨打印机来了，低成本、高效率、全自动的DNA存储

撞墙还是新起点？自回归模型在图像领域展现出Scaling潜力

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

更新了！带Agent的Cursor太疯狂了

小学二年级数学水平，跟着这篇博客也能理解LLM运行原理

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模型了

智能体竟能自行组建通信网络，还能自创协议提升通信效率

AI版周扒皮！打字速度慢、鼠标超30秒未动，就被AI「警告」，Karpathy下场评论

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉