首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Scaling Law或将终结？哈佛MIT预警：低精度量化已无路可走，重磅研究掀翻AI圈

科技 2024-11-17 12:22 北京

新智元报道

编辑：桃子 LRS

【新智元导读】哈佛斯坦福MIT等机构首次提出「精度感知」scaling law，揭示了精度、参数规模、数据量之间的统一关系。数据量增加，模型对量化精度要求随之提高，这预示着AI领域低精度加速的时代即将结束！

就连「量化」也不管用，scaling law真的要终结了吗？

一提scaling law，人们重点关注的是参数规模、数据量等因素，却忽视了「精度」这一关键变量。

哈佛斯坦福MIT等机构研究人员竟发现，低精度训练会降低模型的「有效参数量」！

对此，他们提出了「精度感知（precision-aware）」scaling law。

论文地址：https://arxiv.org/pdf/2411.04330

对于推理过程来说，训练数据越多，量化带来的性能损失越大。

就训练来说，「精度感知」scaling law能够预测不同部分采用不同精度的模型的损失。在某些情况下，用低精度训练LLM可能更有效率。

论文中，作者统一了训练后和预训练量化的scaling law，建立了一个完整的理论框架。

这个单一函数形式可以预测在不同精度下进行训练和推理时的性能降级。

基于465次以上的预训练实验，在最大1.7B参数，训练数据量达到26B token的模型上验证了最新的预测。

艾伦研究所科学家Tim Dettmers对此评价道，这是很长时间以来，最重要的一篇论文。它以强有力的证据表明我们正在接近「量化」的极限。

「论文直接指出：训练所需的token越多，所需的精度就越高，这对整个领域和GPU的未来都有广泛的影响」。

就连AI大牛Karpathy也转发了这个帖子。

图中可以看到，对于20Btoken训练，8B模型在16位精度下更有效，70B模型，8位仍然可行，但效率已经开始降低。注：8B模型（圆形）、70B模型（三角形）、405B模型（星形）

OpenAI研究员Clive Chan表示，拥抱scaling law，看看最先进的量化方案（mxfp，Pw≠Pkv≠Pa等）如何推进前沿将会很有趣。另外，我个人认为，值得花费一半的计算预算来进行一次大规模运行，以验证这个拟合是否适用于大模型。

可以说，AI领域的大多数进展，都来自计算能力的提升，这主要依赖于低精度加速（从32位到16位再到8位）。

但这种趋势现在正接近尾声。

加上物理限制，这造就了scale终结的「完美风暴」。

LLM正接近「量化」scale极限

毋庸置疑，scale早已成为业界公认的深度学习核心驱动力。

2020年OpenAI团队，以及2022年DeepMind团队在scaling law的论文中，研究了模型/数据集大小之间的权衡，以平衡性能和计算。

然而，模型训练和推理时使用的精度，是影响成本和性能的重要「第三因素」。

深度学习正在向低精度发展：当前的前沿模型（如Llama-3）使用BF16训练，并且普遍努力将预训练范式转向FP8。

下一代硬件将支持FP4，而仅权重量化的进展已导致大规模二进制和三进制训练。

这些范式能走多远？

具体来说，论文作者提出了以下问题：

精度、参数、数据三者之间如何权衡？
它们在预训练和推理阶段各有什么区别？

其实，研究精度scaling具有挑战性，因为scaling law的研究通常旨在放弃细节性的实现细节，追求普遍的函数形式，而量化研究通常相反，专注于细节：如何进行量化，使用什么类型，应用于模型的哪些部分。

为了实现这一点，研究人员考虑了各种合理的函数形式，并选择了一个将量化实施细节与损失scaling「分离」的形式，由此能够在许多实际情况下预测损失scaling。

总的来说，作者研究了在训练期间和之后，随着数据和参数的变化，精度对损失的影响如何扩展。

研究发现了，在后训练量化的影响：量化导致的性能降级，随数据量增加而增加。对于固定模型，超过某个点后继续训练可能有害，这种影响在模型后期量化时特别明显。

针对预训练精度的最优选择，计算最优的预训练精度，通常独立于计算预算，但当模型大小受限时，这种独立性不再成立。在这种情况下，最优精度随计算量缓慢增长。

对于N个参数的语言模型，在D个token上进行训练，训练精度为P_train ，训练后权重精度为 P_post ，最终研究人员找到了一个统一的scaling law：

其中，A、B、E、α、β是正拟合常数，δ_PTQ是指推理前训练后量化引起的损失退化

Tim Dettmers在长文中表示，英伟达Blackwell将通过硬件层面实现的块级量化来提供出色的8位计算能力。这将使8位训练变得像从FP16切换到BF16一样简单。

然而，从这篇论文可以看出，未来还需要超过8位的精度来训练许多模型。

相较于其他模型，运行Llama 405B进行推理是一个巨大的挑战。但论文表明，中等参数规模模型（如70B）也难以在低精度下高效训练。

从Dettmers的个人经验（很多失败的研究）来看，你无法欺骗效率。

如果量化失败，那么稀疏化也会失败，其他效率提升机制也是如此。如果这是真的，我们现在已接近最优解。在这种情况下，他只看到三条前进的道路...

(1) scaling数据中心：这还能继续scaling约2年。

(2) 动态scaling：转向更小的专业化模型或更大/更小的模型。

(3) 知识蒸馏：蒸馏的行为与其他技术不同，可能具有不同的特性。

所有这些意味着范式将很快从「scaling」转向「如何利用现有资源」。Dettmers认为「如何帮助人们通过AI提高生产力」这种思维方式是最好的前进方向。这种思维方式更关注流程和人，而不是技术本身。

训练后量化Scaling Law

最简单，也是最常见的量化技术就是将现成的模型进行训练后量化处理（post-train quantize）。

研究人员首先使用BF16格式训练的模型，并采用GPTQ技术来进行训练后的量化处理，结果发现训练后的量化在数据扩展性方面表现不佳。

模型在训练后量化以及与训练结束时相比，出现了性能退化。

可以发现，随着训练数据量的增加，所有尺寸模型的性能退化δPTQ都在增加；但对于固定的数据集，更大尺寸的模型性能退化更小。

上述公式中，CT、γD、γN、γpost是正的拟合常数；当token与参数的比例D/N足够大，或者量化后的精度Ppost足够低时，模型在预训练时间延长后，量化带来的损失可能会增加，

还可以观察到，当降低量化精度时，δPTQ呈指数增长。

从直觉上来说，如果在更多数据上训练，模型会将更多信息压缩到权重中，即量化权重的扰动对损失的影响更大。

发现1：如果想将模型进行训练后量化，存在某一个预训练数据量，如果超过这个值，再添加额外的数据会对推理时的性能产生负面影响。

量化训练Scaling Law

研究人员探索了如何在训练阶段调整模型处理数据的精度，包括模型的权重、激活值和KV缓存，测试了3位到12位的不同精度设置，并与BF16高精度基准进行比较。

量化训练

研究人员在保持激活值（Pa）和KV缓存（Pkv）的精度固定在较高水平的情况下，考察了权重精度（Pw）与参数量（N）之间的权衡，其中设定D = 13B个token，并在N和Pw的不同组合上进行了网格扫描。

等损失轮廓图显示，一个「参数量较少但权重精度较高」的模型可以达到与「参数量较多但权重精度较低」的模型相同的损失。

此外，提高权重的位精度在低位精度时收益较大，但在较高精度时（每个权重6-7位）会趋于饱和。

根据经验趋势，研究人员总结了权重精度和参数之间的最佳权衡模型：

其中γw是一个拟合常数，用于衡量模型权重的敏感度；A、B、E、α、β是Chinchilla规模法则中的拟合正数常数。

低精度训练

研究人员想要测试，在低精度训练中，对模型的权重、激活值和注意力进行量化的影响是否相互叠加，即不同组件的量化效果可能会相互作用，产生更复杂的影响。

通过对比「边际拟合常数」模型和「联合拟合常数」模型的预测能力，来测试这种独立性是否大致成立。

结果显示，这两种拟合常数的方法具有大致相同的预测能力，即独立性假设是合理的。

发现2：在训练期间对权重、激活值和KV缓存进行量化的效果，可以被建模为独立且相乘的，因此损失函数可以表示为：

研究人员对常数γw、γa、γkv进行拟合，如果三个精度都设置为相同的值P，与预训练相同，可以简化为下式子，其中γ̄是三个参数的平均值。

对预训练的影响

当模型以精度P进行训练时，意味着权重、激活值和KV缓存的精度都等于P，即 Pw = Pa = Pkv = P，计算成本与P成正比；

研究人员在16位精度下进行了实验，并使用成本模型C = 6ND FLOPs，考虑到计算与精度之间的线性关系，将模型进一步推广泛化：当P = 16时，简化为Chinchilla成本函数。

可以注意到，无论实验的规模如何，函数形式的含义都是正确的，但预测的数值取决于拟合的常数，其中常数通常是基于小规模、整型实验拟合的。

1、如果必须在低精度下训练，先增加参数量再增加数据

在低精度训练时，有效的参数量会大大减少，因此增加参数量可以更有效地利用有限的计算资源，因为数据量相对于有效参数来说已经过剩了。

2、计算最优的预训练精度通常与计算预算无关

在没有对参数N、数据D和精度P的限制，只有固定计算预算的情况下进行预训练，研究人员的目标是联合最小化损失函数L(N, D, P)，其中C与NDP成正比，并最终得到了一个关于最优精度P*(C)的隐式方程。

结果发现，当在整数类型的量化运行中拟合扩展法则时，P*大约是7位，也意味着在BF16中训练模型的实际操作可能是次优的，并且向低精度训练的竞争需要在低于4位之前停止，可能会迫使模型尺寸不成比例地（超过4倍）增大，从而保持住损失。

3、如果模型尺寸受限，计算最优的预训练精度可以增加

研究人员在探讨如何在有限的计算资源下，针对不同大小的智能体进行训练时，并发现了一个有趣的现象：

不同尺寸的模型并不一定需要在相同的数值精度下训练，实际上，最优的数值精度会随着计算资源的增加而增加，而且这种增加与计算资源的对数成正比。

也就意味着，如果保持模型尺寸不变，只调整数据量和数值精度，那么可以根据数据量和智能体大小的比例来调整最优的数值精度，能够更有效地利用有限的计算资源，通过减少数据量与有效参数数量的比例，使智能体的训练效果更接近理想的状态。

发现3：当N（模型大小）、D（数据量）和P（精度）一起优化时，计算最优的预训练精度与计算资源无关。16位精度包含了许多不必要的位，而4位精度则需要不成比例地增加模型尺寸以保持损失值。

拟合结果表明，7到8位是计算最优的精度。相比之下，当N预先固定，例如在相似数据上训练一系列模型时，P*(C)与C的对数成正比，也表明，对于被显著过训的模型，训练时使用更高的精度可能是计算上最优的选择。

统一精度Scaling Law

研究人员将之前提出的两个扩展法则合并成统一的函数形式，可以预测训练和训练后量化的影响，包括两者之间的相互作用。

研究人员发现，在预测δPTQ时有两种竞争效应，但总体而言，以较低精度训练的模型对训练后量化更为健壮，即遭受的退化较小。

直观上，以低精度训练Pw、Pa或Pkv会迫使模型学习对「量化噪声」有鲁棒性的权重，因此在PTQ下的退化较小。

然而，以低精度训练的模型的有效参数数量Neff减少，导致token量与参数量的比值增加，会导致退化更多，也可以称之为「过训效应」。

修改δPTQ以考虑训练精度

假设训练精度严格大于推理精度，如果相等则退化为零，研究人员先探索了仅在训练期间以权重精度Pw变化时的退化表现。

可以观察到，如果训练和推理时精度之间有差距，退化会非常迅速地增加到指数大值，可以将拟合的初始函数形式修改为：

并可以扩展到包含注意力机制的精度效应：

可解释的统一函数形式

研究人员考虑仅以低精度训练权重，并将Cw = 1作为示例，以便简化上式，可以反映出由于低精度训练权重而降低的有效参数量：

该公式能够清晰地反映了模型对PTQ噪声的鲁棒化程度，与在类似噪声下的训练程度相匹配。

发现4（统一扩展法则）：将预训练期间的低精度效应建模为独立且相乘的噪声累积，并包括训练后量化退化，可以预测具有N个参数的语言模型，在D个token上训练，以训练精度Pw、Pa、Pkv，最终达到权重精度Ppost时的损失为：

局限性

论文作者指出，当前研究还存在几个限制：

在实验过程中，使用了固定的模型架构和设置，但在实践中，经常会专门进行架构调整以适应低精度训练。

此外，作者还在相对较小的语言模型（最大约250M参数）上拟合了scaling law，未能覆盖超大规模模型情况。

下一步，研究人员将在更大规模模型上继续研究这一效果。

论文作者

本篇论文核心贡献作者是Tanishq Kumar和Zachary Ankner。

Tanishq Kumar

Tanishq是哈佛大学数学专业的大四学生，研究机器学习理论和计算神经科学。他最感兴趣的是将理论工具应用于深度学习中鲜为人知的经验主义谜题。

Zachary Ankner

Zachary Ankner是麻省理工学院的三年级本科生，目前学习计算机科学和数学。他的研究旨在通过对简单建模变化的深入实证调查来改进LLM。

参考资料：

https://the-decoder.com/scaling-laws-for-precision-ai-researcher-sees-perfect-storm-for-the-end-of-scale/

https://x.com/Tim_Dettmers/status/1856338240099221674

https://arxiv.org/pdf/2411.04330

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652540967&idx=1&sn=a48f72584da20529d5422d5133ea23b7

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘

招人！新智元邀你勇闯ASI之巅

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

招人！新智元邀你勇闯ASI之巅

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

揭示Transformer「周期建模」缺陷！北大提出新型神经网络FAN，填补周期性特征建模能力缺陷

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

招人！新智元邀你勇闯ASI之巅

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

招人！新智元邀你勇闯ASI之巅

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

扩散模型=进化算法！生物学大佬用数学揭示本质

招人！新智元邀你勇闯ASI之巅

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

招人！新智元邀你勇闯ASI之巅

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

招人！新智元邀你勇闯ASI之巅

全面进攻谷歌！OpenAI被曝打造浏览器，已挖Chrome创始大牛

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

RAG没有银弹！四级难度，最新综述覆盖数据集、解决方案，教你「LLM+外部数据」的正确使用姿势

招人！新智元邀你勇闯ASI之巅

OpenAI看好的方向，文心智能体技术抢先爆发！

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

招人！新智元邀你勇闯ASI之巅

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉