Scaling Laws推翻？低精度训练才是最优解？堆数据训练竟让模型变差？数据噪声大反而让模型鲁棒性变强.全是新知识点快收藏！

文摘 2024-11-15 18:00 浙江

点击箭头处“蓝色字”，关注更多及时AI资讯哦！！

近些年，AI能力的飞速提升简直可以说和模型的规模及算力正比，人工智能的大部分进步都来自计算能力的提升。而算力的提升则主要依赖于低精度路线的加速(32- > 16 - > 8 位)，模型训练和服务的精度是影响成本和性能的重要因素。当前深度学习趋向于更低精度，如 Llama - 3 系列在 BF16 训练，且有向 FP8 甚至更低精度发展的趋势。

不过，低精度路线可以带来效率的提升无可厚得，但是低精度训练会降低模型的“有效”参数数量，这使得我们可以预测低精度训练和训练后量化所带来的额外损失。换句话说，当我们在较低精度下训练模型时，模型的学习能力实际上受到了限制，这直接影响了模型的最终性能。

不过，近日被疯狂讨论的《Scaling Laws for Precision》的论文表达了不太一样的观点——在低精度下训练更大的模型可能是计算上最优的选择。这一结论可有点颠覆我们对于模型训练的传统理解。我们通常认为更高的精度能够带来更好的模型性能，但这一研究却告诉我们，在某些情况下，降低精度可能是一种更经济高效的方法?

论文标题：Scaling Laws for Precision

论文链接：https://arxiv.org/abs/2411.04330

这一论文引起了OpenAI、CMU教授、UCSD教授等AI领域权威大佬的纷纷转发，论文来自哈佛大学的Tanishq Kumar团队，他们基于研究到的现象提出了一种“精度感知”的扩展法则，涵盖了训练前和训练后，用于预测低精度训练和推理对语言模型质量和成本的影响。对于论文中提到的一些“有趣的现象”，同桌用大白话重点萃取了一下：

对于一个固定的模型，如果在某个点之后继续增加训练数据，那么在推理时的性能可能会因为量化而受到负面影响。
即使不断提高训练精度，模型的性能也不会无限制地提升，当精度提升到一定程度后，其对模型性能的改善效果会逐渐减弱，存在不可约损失。
模型对后训练量化噪声的鲁棒性取决于其在训练时所经历的类似噪声的程度，即训练精度越低，训练噪声越大，模型对后训练量化的鲁棒性相对越强
量化感知训练中，权重精度和参数数量之间存在可替代的关系。而在低精度训练中，量化权重、激活函数和注意力的效果是相互独立且相乘的。

接下里我们来展开聊聊这篇文论的核心观点—低精度训练与推理对语言模型的影响！

后训练量化的扩展法则 (Scaling Laws for Post-Train Quantization)

后训练量化(Post-Training Quantization，PTQ)是一种在模型训练完成之后对模型进行量化的技术，主要目的是在尽量保持模型性能的前提下，减少模型的存储需求和计算量，以便于模型在资源受限的设备上进行部署和高效运行。最大的优点是不需要对模型进行重新训练，大大节省了时间和计算资源。

在不改变模型结构和权重的基础上，通过分析模型训练后得到的参数分布等信息，确定合适的量化参数，如量化的位宽、量化的范围等。例如，对于一个原本使用32位浮点数表示权重的模型，后训练量化可能会将其转换为8位整数来表示。

实验发现随着训练数据量的增加，模型对量化的敏感性增加，导致性能退化。对于一个固定的模型，训练更多的数据在某个点之后可能对量化后的模型在推理时的性能产生负面影响。这可能是因为当训练更多的数据时，更多的知识被压缩成权重，给定的扰动会对模型性能造成更大的损害。

即使是较小的模型，如果使用低精度训练，也可能因为后训练量化而无法保证有效的训练结果。

这张图片展示了四种不同规模的神经网络模型(N = 30M、N = 60M、N = 110M 和 N = 220M)在经过后训练量化(PTQ)前后验证损失的变化情况。第一排图表示的是经过PTQ之后的验证损失Val Loss (Post - Quant)，而下排图表则是相对于训练结束前的验证损失退化程度，也是性能下降程度(Degradation, PTQ)

每个子图都包含了四个不同的量化级别精度(INT6、INT5、INT4 和 INT3)，以及一个未进行PTQ的情况(No PTQ)。横坐标是令牌数与参数数之比(Token/Parameter Ratio)，纵坐标上方为验证损失(Val Loss)，下方为退化度(Degradation)。

从这些图表中可以看出，随着令牌数与参数数之比的增大，经过PTQ处理的模型其验证损失也会随之增加，退化度也呈现出类似的增加趋势。这说明在大规模的数据集上应用PTQ技术可能导致模型性能的显著下降。

量化训练的扩展法则 (Scaling Laws for Quantized Training)

研究了在训练过程中对权重、激活和KV缓存进行量化的影响。发现量化对模型性能的影响可以通过有效参数数量的变化来建模，并且提出了一个扩展法则来预测这些影响。

左图中有四条曲线分别代表权重(Weights)、激活值(Activations)、KV Cache 和 Tied 权重。曲线显示了随着横轴精度的提高，( N_{\text{eff}} / N ) 值逐渐接近1，这意味着更高的精度使得有效参数的数量更接近实际参数的数量。

中间图是经验等损失轮廓线，右图是预测等损失轮廓线。横轴都是表示模型参数数量 ( N ) ，纵轴表示权重量化精度 ( P_w ) 图中的等高线表示在不同 ( N ) 和 ( P_w ) 下的损失值。更深的颜色表示更低的损失值。

在给定的模型参数数量 N 下，权重量化精度 Pw的增加通常会导致损失值的降低，而Pw 固定时，模型参数数量 N 的增加也会使损失值减小。

图中包含三个子图，分别对应三种不同的token数量：3.3B tokens、13.1B tokens和26.2B tokens。每个子图中都的曲线分别代表不同模型尺寸的最终验证损失随训练精度变化的关系，x轴表示训练精度，y轴表示最终验证损失。

可以看出，对于所有模型尺寸，随着训练精度的提高，最终验证损失逐渐降低;较大的模型尺寸(如220M)在低精度时表现出更好的性能，但随着精度的提高，较小的模型尺寸(如30M)也能达到类似的性能;在相同的训练精度下，较大的模型尺寸通常具有较低的最终验证损失。

预训练的含义 (Implications For Pretraining)

随着训练精度的降低，应增加参数数量并减少数据量。这是因为在低精度下有效参数数量减少，为了保持计算效率，需要增加参数以弥补有效参数的不足，同时减少数据量以避免过度训练。

左边柱状图展示了整数型训练精度(INT4 到 INT32)对应的预测验证损失，中间柱状图展示了浮点型训练精度(FP4 到 FP32)对应的最终验证损失。两张图都可以看出，随着模型尺寸的增加，验证损失逐渐降低。

散点图展示了不同模型尺寸和训练精度下的不可约损失(Irreducible Loss)。x轴表示数据集大小，左y轴表示模型精度，右y轴表示不可约损失，颜色越深表示损失度越低。曲线上的不同形状的点代表不同的模型尺寸，分别包含Llama-3的8B(圆形) 70B(三角形) 405B(星型)大小的模型。展示了不同模型尺寸(N=8B、70B、405B)在不同数据集大小(D)下的最优精度 P∗(D)。

通过拟合缩放定律，研究发现计算最优预训练精度约为 7 比特。这意味着当前通常使用的 BF16(16 比特)训练可能不是最优的，因为 16 比特存在过多不必要的比特;同时，追求低于 4 比特的训练精度可能也不是一个好的选择，因为这将需要不成比例地增加模型大小才能维持损失缩放。

统一的精度扩展法则 (A Unified Scaling Law for Precision)

鲁棒化效应：当模型在低精度下训练权重、激活或注意力时，它会逐渐适应这种 “量化噪声”，从而在后续的后训练量化过程中，对量化带来的影响表现出更强的鲁棒性。也就是说，模型在训练时所经历的低精度环境，使得它在面对后训练量化时，能够更好地保持性能，不会因为量化而导致性能大幅下降。

模型对后训练量化噪声的鲁棒性取决于其在训练时所经历的类似噪声的程度，即训练精度越低，训练噪声越大，模型对后训练量化的鲁棒性相对越强

过训练效应：低精度训练会使模型的有效参数数量减少，这一点在前面的研究中已经有所体现。根据之前的公式和结论，我们知道有效参数数量的减少会导致后训练量化时性能下降加剧，因为模型在训练过程中可利用的有效信息相对减少。在实际情况中，这两种效应是同时存在且相互竞争的，不过通常鲁棒化效应会占据主导地位，使得低精度训练的模型在进行后训练量化后，总体性能下降相对较少。

综合考虑低精度训练对预训练的影响以及后训练量化的降解，作者得到了预测语言模型损失的统一缩放定律：

总结

低精度训练和推理是一个双刃剑，它既能够帮助我们降低成本，也可能影响模型的性能。因此，多了解了解这一过程以确保在追求效率的同时，不会牺牲模型的质量和效果，对我们挖掘大模型的能力是很有必要的。一下是基于研究得到的一些实战中的启示：

1. 模型复杂度与性能的平衡：不同大小的模型都有各自对应的不可约损失，这意味着在选择模型大小时，不能一味地追求大规模模型。大规模模型虽然可能在一定程度上具有更好的性能表现，但同时也会面临更大的不可约损失以及更高的计算成本等问题。因此，需要在模型复杂度和性能之间找到一个平衡，根据具体的任务和需求选择合适大小的模型，以达到最优的性价比。

2. 数据和模型架构的重要性：不可约损失的存在也暗示了数据质量和模型架构对模型性能的重要性。如果数据存在噪声、偏差或不完整性，可能会导致不可约损失增大，即使提高精度也难以弥补。同样，不合理的模型架构可能无法充分挖掘数据中的信息，从而限制了模型的性能。因此，在训练模型时，需要注重数据的预处理和模型架构的设计，以降低不可约损失，提高模型的性能上限。

3. 对预训练策略的启示：研究结果表明，在预训练过程中，精度、参数和数据之间存在着微妙的权衡关系。例如，在低精度训练时，为了保持计算成本不变，应适当增加参数数量并减少数据量，以弥补低精度下有效参数的减少。同时，计算最优预训练精度通常约为 7 比特，这一发现对当前常见的训练精度选择具有重要的参考价值，提示我们在实际训练中应避免使用过高或过低的精度，以实现更高效的预训练。

众所周知，任何的研究结论都存在“前提条件”，本次的研究结论是建立在以下限制基础上：

1. 架构固定的局限性：实验中使用了固定的模型架构，这限制了研究结果在不同架构模型上的通用性。实际上，不同的架构可能对精度、参数和数据的敏感度不同，因此在更广泛的架构范围内，这些缩放定律的适用性可能会有所变化。未来的研究需要进一步探索在不同架构下这些定律的表现，以更全面地理解和应用精度缩放定律。

2. 计算成本估计的偏差：虽然理论上计算成本随精度线性缩放，但在实际系统中，由于存在各种系统开销，如数据传输、存储管理等，实际的计算增益往往小于理论值。这意味着在实际应用中，仅仅依据理论上的计算成本来选择精度和调整训练策略可能不够准确，需要更细致地考虑实际系统的特点和限制，以实现更有效的资源利用和性能优化。

3. 下游任务评估的缺失：本文主要关注模型的预训练损失和量化性能，未对下游任务进行全面评估。然而，模型的最终价值往往体现在其在各种下游任务上的表现，因此，目前的研究结果不能直接反映精度缩放定律对下游任务性能的影响。未来的工作需要进一步研究在不同下游任务中，精度、参数和数据的权衡关系如何影响模型的实际效果，以更全面地评估和优化模型的性能。

实际生产中，我们应该考虑实际系统在各种具体任务场景下的各种因素，如硬件特性、并行计算能力等，更精确地估计和优化计算成本，从而制定更符合实际情况的精度选择策略。同时，研究如何通过系统级的优化，如数据并行、模型并行等技术，进一步提高低精度训练和推理的效率。不脱离场景打无用之仗!

扫码关注更多AI知识

同桌给你的AI小纸条

同桌的AI小纸条

一个专注于将先进的AI人工智能技术融入日常生活的频道。关注让AI为我们所用，探索人工智能领域的无限可能，并征服他们，让AI赋能生活快乐每一天！

揭秘AI时代的'黄金矿场',挖掘灵感和需求的'秘密武器'——Reddit如何成为AI时代的"潘多拉魔盒"！这矿我们又该怎么挖？

全网最全海内外AI图像生成大模型一览！生成速度、风格支持、角色控制、成本、使用方式等全方位对比!分分钟get属于你的图片大模型！

2025年AI大模型白话科普文第一弹，必然是国产开源之光DeepSeek-V3！多个基准测试中比肩世界顶尖闭源模型！

Anthropic、LangChain发来年终汇报！2024人工智能应用全景报告！如何构建有效的Agent和Workflow

圣诞特辑！OpenAI近期动作大盘点！一文get领头军OpenAI全套战略布局！多模态、端侧布局、用户体验、开发者生态..AGI

Google推出Gemini 2.0：迈向多模态与代理体验新篇章！探索人机协作新方式，赋能开发技术平权！AI Studio新体验

对抗AI奖励黑客，揭秘模型训练隐秘角落！离开OpenAI后Lilian Weng重磅回归技术分享！大白话解读，看模型如何“谄媚”

近期AI研究精华：战略性链式思维链提升LLM性能；噪声对LLM竟有正向作用？COF助力构建高质量长文本问答，长上下文强过RAG？

Anthropic定义MCP规范，整治LLM数据源接入混乱现状，打通Agent构建最后一公里！“信息孤岛”终打破，定制化接入翻篇

AI Agent代理技术栈的创新实践-2024最新洞察！从0到1构建自己的AI Agent智能代理，最强选型，看这一篇就够了！

OpenAI O1背后的COT意味着什么？模型的发展是否迎来了新的范式？AGI会加速到来么？思维链又带来了哪些新的机遇与挑战？

Scaling Laws推翻？低精度训练才是最优解？堆数据训练竟让模型变差？数据噪声大反而让模型鲁棒性变强.全是新知识点快收藏！

如何制作高质量的AI Agent？读了20+篇文章，提炼出prompt高级技巧大全，预置模板直接拿来用！唤醒大模型深度能力还省钱

本地部署大模型被环境搞疯？免费云服务器一键部署Dify构建Agent！OpenAI、千问..各家模型随便接！谁还在氪金玩大模型？

不用买卡！本地电脑CPU也能运行大模型！笔记本也能分分钟本地玩转LLM文生图！大模型入门本地环境打通（踩坑）指南，看着一篇就够了

10分钟完成文字转播客音频Agent！解析Google爆火Notebooklm背后的技术与逻辑！个人版播客生成智能体，你值得拥有

Google的NotebookLM爆火，一键生成超逼真双人对话播客！AI改革的春风终于席卷了播客！功能实测+开源版本部署看这篇！

终于可以在本地玩大模型了！Docker+Ollama+Dify，分分钟带你构建Llama模型本地服务，CPU也能玩的大模型教程！

字节跳动大消息！一口气两款视频模型，迎战Sora！豆包通用大模型pro全面升级！音乐生成模型、同声传译模型终于来了！

AI视频生成模型及工具最全收录！开源工具箱和基础模型、视频生成、可控视频生成、动作定制、长视频生成、图像泄漏优化模型..速查指南

不用前端知识，也能快速创建交互友好的机器学习模型Web界面！Gradio快速入门—LLM应用开发与落地，前端与大模型的齐头并进

OpenAI发布史上最强模型o1！认知大幅升级，学会人类“深思熟虑”！传说中的“草莓”大揭秘，拥有思维链的推理领域神级模型！

AI Agent、低代码、模块化AI开发工具Top级选手深度对比，Dify vs LangChain！一文搞清二者差异与如何选择

8岁女孩也能码出聊天机器人？Midjourney、Perplexity、OpenAI...都在用的AI编程神器-Cursor！

N号房2.0事件再现，全球女性恐慌！她决定开源AI模型对抗Deepfake，正面宣战性犯罪黑势力，守护技术正义，用AI打败AI！

当一站式Agent平台配置已经无法满足我...Dify小白入门攻略！在线/本地部署+应用发布，一条龙弄清楚！知识库这回给你说明白

0基础能写代码，程序员从此1打10！全网最全AI编程工具盘点！免费+中文友好，终于科技平权！人手一份的AI时代编程法宝你不能错过

AI Agent真实发展现状总结！智能体真的是未来？各家公司如何落地？OpenAI、英伟达、谷歌如何布局？智能体设备即将走入生活

LLM+Transformer可视化Top工具组合图解！深入剖析大模型流程细节，分分钟把LLM这“黑盒子”背后智能的奥秘拿捏！

敢不敢跟我一起，15分钟预训练数据到模型训练全流程跑通！概念看了万万千，一到动手就蒙圈！看完这个流程绝对懂了！学AI怎么能错过？

AI领域掌管专业术语到白话解释的神级百科全书！全网最全&最好懂的人工智能术语大全！500+高频术语收录、宝藏速查字典！错过就亏了

模型微调过程中微调数据、偏好数据、预训练数据、测评数据...都是什么意思？有什么差别？数据集里找？如何构造？写完这一篇我真的悟了

自立门户！StableDiffusion原班人马携黑森林实验室强势来袭！最强文生图模型FLUX.1硬核空降开源社区，MJ压力山大

LangChain全新Agent可视化工作流！你不能错过的LangChain科普！与LlamaIndex差别在哪儿？咱都要学吗？

看了那么久RAG还是调不明白？万字长文给你讲透RAG问题与优化策略！掌握Agent必备技能！AI学习你不能错过的RAG最全科普！

OpenAI上新招！规则奖励 (RBR) 方法驱动大模型，再也不怕政策变化？模型训练终于摆脱人工大量数据收集？人工与智能的联手！

RAG vs Fine-tuning模型微调，你真的懂了么？哪个是LLM优化最优解？有什么快速判断方式？新手进村到底该先学哪个？

Meta再出大招，Llama 3.1 官方正式发布！与当下最强的 GPT-4 、Claude 3.5 旗鼓相当，还是开源可商用！

敢不敢跟我一起搭建一个Agent！不写一行代码，10分钟搞出你的智能体！纯配置也能真正掌握AI最有潜力的技术？AI圈内人必备技能

Agent终于能主动进化？揭秘首个让AI自我进化的训练框架！突破人类专家局限，告别手动调优！端到端符号化框架如何引领AI自我革命

一文看OpenAI近期大事：发布证明验证者游戏提高模型准确性、发布对话偏好优于4o的GPT-4o mini、合作新型 AI 芯片

打破Prompt提示词的“玄学”，从此大模型回答不再抽盲盒！解放提示词工程师不是梦！北大百川联推-PAS系统！LLM的王炸助手

0编码也能搞AI大模型！Agent算外力，模型真内功！领域AI服务与模型开发平台差别？绝对不能错过的热门模型服务与训练平台盘点！

最全盘点！国内外最高人气AI视频制作神器-文生视频、图变动画。数字叙事AI新时代！作为AI人士不能不掌握的视频创作最新工具发展！

大模型通向AGI最大的风险是数据？2026年真的会数据枯竭么？中美开源数据现状差异？一图看懂AI时代数据饥荒的应对策略与核心技术

AI领域这些混淆概念，你也懵了么？机器学习vs深度学习、有监督vs无监督、预训练vs微调、算法vs模型...一文说清，从此明朗！

OpenAI都做不下去的GPTs，为何国内如此火热？盘点国内一站式Agent搭建平台，一文说清差别！大家都在用Agent做什么？

WAIC 2024 世界人工智能大会，各家AI巨头公司的老板们怎么说？跟着AI领头大咖视角，一起看人工智能的未来！

科班出品的智能体Agents，都是怎么玩的？AI热门场景全覆盖！创作、PPT、搜索、翻译、绘画视频数字人...总有一款您用得到！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉