1-bit大模型还能再突破！新一代BitNet架构启用4位激活值

科技 2024-12-06 10:04 吉林

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。
转载自 | 新智元
编辑 | alan

量化到1 bit的LLM还能再突破？

这次，他们对激活值下手了！

近日，BitNet系列的原班人马推出了新一代架构：BitNet a4.8，为1 bit大模型启用了4位激活值：

论文地址：https://arxiv.org/pdf/2411.04965

众所周知，激活值量化通常是比较难办的。

本次的BitNet a4.8采用混合量化和稀疏化策略，来减轻异常通道引入的量化误差。

简单来说就是，对注意力层和FFN层的输入采用4位量化，同时用8位整数稀疏化中间状态。

大量实验表明，BitNet a4.8在相同的训练成本下，实现了与前代BitNet b1.58相当的性能，同时因为可以吃到4位（INT4/FP4）内核的计算红利，实现了更快的推理速度。

BitNet a4.8仅激活55%的参数，并支持3 bit KV cache，进一步提升了大规模LLM部署和推理的效率。

BitNet a4.8

模型架构

模型的整体架构如图1所示，BitNet a4.8采用了与BitNet b1.58相同的布局。

作者使用BitLinear替换注意力（MHA）和前馈网络（FFN）中的线性投影，以从头开始学习1.58 bit权重。对于激活值，采用混合量化和稀疏化策略来减轻异常值维度引入的误差。

图2说明了模型大小为7B的BitNet b1.58中，每个模块输入的分布。

注意力层和FFN层的输入通常类似高斯分布，而在FFN下采样之前的激活值和注意力中的输出投影中，发现了很多异常值通道和大量接近零的条目（全精度LLM也有类似观察结果）。

如图3所示，直接将低位量化应用于这些中间状态会引入很大的量化误差。

因此，作者使用Q-Sparse的稀疏化方法，将这些中间状态保持在8位（同时消除了计算瓶颈）。

对于自注意层的输出投影，使用sparsify-then-quantize函数：

两个Q分别表示权重W和激活X的量化函数，M是掩码，根据激活X的绝对值取topK，⊙是元素乘法。

具体来说，权重量化和激活值量化函数可以表述为：

对于FFN，这里采用squared ReLU和门控线性单元（GLU）来进一步提高激活的稀疏性：

根据初步实验的结果，使用squared ReLU时，下采样输入的稀疏性超过了80%，且对性能的影响最小。

此外，作者还观察到gate + squared ReLU的输出也表现出高激活稀疏性（7B模型为67.5%）。通过首先计算gate projection，然后仅在非零通道上执行up projection，可以进一步减少推理的计算量。

相比之下，attention和FFN的输入中包含的异常值特征要少得多，可以使用absmean函数将激活值量化为4位整数：

模型训练

初始化

BitNet a4.8使用BitNet b1.58的权重开始训练，分为W1.58A8与W1.58A4两阶段。

第一阶段使用8位激活和GLU + squared ReLU训练模型；第二阶段采用上面介绍过的混合量化和稀疏化。

BitNet a4.8只需少量训练，即可快速适应4bit位宽和稀疏激活，同时性能损失可以忽略不计。

梯度近似

作者使用直通估计器（STE）对BitNet a4.8进行梯度逼近，使用混合精度训练来更新参数。

这里直接绕过了不可微函数，包括反向传播过程中的量化函数和topK稀疏函数。对于混合精度训练，保持全精度latent weight来累积参数更新。

模型量化

浮点量化提供了比基于整数的量化更宽的动态范围，这对于处理激活值的长尾分布至关重要。

研究人员将FFN下采样层的输入保留为8位整数，其他激活值使用MinMax量化器量化为FP4：

公式中E和M分别表示指数和尾数部分的位宽。这里采用E2M1格式，因为它的动态范围更大。

实验

本文将BitNet a4.8、BitNet b1.58，以及各种参数量大小的FP16精度LLaMA进行了比较。

其中的1.58 bit模型，遵循BitNet b1.58的训练方案，采用了两阶段权重衰减和学习率调度。

所有模型都使用RedPajama数据集中的100B token进行训练，以确保公平比较。

对于BitNet a4.8，作者首先使用95B token来训练8位激活值的模型。然后重用优化器状态，并使用5B token进行混合量化和稀疏化的训练。实验将topK设置为50%（attention的输出投影位置）。

作者使用lm-evaluation-harness工具包，评估模型在一系列语言任务上的zero-shot准确性，包括ARC-Easy（ARCe）、ARCChallenge（ARCc）、Hellaswag（HS）、Winogrande（WGe）和PIQA（PQ）。另外还测试了在C4数据集（测试集）上的困惑度。

主要结果

表1总结了BitNet a4.8、BitNet b1.58和FP16 LLaMA的详细测试结果。

全精度（FP16）LLaMA和BitNet b1.58之间的性能差距，随着模型大小的增长而缩小。对于7B模型，BitNet b1.58在语言模型困惑度和任务的平均准确性方面与LLaMA相当。

此外，相比于BitNet b1.58，BitNet a4.8的平均精度几乎没有损失。

表2展示了各种大小的BitNet a4.8、BitNet b1.58 和 FP16 LLaMA中每个模块的详细稀疏性（使用C4验证集上的非嵌入参数计算）。

值得注意的是，BitNet a4.8的稀疏性明显高于BitNet b1.58和LLaMA。

比如在7B模型中，BitNet a4.8的整体稀疏性达到了44.5%，只有3.4B的活跃参数。down projection层的输入显示出特别高的稀疏性，且中间状态分布以零为中心。

此外，gate projection的输出非常稀疏，导致了up projection的高稀疏性（因为只需要在从Gate中选择非零通道来执行投影）。

具体来说，对于7B BitNet a4.8，Gate和up projection的稀疏率分别为67.5%和12.0%。

表3显示了BitNet a4.8在3B和7B模型大小下，low-bit attention的详细情况。模型使用4位KV或QKV头，精度损失可忽略不计，同时KV cache可以量化为3位整数。

low-bit attention对于高效的长序列建模至关重要，它减少了KV cache的内存占用和IO，并加速了注意力计算。

在本文的实验中，作者采用RoPE后量化。使用absmax函数将QKV头直接量化为无符号整数，无需任何校准数据集。

对于3 bit KV量化，研究人员将bos token的头保留为4 bit，因为它包含更多的异常值特征。

消融实验

图4显示了700M BitNet a4.8的训练损耗曲线，比较了使用完整的INT4/FP4量化，以及本文的混合量化和稀疏化。

完整的INT4量化会导致发散，而混合架构在训练困惑度方面明显优于完整的FP4架构。

使用RedPajama数据集中25B token，来进行模型的第一阶段训练，采用absmean和MinMax量化器分别进行完整的INT4和FP4量化。

对于完整的INT4量化，由于其输入具有更大的异常值，这里设置β = 2*mean（|X|）。

接下来为1.3B BitNet a4.8的down projection层输入，设置不同的量化或激活函数。

所有模型都使用RedPajama数据集中的50B token进行第一阶段训练。为了确保公平比较，其他激活值都保留在8位。

图5显示了这些模型的训练损失曲线。Squared ReLU的训练困惑度比Swish略好，同时实现了更高的稀疏性。

此外，对down projection的输入应用FP4量化会导致性能显著下降，而将INT4激活与STE一起使用会导致发散。

参考资料：

https://arxiv.org/abs/2411.04965

https://venturebeat.com/ai/how-microsofts-next-gen-bitnet-architecture-is-turbocharging-llm-efficiency/

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

机器学习算法与自然语言处理

关注AI前沿技术，助力AI学者进步

最新文章

人大教授张鸣：退休之际，讲点废话（这也太敢言了）

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

近期必看的多模态大模型进展：从Qwen2-VL到Pixtral

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

《一书解决几乎所有机器学习问题》.PDF下载

16种新型RAG最新进展

李飞飞：World Labs这样实现「空间智能」

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

OpenAI发布49页长文，讲述o1的安全机制

谷歌Willow量子芯片逆天出世！5分钟颠覆10亿亿亿计算极限，马斯克奥特曼惊叹

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora开服被挤爆！支持中文/编剧模式/作品分享，145块就能玩

今日最佳 AI 论文：简单蒸馏训练，就能超越 o1-preview？

5分钟完成最强超算10^25年工作，谷歌量子芯片重大突破，马斯克、奥特曼齐祝贺

困扰数学家近60年的搬沙发难题疑似被解决！119页论文证明最优解，百万网友围观

英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜

LLM不会CoT隐性推理，只会显性推理！

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

LeCun团队新作：在世界模型中导航

刚刚，2025 IEEE Fellow名单出炉：戴琼海、姜大昕、尹首一、翟广涛、褚晓文等人入选

复旦大学，上海创智院等多家单位联合发布大模型社交智能体综述

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

o1满血版最鲜测！这¥1500花得值吗？

从答案到问题：一种新的学习目标让LLM更擅长推理

满血版o1深夜震撼上线，奥特曼怼脸演示超强推理！终极Pro版每月1450元

GAN作者追忆往事：论文是DDL前一周开始写的，最初在NeurIPS大会无人问津

刚刚，谷歌ViT核心骨干集体投奔OpenAI：他们为Sora打下基础

1-bit大模型还能再突破！新一代BitNet架构启用4位激活值

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

ICLR'25 惊现[10,10,10,10]满分论文，ControlNet 一作张吕敏新作，Github 5.8k 颗星

Text-to-SQL新SOTA！华科团队提出双向模式链接新方法RSL-SQL

纽约大学十四年精华《机器学习基础》第二版免费下载

北京理工AI教育服务上线！DirectionAI：大模型驱动的个性化教学方式

图结构转文本序列，大模型直接读懂！图推理性能大涨

翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞，网友们抢着传看

DeepMind用语言游戏让大模型学AlphaGo自我博弈，数据限制不存在了

图结构转文本序列，大模型直接读懂！图推理性能大涨

马斯克全力阻止OpenAI转盈利！已向法院申请禁令，奥特曼：我和爱人休假盖树屋

Token化一切！北大、谷歌等提出TokenFormer，Transformer从未这么灵活过

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

陶哲轩新论文“太反直觉”：再战Erdős问题，证明44年数学猜想是错的

自我反思助力VLM推理！南大清华提出VLM自训练框架，支持Inference Scaling

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉