NeurIPS 2024 Oral | 大模型量化新工作！4bit达到新SOTA！

文摘 2024-11-19 09:05 上海

点击下方卡片，关注计算机视觉Daily

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

DuQuant团队投稿
转载自：量子位（QbitAI）

消除激活值(outliers)，大语言模型低比特量化有新招了——

自动化所、清华、港城大团队最近有一篇论文入选了NeurIPS 2024（Oral Presentation），他们针对LLM权重激活量化提出了两种正交变换，有效降低了outliers现象，达到了4-bit的新SOTA。

简单理解，在大语言模型（LLM）中，有一些中间层输出的数值（激活值 Activation）会变得非常大，它们被称为“outliers（离群值）”，这些 outliers给模型量化带来了挑战。

补充一下，量化可以将模型中的数值从浮点数转换为整数，以减少模型的大小和计算需求。

而一旦在量化过程中存在大量outliers，会导致量化后的模型性能下降。

明白了这层道理, 我们再来看他们团队的一项名为DuQuant的新研究。

首先, 他们发现在LLM的前馈网络 (FFN) 模块中的down_proj层, 存在明显的Massive Outliers(非常大的激活值)。

这种outliers不同于以往发现的Normal Outliers，表现为大于绝对值几百的异常值并局限于个别的tokens中——

它们导致现有的量化算法（如SmoothQuant和OmniQuant）在将模型的权重和激活值量化为4位二进制数时表现不佳。

对此，团队提出了一种新的量化方法，叫做DuQuant。

DuQuant通过学习旋转和置换变换矩阵，在Activation矩阵内部将outliers转移到其他通道，最终得到平滑的激活矩阵，从而大幅降低了量化难度。

实验显示，使用DuQuant方法，在4位权重和激活量化的设置下，模型达到了SOTA。

同时，DuQuant的训练非常快速，可以在50s内完成7B模型的量化过程，即插即用。

背景

在每个Transformer块的常见模块中，多头自注意力（MSA）和前馈网络（FFN）基本上都由线性层组成，将其表示为：

其中是激活输入，表示权重矩阵。

模型量化通过将浮点数（FP16, BF16）表示的模型权重或激活值转换为低位的浮点数或整数来减少内存占用，权重激活量化可以通过使用低比特乘法的算子进一步加快模型推理的速度。

该工作重点关注低比特整型量化，目标是获得更好的硬件支持。

具体来说， 𝖻位量化过程将FP16张量𝐗映射为低位整数𝐗_𝗊 ：

符号⎣ · ⎤表示最接近的舍入操作， ∆是量化步长， 𝑧表示零点。

遵循主流量化方法，作者对激活𝐗采用逐token量化，对权重𝐖采用逐通道量化，这意味着为𝐗的每个token分配不同的步长（ ∆_𝐗 ∊ ℝ^𝑻x1），为𝐖的每个输出通道分配不同的步长。

动机（Motivation）

据作者介绍，他们首次在实验中发现，LLM FFN模块中的down_proj layer存在明显的Massive Outliers（非常大的激活值），表现为绝对值大于几百的异常值并局限于个别的token中。

PS：先前工作发现Massive Outliers存在于每个transformer block的输出中，DuQuant的作者进一步将其定位在FFN模块中。

论文：https://link.zhihu.com/?target=https%3A//eric-mingjie.github.io/massive-activations/index.html

这些Massive Outliers造成SmoothQuant和OmniQuant等算法在4bit WA量化中表现较差。

△图1：Massive outliers显著加大了低比特权重激活量化的难度

图1(a)(b)对比了普遍常见的Normal Outliers，和在FFN中出现的Massive Outliers。

SmoothQuant通过将激活值除以每通道平滑因子并将其乘回权重矩阵，尝试将量化难度从激活值转移到权重。

具体来说，SmoothQuant使用逐通道的平滑对角矩阵，记为𝞚 ，将原始线性层重新表达为：𝐘=𝐗 · 𝐖=（𝐗 ·𝞚）（𝞚^-1 · 𝐖），对角矩阵𝞚中的元素𝞚_𝑗 的计算方式为：

其中α是一个超参数，表示迁移强度。

然而，作者观察到在输入端进行这种转移可能会导致权重矩阵也出现明显的难以量化的outliers（如图1(d)所示），这一问题的根源在于Massive Outliers使平滑因子𝞚_𝑗 变得异常大。

此外，极大的outliers还可能导致基于优化的方法出现梯度爆炸的问题，所以基于梯度优化的OmniQuant和AffineQuant等工作会直接跳过down_proj layer，直接退化为SmoothQuant的处理方式。

这些preliminary experiments都表明需要一种更新更好的方式处理两种outliers，特别是平滑掉down_proj输入侧的Massive Outliers。

方法

DuQuant提出通过学习旋转和置换变换矩阵，在Activation矩阵内部将outliers转移到其他通道，最终得到平滑的激活矩阵，从而大幅度降低了量化难度。

(a) 逐步展示了DuQuant算法对Normal outlier的处理过程，(b) DuQuant显著降低了Massive outlier，(c）一个Tony Example说明DuQuant有效降低了激活矩阵的量化难度。

△图2：DuQuant算法说明

简单来说，DuQuant算法包含三个步骤：

1）旋转矩阵的构造有效利用了特定outlier channel的位置索引，作者使用了分块对角的旋转矩阵，在每个block内部通过贪心算法将outlier平摊到其他的channels中。

2）由于block size的限制，可能导致某些block在旋转之后组内的平均值大于其他blocks，因此作者进一步使用通道置换技术重新分配activation channel，使用zigzag顺序排列使各组均值的方差大幅减小。

3）进一步执行一次旋转变换达到更均匀的activation分布，从而大幅降低了量化难度。

旋转矩阵：作者希望应用旋转矩阵𝐑进行行或列变换，减轻Normal Outliers和Massive Outliers的影响。

由于Massive Outliers通常随机分布在激活空间中，直接找到能够通过单次旋转变换减轻outliers的最优旋转矩阵𝐑是具有挑战性的。

为了解决这一问题，作者采用带有先验知识的贪心搜索方法来计算旋转矩阵，从而近似理想的旋转矩阵𝐑。

具体来说，的计算包括以下步骤：

1、识别outliers主要集中的特征维度，即：，其中， 𝐗_𝑖𝑗表示𝐗中第𝑖行和第𝑗列的元素。

2、基于搜索到的维度，构建旋转矩阵如下：

是用于交换激活值的第1列和第d⁽¹⁾ 列的交换矩阵，表示一个正交初始化的旋转矩阵，其第一行均匀分布。

这样做的目的是通过变换后减轻第1列中的outliers。

为了进一步增加随机性，保留减轻outliers后的第1列，并通过与随机正交矩阵𝐐^’相乘，随机旋转其他列。

3、设N为贪心搜索的步数，则近似的旋转矩阵，其中。每个𝐑^𝑖 根据公式(2)和识别到的特征维度d^(𝑖) 构建。

通过这种构建方式，可以确保近似的最优旋转矩阵能够有效减轻具有较大幅度的outliers，而不仅仅是使用随机选择的正交旋转矩阵。

然而，直接构建整个旋转矩阵非常耗时，并且会导致大量的内存开销。

为了实现快速矩阵乘法，参考Training Transformer with 4ibts ，作者选择以分块的方式近似旋转矩阵。

其中，表示第𝑖个块的方阵，该矩阵按照上述三步构建。块的数量K通过K=C_𝑖n/2ⁿ计算得出。

通道置换矩阵：尽管采用了块对角旋转矩阵来提高时间和存储效率，但其专注于局部信息的特性带来了进一步减少outliers的潜在限制。

由于在每个小块内进行的旋转变换无法整合跨不同块的信息，一个块中可能有相对较大的outliers，而另一个块中则有较小的outliers，导致不同块之间存在较高的方差。

因此，作者提出利用通道置换矩阵平衡不同blocks之间outliers的幅度。

具体来说，在每个小块中，将维度d_𝑗中最大的outlier记为O_𝑗。

同时， M_b𝑖表示第𝑖个块中所有O_𝑗的平均值，其中𝑖=1，2，……，K ，各个块之间激活幅度的方差可以表示为：

作者引入了之字形置换矩阵P 。

具体来说，通过生成一个之字形序列，首先将激活值最高的通道分配给第一个块，接着，将激活值次高的通道按递减顺序分配到后续的块，直到第K个块。

在到达最后一个块后，顺序反转，从下一个激活值最高的通道开始，按递增顺序分配。

这个往复模式贯穿所有块，确保没有单个块持续接收最高或最低激活值的通道。

通过使用之字形置换，DuQuant实现了不同块之间outliers的均衡分布，从而能够使用额外的旋转变换进一步平滑outliers，如图2所示。

需要注意的是：

1、通道置换其实是非常重要的一步，也很简单快速（对于推理效率的影响很小，可见后面实验部分），既可以避免像SpinQuant那样复杂的训练流程，也比QuaRot的Hadamard旋转性能表现更好。

2、旋转矩阵和置换变换矩阵都是正交矩阵，保证了𝐗𝐖输出的不变性，作者还通过严谨的理论推导了证明了两种变换有效降低了量化误差，具体证明可以阅读Paper里面的Appendix。

实验

在4-bit setting下达到了SOTA的效果，DuQuant验证了LLaMA、Vicuna、Mistral系列模型，在PPL、QA、MMLU和MT-Bench等任务上都明显提升了量化模型的性能。

此外作者还在LongBench评测了量化模型长文本生成的能力，DuQuant同样大幅超过了baselines。

△DuQuant在LLaMA3-8B的低比特量化中显著超过了基线方法

上面是DuQuant在LLaMA3模型的量化效果，更多的模型和task上的表现可以参见论文。

硬件测速也证明了DuQuant在pre-filing阶段可以达到2.08倍的加速比，在decoding阶段有效降低了3.50倍内存开销。

同时如右图所示，DuQuant相比INT4推理带来额外的10%左右速度开销，微高于QuaRot，但带来更多性能提升。

此外，DuQuant与使用Hadamard旋转矩阵的QuaRot主要有以下两点不同：

1、DuQuant构造的旋转矩阵利用了先验知识（具体的outlier channel索引），因此它可以比QuaRot更好地平滑激活空间，如下图展示了DuQuant单次旋转和Hadamard旋转对LLaMA2-7B Attention Key_proj输入的变换效果。

2、QuaRot依赖于耗时的GPTQ算法来提升性能，而作者引入的通道置换矩阵可以帮助DuQuant在极短时间内进一步平衡outliers的分布，两种正交变换可以同时平滑权重矩阵的空间，降低权重矩阵的量化难度，从而取得更好效果。

小结一下，DuQuant通过两种正交变换，利用activation激活值的先验知识达到了比QuaRot中Hadamard旋转更好的量化效果。

该工作获得了审稿人一致的高度评价，并最终被选为Oral Presentation，录取率0.4%。

更多细节欢迎查阅原论文。

项目主页：
https://duquant.github.io/
论文：
https://arxiv.org/abs/2406.01721
代码：
https://github.com/Hsu1023/DuQuant

绘图神器下载
后台回复：绘图神器，即可下载绘制神经网络结构的神器！
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
CVPR 2024 论文和代码下载
在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立
扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群
▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzU4OTg3Nzc3MA==&mid=2247496743&idx=2&sn=37e4eea37d737494145095f280004010

计算机视觉Daily

一个专注于计算机视觉开源项目的公众号，涵盖CV、传统图像处理、OpenCV、深度学习、机器学习代码实战和相关资料等内容

最新文章

Mamba作者点赞！清华团队深入分析长上下文建模中的状态崩溃

CVPR 2025 坐等Rebuttal，ICLR 2025和AAAI 2025投稿微信群来了！

突发！AI科学家重返谷歌！

微软亚洲研究院MSRA招聘实习生

AAAI 2025 开奖倒计时！CVPR 2025、ICLR 2025 投稿微信群来了！

重磅发布！最新版《深度学习》书籍开放下载

NeurIPS 2024 | 收敛加快8倍，准确率提升超30%！华科大提出MoE Jetpack框架

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

发一篇CVPR真不难

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

博士延毕，师兄终于毕业了。。。

NeurIPS 2024 Oral | 大模型量化新工作！4bit达到新SOTA！

ICLR 2025 分数出炉！附AAAI 2025和CVPR 2025投稿微信群

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

CVPR 2025 正式截稿！ICLR 2025和AAAI 2025投稿微信群成立！

突发！谷歌宣布35岁Keras之父Francois Chollet离职！

面完腾讯算法岗，心态崩了。。。

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

ICLR 2025 分数出炉！附ICLR 2025和CVPR 2025投稿微信群

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN：填补周期性特征建模缺陷

ICLR 2025 即将开分！ICLR 2025和CVPR 2025投稿微信群来了！

这本大模型书籍可以下载了！

即插即用！加速扩散Transformer！Meta提出自适应缓存新方法，视频生成加快2.6倍！

多模态大模型最新研究进展！OpenAI、谷歌、Meta和微软杀疯了！

AAAI 2025 分数出炉！附微信群！

顶刊TPAMI 2024！解耦图神经网络：同时训练多个简单的GNN，而不是一个！

AAAI 2025 即将开奖！附微信群！

Copilot一夜杀死编程助手！GitHub官宣接入Claude和谷歌Gemini！OpenAI沦为备胎。。。

AAAI 2025 投稿微信群成立！

10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成，比现有技术快100倍！

CVPR 2025 投稿微信群成立！

黄仁勋预言成真了！！

NeurlPS 2024 Oral | 多模态融合检测端到端算法E2E-MFD来了！

CVPR 2025 投稿交流群成立！

Transformer杀疯了！跨模态3D目标检测SOTA！易复现！

NeurIPS 2024 | 免训练！超强！FreeLong：长视频生成框架

CVPR 2025 投稿交流群来了！

LeCun锐评诺奖：出于压力才颁给AI，但两个成果已经完全无用！玻尔兹曼机和Hopefield网络

敲响警钟！首例大模型卷进青少年自杀案？明星AI创业公司面临诉讼。。。

ECCV 2024 | 谷歌提出LookupViT：全新通用视觉Transformer块

ICLR 2025 投稿交流群来了！

OpenAI满血版o1剧透：数学代码能力再破天花板！已开启测试评估！

ECCV 2024 | ClearCLIP：删除两个组件，可以提升语义分割性能！

AAAI 2025 投稿交流群成立！

Apple AI落后两年？库克回应：“不抢首发，只做最好”。。。

异常检测和缺陷检测微信群成立！

AI解决132年数学难题！Transformer成功寻找新的李雅普诺夫函数，三体问题相关

AAAI 2025 投稿交流群来了！

DenseNet作者刘壮官宣！将入职普林斯顿大学助理教授！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

NeurIPS 2024 Oral | 大模型量化新工作！4bit达到新SOTA！

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

DuQuant团队 投稿转载自：量子位（QbitAI）

背景

动机（Motivation）

△图1：Massive outliers显著加大了低比特权重激活量化的难度

方法

△图2：DuQuant算法说明

实验

△DuQuant在LLaMA3-8B的低比特量化中显著超过了基线方法

绘图神器下载

后台回复：绘图神器，即可下载绘制神经网络结构的神器！

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

▲扫码加入星球学习

整理不易，请赞和在看

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

DuQuant团队投稿
转载自：量子位（QbitAI）