50s完成7B模型量化，放大招，4bit直接达到 SOTA

科技 2024-11-14 13:00 广东

来源：量子位

消除激活值(outliers)，大语言模型低比特量化有新招了——

自动化所、清华、港城大团队最近有一篇论文入选了NeurIPS 2024（Oral Presentation），他们针对LLM权重激活量化提出了两种正交变换，有效降低了outliers现象，达到了4-bit的新SOTA。

简单理解，在大语言模型（LLM）中，有一些中间层输出的数值（激活值 Activation）会变得非常大，它们被称为“outliers（离群值）”，这些 outliers给模型量化带来了挑战。

补充一下，量化可以将模型中的数值从浮点数转换为整数，以减少模型的大小和计算需求。

而一旦在量化过程中存在大量outliers，会导致量化后的模型性能下降。

明白了这层道理, 我们再来看他们团队的一项名为DuQuant的新研究。

首先, 他们发现在LLM的前馈网络 (FFN) 模块中的down_proj层, 存在明显的Massive Outliers(非常大的激活值)。

这种outliers不同于以往发现的Normal Outliers，表现为大于绝对值几百的异常值并局限于个别的tokens中——

它们导致现有的量化算法（如SmoothQuant和OmniQuant）在将模型的权重和激活值量化为4位二进制数时表现不佳。

对此，团队提出了一种新的量化方法，叫做DuQuant。

DuQuant通过学习旋转和置换变换矩阵，在Activation矩阵内部将outliers转移到其他通道，最终得到平滑的激活矩阵，从而大幅降低了量化难度。

实验显示，使用DuQuant方法，在4位权重和激活量化的设置下，模型达到了SOTA。

同时，DuQuant的训练非常快速，可以在50s内完成7B模型的量化过程，即插即用。

背景

在每个Transformer块的常见模块中，多头自注意力（MSA）和前馈网络（FFN）基本上都由线性层组成，将其表示为：

其中是激活输入，表示权重矩阵。

模型量化通过将浮点数（FP16, BF16）表示的模型权重或激活值转换为低位的浮点数或整数来减少内存占用，权重激活量化可以通过使用低比特乘法的算子进一步加快模型推理的速度。

该工作重点关注低比特整型量化，目标是获得更好的硬件支持。

具体来说， 𝖻位量化过程将FP16张量𝐗映射为低位整数𝐗_𝗊 ：

符号⎣ · ⎤表示最接近的舍入操作， ∆是量化步长， 𝑧表示零点。

遵循主流量化方法，作者对激活𝐗采用逐token量化，对权重𝐖采用逐通道量化，这意味着为𝐗的每个token分配不同的步长（ ∆_𝐗 ∊ ℝ^𝑻x1），为𝐖的每个输出通道分配不同的步长。

动机（Motivation）

据作者介绍，他们首次在实验中发现，LLM FFN模块中的down_proj layer存在明显的Massive Outliers（非常大的激活值），表现为绝对值大于几百的异常值并局限于个别的token中。

PS：先前工作发现Massive Outliers存在于每个transformer block的输出中，DuQuant的作者进一步将其定位在FFN模块中。

论文：https://link.zhihu.com/?target=https%3A//eric-mingjie.github.io/massive-activations/index.html

这些Massive Outliers造成SmoothQuant和OmniQuant等算法在4bit WA量化中表现较差。

△图1：Massive outliers显著加大了低比特权重激活量化的难度

图1(a)(b)对比了普遍常见的Normal Outliers，和在FFN中出现的Massive Outliers。

SmoothQuant通过将激活值除以每通道平滑因子并将其乘回权重矩阵，尝试将量化难度从激活值转移到权重。

具体来说，SmoothQuant使用逐通道的平滑对角矩阵，记为𝞚 ，将原始线性层重新表达为：𝐘=𝐗 · 𝐖=（𝐗 ·𝞚）（𝞚^-1 · 𝐖），对角矩阵𝞚中的元素𝞚_𝑗 的计算方式为：

其中α是一个超参数，表示迁移强度。

然而，作者观察到在输入端进行这种转移可能会导致权重矩阵也出现明显的难以量化的outliers（如图1(d)所示），这一问题的根源在于Massive Outliers使平滑因子𝞚_𝑗 变得异常大。

此外，极大的outliers还可能导致基于优化的方法出现梯度爆炸的问题，所以基于梯度优化的OmniQuant和AffineQuant等工作会直接跳过down_proj layer，直接退化为SmoothQuant的处理方式。

这些preliminary experiments都表明需要一种更新更好的方式处理两种outliers，特别是平滑掉down_proj输入侧的Massive Outliers。

方法

DuQuant提出通过学习旋转和置换变换矩阵，在Activation矩阵内部将outliers转移到其他通道，最终得到平滑的激活矩阵，从而大幅度降低了量化难度。

(a) 逐步展示了DuQuant算法对Normal outlier的处理过程，(b) DuQuant显著降低了Massive outlier，(c）一个Tony Example说明DuQuant有效降低了激活矩阵的量化难度。

△图2：DuQuant算法说明

简单来说，DuQuant算法包含三个步骤：

1）旋转矩阵的构造有效利用了特定outlier channel的位置索引，作者使用了分块对角的旋转矩阵，在每个block内部通过贪心算法将outlier平摊到其他的channels中。

2）由于block size的限制，可能导致某些block在旋转之后组内的平均值大于其他blocks，因此作者进一步使用通道置换技术重新分配activation channel，使用zigzag顺序排列使各组均值的方差大幅减小。

3）进一步执行一次旋转变换达到更均匀的activation分布，从而大幅降低了量化难度。

旋转矩阵：作者希望应用旋转矩阵𝐑进行行或列变换，减轻Normal Outliers和Massive Outliers的影响。

由于Massive Outliers通常随机分布在激活空间中，直接找到能够通过单次旋转变换减轻outliers的最优旋转矩阵𝐑是具有挑战性的。

为了解决这一问题，作者采用带有先验知识的贪心搜索方法来计算旋转矩阵，从而近似理想的旋转矩阵𝐑。

具体来说，的计算包括以下步骤：

1、识别outliers主要集中的特征维度，即：，其中， 𝐗_𝑖𝑗表示𝐗中第𝑖行和第𝑗列的元素。

2、基于搜索到的维度，构建旋转矩阵如下：

是用于交换激活值的第1列和第d⁽¹⁾ 列的交换矩阵，表示一个正交初始化的旋转矩阵，其第一行均匀分布。

这样做的目的是通过变换后减轻第1列中的outliers。

为了进一步增加随机性，保留减轻outliers后的第1列，并通过与随机正交矩阵𝐐^’相乘，随机旋转其他列。

3、设N为贪心搜索的步数，则近似的旋转矩阵，其中。每个𝐑^𝑖 根据公式(2)和识别到的特征维度d^(𝑖) 构建。

通过这种构建方式，可以确保近似的最优旋转矩阵能够有效减轻具有较大幅度的outliers，而不仅仅是使用随机选择的正交旋转矩阵。

然而，直接构建整个旋转矩阵非常耗时，并且会导致大量的内存开销。

为了实现快速矩阵乘法，参考Training Transformer with 4ibts ，作者选择以分块的方式近似旋转矩阵。

其中，表示第𝑖个块的方阵，该矩阵按照上述三步构建。块的数量K通过K=C_𝑖n/2ⁿ计算得出。

通道置换矩阵：尽管采用了块对角旋转矩阵来提高时间和存储效率，但其专注于局部信息的特性带来了进一步减少outliers的潜在限制。

由于在每个小块内进行的旋转变换无法整合跨不同块的信息，一个块中可能有相对较大的outliers，而另一个块中则有较小的outliers，导致不同块之间存在较高的方差。

因此，作者提出利用通道置换矩阵平衡不同blocks之间outliers的幅度。

具体来说，在每个小块中，将维度d_𝑗中最大的outlier记为O_𝑗。

同时， M_b𝑖表示第𝑖个块中所有O_𝑗的平均值，其中𝑖=1，2，……，K ，各个块之间激活幅度的方差可以表示为：

作者引入了之字形置换矩阵P 。

具体来说，通过生成一个之字形序列，首先将激活值最高的通道分配给第一个块，接着，将激活值次高的通道按递减顺序分配到后续的块，直到第K个块。

在到达最后一个块后，顺序反转，从下一个激活值最高的通道开始，按递增顺序分配。

这个往复模式贯穿所有块，确保没有单个块持续接收最高或最低激活值的通道。

通过使用之字形置换，DuQuant实现了不同块之间outliers的均衡分布，从而能够使用额外的旋转变换进一步平滑outliers，如图2所示。

需要注意的是：

1、通道置换其实是非常重要的一步，也很简单快速（对于推理效率的影响很小，可见后面实验部分），既可以避免像SpinQuant那样复杂的训练流程，也比QuaRot的Hadamard旋转性能表现更好。

2、旋转矩阵和置换变换矩阵都是正交矩阵，保证了𝐗𝐖输出的不变性，作者还通过严谨的理论推导了证明了两种变换有效降低了量化误差，具体证明可以阅读Paper里面的Appendix。

实验

在4-bit setting下达到了SOTA的效果，DuQuant验证了LLaMA、Vicuna、Mistral系列模型，在PPL、QA、MMLU和MT-Bench等任务上都明显提升了量化模型的性能。

此外作者还在LongBench评测了量化模型长文本生成的能力，DuQuant同样大幅超过了baselines。

△DuQuant在LLaMA3-8B的低比特量化中显著超过了基线方法

上面是DuQuant在LLaMA3模型的量化效果，更多的模型和task上的表现可以参见论文。

硬件测速也证明了DuQuant在pre-filing阶段可以达到2.08倍的加速比，在decoding阶段有效降低了3.50倍内存开销。

同时如右图所示，DuQuant相比INT4推理带来额外的10%左右速度开销，微高于QuaRot，但带来更多性能提升。

此外，DuQuant与使用Hadamard旋转矩阵的QuaRot主要有以下两点不同：

1、DuQuant构造的旋转矩阵利用了先验知识（具体的outlier channel索引），因此它可以比QuaRot更好地平滑激活空间，如下图展示了DuQuant单次旋转和Hadamard旋转对LLaMA2-7B Attention Key_proj输入的变换效果。

2、QuaRot依赖于耗时的GPTQ算法来提升性能，而作者引入的通道置换矩阵可以帮助DuQuant在极短时间内进一步平衡outliers的分布，两种正交变换可以同时平滑权重矩阵的空间，降低权重矩阵的量化难度，从而取得更好效果。

小结一下，DuQuant通过两种正交变换，利用activation激活值的先验知识达到了比QuaRot中Hadamard旋转更好的量化效果。

该工作获得了审稿人一致的高度评价，并最终被选为Oral Presentation，录取率0.4%。

更多细节欢迎查阅原论文。

项目主页：
https://duquant.github.io/
论文：
https://arxiv.org/abs/2406.01721
代码：
https://github.com/Hsu1023/DuQuant

推荐阅读

欢迎大家加入DLer-计算机视觉技术交流群！

大家好，群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享，主要方向有：图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注：研究方向+学校/公司+昵称（如图像分类+上交+小明）
👆 长按识别，邀请您进群！

http://mp.weixin.qq.com/s?__biz=MzU2NDExMzE5Nw==&mid=2247545698&idx=2&sn=17ebd51e2b2f59bd4680868004ada695

深度学习技术前沿

本公众号专注于深度学习领域的前沿技术分享和学术交流。推送有关于机器学习、深度学习、强化学习、计算机视觉、自然语言处理等领域干货文章，致力于在第一时间内汇集和发布最新人工智能技术和前沿资讯。

最新文章

12万人面临降薪！国际巨头内部大动荡。。。

RTX 4090可运行，已完全开源，史上最快视频生成模型问世！

一位阿里P9的年薪和家庭资产

黄仁勋与沈向洋院士对谈GPU算力、机器人和爱情

AI顶会AAAI收了一篇论文：没算法没实验，全靠idea思路好...

打破纪录！中国科学家让薛定谔的猫活了23分钟

硅谷最神秘的「黑手党」纷纷出走创业，融资近百亿！足以改变整个AI格局的革命

CV大神，MIT何恺明教授最新课程资料！

六院院士！又一顶尖学者归国，全职加盟清华大学

Scaling Law或将终结？哈佛MIT预警：低精度量化已无路可走。。。

国际巨头，AMD宣布全球裁员4%！

大模型推理加速技术的学习路线是什么?

吴恩达：大模型的下一个热门方向

3名高中生杀出重围，论文已被顶会 NeurIPS 2024录用

香港城市大学招机器学习 /大语言模型方向全奖博士

教授含泪惜别“双一流”高校：教学，影响了我原创性科研成果的产出

谷歌2024博士奖学金名单揭晓！清华姚班大神、KAN一作大佬入选

被美国“制裁”的中国大学名单。。。

美国司法部勒令谷歌出售 Chrome

耽误业界好多年？ Karpathy：现在回想，真的后悔极了。。。。

校长书记双院士！教育部副部长，任C9党委书记

WHALE来了，南大周志华团队最新成果发布！下一个世界模型？

又一985，落地深圳！

马斯克招人策略曝光：需进行9轮面试，低底薪+股票奖励

中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文

最新版《神经网络和深度学习》中文版.pdf

Make U-Nets Great Again！北大&华为强强联合

ETH官宣制裁中国学生，国防七子等高校均在名单内。。。

清华大学获X-Embodiment最佳论文奖，机器人顶会CoRL 2024

被导师放养，后果可能很严重。。。

50s完成7B模型量化，放大招，4bit直接达到 SOTA

MIT教授，何恺明大神最新课程资料下载！

高校不给教授们涨工资了，开始裁员计划？

一个模型走天下！智源提出全新扩散架构OmniGen

2025QS亚洲大学排名出炉，197所中国高校上榜！

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

武汉大学：新增8位“国家杰青”！创历史新高

特朗普回归，硅谷科技圈大变！埃隆·马斯克身价突破3000亿

突发！OpenAI七年元老、安全副总裁Lilian Weng官宣离职！北大本科

俄罗斯对谷歌开出天价罚单！远超全球GDP总和

又一院士被“除名”！院士终生制，没了？

投资21.7亿！C9新校区

深圳一家公司造出世界上最酷机器人，卖2-3万美元

涨点神器！100个即插即用注意力模块

90后上海女生，成美国数学大奖首位女性华人得主！

TPAMI 2024｜解耦图神经网络，效果惊艳！

翁荔：掌管OpenAI安全的神

国内外有哪些不错的计算机视觉研究团队或实验室？

10秒创造一个世界！吴佳俊大神最新研究成果，比现有技术快100倍

诺奖得主，受聘西湖大学！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉