AI大模型落地不远了！首个全量化Vision Transformer的方法FQ-ViT（附源代码）

科技 2024-12-14 18:30 江苏

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文地址：https://arxiv.org/pdf/2111.13824.pdf

项目代码：https://github.com/megvii-research/FQ-ViT

计算机视觉研究院专栏

Column of Computer Vision Institute

将算法网络进行量化和模型转换可以显着降低模型推理的复杂性，并在实际部署中得到了广泛的应用。然而，大多数现有的量化方法主要是针对卷积神经网络开发的，并且在完全量化的vision Transformer上应用时会出现严重的掉点。今天我们就分享一个新技术，实现高精度量化的Vit部署。AI大模型落地使用离我们还远吗？

总述

Transformer 是现在火热的AIGC预训练大模型的基础，而ViT(Vision Transformer)是真正意义上将自然语言处理领域的Transformer带到了视觉领域。从Transformer的发展历程就可以看出，从Transformer的提出到将Transformer应用到视觉，其实中间蛰伏了三年的时间。而从将Transformer应用到视觉领域(ViT)到AIGC的火爆也差不多用了两三年。其实AIGC的火爆，从2022年下旬就开始有一些苗条，那时就逐渐有一些AIGC好玩的算法放出来，而到现在，AIGC好玩的项目真是层出不穷。

随着近两年来对视觉Transformer模型（ViT）的深入研究，ViT的表达能力不断提升，并已经在大部分视觉基础任务 (分类，检测，分割等) 上实现了大幅度的性能突破。然而，很多实际应用场景对模型实时推理的能力要求较高，但大部分轻量化ViT仍无法在多个部署场景（GPU，CPU，ONNX，移动端等）达到与轻量级CNN（如MobileNet）相媲美的速度。

因此，重新审视了ViT的2个专属模块，并发现了退化原因如下：

研究者发现LayerNorm输入的通道间变化严重，有些通道范围甚至超过中值的40倍。传统方法无法处理如此大的激活波动，这将导致很大的量化误差
还发现注意力图的值具有极端的不均匀分布，大多数值聚集在0～0.01之间，少数高注意力值接近1

基于以上分析，研究者提出了Power-of-Two Factor（PTF）来量化LayerNorm的输入。通过这种方式，量化误差大大降低，并且由于Bit-Shift算子，整体计算效率与分层量化的计算效率相同。此外还提出了Log Int Softmax（LIS），它为小值提供了更高的量化分辨率，并为Softmax提供了更有效的整数推理。结合这些方法，本文首次实现了全量化Vision Transformer的训练后量化。

新框架

下面的这两张图表明，与CNN相比，视觉转换器中存在严重的通道间变化，这导致了分层量化的不可接受的量化误差。

首先解释网络量化符号。假设量化位宽为b，量化器Q（X|b）可以公式化为将浮点数X∈R映射到最近量化仓的函数：

Uniform Quantization

Uniform Quantization在大多数硬件平台上都得到了很好的支持。它的量化器Q（X|b）可以定义为：

其中s（标度）和zp（零点）是由X的下界l和上界u确定的量化参数，它们通常是最小值和最大值。

Log2 Quantization

Log2 Quantization将量化过程从线性变化转换为指数变化。其量化器Q（X|b）可定义为:

为了实现完全量化的视觉变换器，研究者对所有模块进行量化，包括Conv、Linear、MatMul、LayerNorm、Softmax等。特别是，对Conv、线性和MatMul模块使用均匀的Min-Max量化，对LayerNor和Softmax使用以下方法。

Power-of-Two Factor for LayerNorm Quantization

在推理过程中，LayerNorm计算每个正向步骤中的统计量µX，σX，并对输入X进行归一化。然后，仿射参数γ，β将归一化输入重新缩放为另一个学习分布。

如刚开始解释分析一样，与神经网络中常用的BatchNorm不同，LayerNorm由于其动态计算特性，无法折叠到前一层，因此必须单独量化它。然而，在对其应用训练后量化时观察到显著的性能下降。查看LayerNorm层的输入，发现存在严重的通道间变化。

研究者提出了一种简单而有效的层范数量化方法，即Power-of-Two Factor（PTF）。PTF的核心思想是为不同的信道配备不同的因子，而不是不同的量化参数。给定量化位宽b，输入活动X∈RB×L×C，逐层量化参数s，zp∈R1，以及PTFα∈NC，则量化活动XQ可以公式化为：

其中部分参数如下：

Softmax quantized with Log-Int-Softmax (LIS)

注意图的存储和计算是变压器结构的瓶颈，因此研究者希望将其量化到极低的位宽（例如4位）。然而，如果直接实现4位均匀量化，则会出现严重的精度退化。研究者观察到分布集中在Softmax输出的一个相当小的值上，而只有少数异常值具有接近1的较大值。基于以下可视化，对于具有密集分布的小值区间，Log2保留了比均匀更多的量化区间。

将Log2量化与i-exp（i-BERT提出的指数函数的多项式近似）相结合，提出了LIS，这是一个仅整数、更快、低功耗的Softmax。

整个过程如下所示。

实验&可视化

Comparison of the top-1 accuracy with state-of-the-art methods on ImageNet dataset

将注意力图可视化，以查看均匀量化和LIS之间的差异，如上图所示。当两者都使用8位时，均匀量化集中在高激活区域，而LIS在低激活区域保留更多纹理，这保留了注意力图的更多相对秩。在8位的情况下，这种差异不会产生太大的差异。然而，当量化到较低的位宽时，如6位和4位的情况所示，均匀量化会急剧退化，甚至使所有关注区域失效。相反，LIS仍然表现出类似于8位的可接受性能。

Channel-wise minimum and maximum values of Vision Transformers and ResNets

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

点击“阅读原文”，立即合作咨询

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

零样本通用分割框架（附源代码）

CRAS-YOLO：多类别船舶检测与分类模型

AI大模型落地不远了！首个全量化Vision Transformer的方法FQ-ViT（附源代码）

Drone-YOLO：一种有效的无人机图像目标检测

“空中城管”上岗丨城管无人机赋能城市精细化管理

CRAS-YOLO：多类别船舶检测与分类模型

YOLO界再起波澜！新一代目标检测器又有新突破！

QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

Yolov7实战，实现网页端的实时目标检测

训练好的深度学习模型原来这样部署的！（干货满满，收藏慢慢看）

目标检测干货 | 多级特征重复使用大幅度提升检测精度（文末附论文下载）

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

超Transformer模型实现SOTA性能！CoMamba或成实时协同感知最有前景的解决方案？

独自一人，怒发顶会！

除了Yolo的其他选择，轻量级检测网络层出不穷（框架解析及部署实践）

AI顶会ICML收了一篇论文：没算法没实验，全靠idea思路好

QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

YoloV：视频中目标实时检测依然很棒（附源代码下载）

图像自适应YOLO：恶劣天气下的目标检测（附源代码）

ResNet超强变体：京东AI新开源的计算机视觉模块！（附源代码）

最高加速9倍！字节跳动开源8比特混合精度Transformer引擎

水下检测+扩散模型：或成明年CVPR最大惊喜！

2024新技术：远距离的小目标也可以准确检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

欢迎加入“计算机视觉研究院”学习群

机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

视觉语言大模型新SOTA！高效微调方法性能碾压LoRA

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

旋转角度目标检测的重要性！！！（附源论文下载）

245个目标检测开源项目合集，建议收藏！

新技术：高效的自监督视觉预训练，局部遮挡再也不用担心！

最近几篇较好论文实现代码（附源代码下载）

华科&字节提出目标感知基础模型GLEE，一统所有目标感知任务

比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

ICLR'25 惊现满分论文！！！走对捷径，高分论文并不难

大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

EdgeYOLO：边缘设备上实时运行的目标检测器及Pytorch实现

实用教程详解：模型部署，用DNN模块部署YOLOv5目标检测（附源代码）

半监督辅助目标检测：自训练+数据增强提升精度（附源码下载）

为什么制造业都在用低代码提效？

欢迎加入“计算机视觉研究院”学习群

从源头消除大模型“幻觉”，性价比吊打传统微调方法

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

旋转角度目标检测的重要性！！！（附源论文下载）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

最后征稿+连续8届检索 | 第九届控制工程与人工智能国际会议(CCEAI 2025)会议地点已定！

智慧建筑：基于YOLOv7的建筑外墙缺陷检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉