ICCV 2023 | 多尺度线性注意力模块，有效涨点，即插即用

文摘 2025-01-16 10:12 安徽

点击下方卡片，关注“AI前沿速递”公众号

各种重磅干货，第一时间送达

标题：EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction

论文链接：https://arxiv.org/pdf/2205.14756

代码链接：https://github.com/mit-han-lab/efficientvit**

创新点

三明治布局设计：在FFN层间插入单个受内存限制的MHSA层，减少其时间成本，同时增加FFN层以增强通道通信，提升内存效率。
级联组注意力模块：将特征分割成不同部分提供给各注意力头，避免注意力头输入相同特征，减少计算冗余，还通过级联输出特征增加网络深度与注意力多样性。
参数重分配策略：扩大关键组件如值投影的通道宽度，缩小次要组件如FFN隐藏维度，优化参数使用，提高模型参数效率。
轻量级多尺度注意力机制：用基于ReLU的全局注意力替代传统自注意力，降低计算复杂度，避免硬件低效操作；通过小核卷积生成多尺度tokens并执行全局注意力，实现全局感受野与多尺度学习。
高效部署与实时推理能力：整体设计使EfficientViT在多个部署场景下能够实现实时推理，让ViT模型更高效地应用于实际任务，如目标检测、语义分割等。

整体结构

EfficientViT模型架构核心是一个多阶段主干网络，其关键在于利用ReLU线性注意力机制来获取全局上下文信息，并借助深度可分离卷积强化局部信息的处理。该模型注重多尺度学习，通过聚合Q/K/V的多尺度信息来提升特征提取效果。同时，借助特征金字塔融合不同阶段的特征图，最终经上采样和简单的MBConv块输出高分辨率预测结果。

具体到EfficientViT模块：

ReLU线性注意力：采用改进的线性注意力机制，即ReLU线性注意力，专注于捕捉全局上下文信息，以增强模型对整体图像内容的理解。
深度可分离卷积：在每个前馈网络（FFN）层中嵌入深度卷积操作，目的是捕捉局部信息，从而提升模型处理高分辨率输入的能力，使模型能够更好地关注图像细节。
多尺度学习：通过对Q/K/V进行多尺度信息聚合，增强模型的多尺度特征提取能力，同时利用分离卷积来避免降低硬件效率，确保模型在不同尺度下都能有效运行。

从消融研究结果来看，在Cityscapes数据集上，以mIoU和MAC为指标进行测量，输入分辨率为1024x2048。通过调整模型宽度使其MAC相同，结果显示多尺度学习和全局感受野对于语义分割性能至关重要。EfficientViT-L2-r384在ImageNet数据集上取得了86.0的top-1精度，相比EfficientNetV2-L提升了0.3的精度，在A100 GPU上更是实现了2.6倍的加速效果。

代码实现

‍

Conv2d_BN 类

class Conv2d_BN(torch.nn.Sequential):    def __init__(self, a, b, ks=1, stride=1, pad=0, dilation=1,                 groups=1, bn_weight_init=1, resolution=-10000):        super().__init__()        self.add_module('c', torch.nn.Conv2d(            a, b, ks, stride, pad, dilation, groups, bias=False))        self.add_module('bn', torch.nn.BatchNorm2d(b))        torch.nn.init.constant_(self.bn.weight, bn_weight_init)        torch.nn.init.constant_(self.bn.bias, 0)    @torch.no_grad()    def fuse(self):        c, bn = self._modules.values()        w = bn.weight / (bn.running_var + bn.eps)**0.5        w = c.weight * w[:, None, None, None]        b = bn.bias - bn.running_mean * bn.weight / \            (bn.running_var + bn.eps)**0.5        m = torch.nn.Conv2d(w.size(1) * self.c.groups, w.size(            0), w.shape[2:], stride=self.c.stride, padding=self.c.padding, dilation=self.c.dilation, groups=self.c.groups)        m.weight.data.copy_(w)        m.bias.data.copy_(b)        return m

EfficientViTBlock 类

class EfficientViTBlock(torch.nn.Module):    """ A basic EfficientViT building block.    Args:        type (str): Type for token mixer. Default: 's' for self-attention.        ed (int): Number of input channels.        kd (int): Dimension for query and key in the token mixer.        nh (int): Number of attention heads.        ar (int): Multiplier for the query dim for value dimension.        resolution (int): Input resolution.        window_resolution (int): Local window resolution.        kernels (List[int]): The kernel size of the dw conv on query.    """    def __init__(self, type,                 ed, kd, nh=8,                 ar=4,                 resolution=14,                 window_resolution=7,                 kernels=[5, 5, 5, 5],):        super().__init__()        self.dw0 = Residual(Conv2d_BN(ed, ed, 3, 1, 1, groups=ed, bn_weight_init=0., resolution=resolution))        self.ffn0 = Residual(FFN(ed, int(ed * 2), resolution))        if type == 's':            self.mixer = Residual(LocalWindowAttention(ed, kd, nh, attn_ratio=ar, \                    resolution=resolution, window_resolution=window_resolution, kernels=kernels))        self.dw1 = Residual(Conv2d_BN(ed, ed, 3, 1, 1, groups=ed, bn_weight_init=0., resolution=resolution))        self.ffn1 = Residual(FFN(ed, int(ed * 2), resolution))        def forward(self, x):        return self.ffn1(self.dw1(self.mixer(self.ffn0(self.dw0(x)))))

EfficientViT 类

class EfficientViT(torch.nn.Module):    def __init__(self, img_size=400,                 patch_size=16,                 frozen_stages=0,                 in_chans=3,                 stages=['s', 's', 's'],                 embed_dim=[64, 128, 192],                 key_dim=[16, 16, 16],                 depth=[1, 2, 3],                 num_heads=[4, 4, 4],                 window_size=[7, 7, 7],                 kernels=[5, 5, 5, 5],                 down_ops=[['subsample', 2], ['subsample', 2], ['']],                 pretrained=None,                 distillation=False,):        super().__init__()        resolution = img_size        self.patch_embed = torch.nn.Sequential(Conv2d_BN(in_chans, embed_dim[0] // 8, 3, 2, 1, resolution=resolution), torch.nn.ReLU(),                           Conv2d_BN(embed_dim[0] // 8, embed_dim[0] // 4, 3, 2, 1, resolution=resolution // 2), torch.nn.ReLU(),                           Conv2d_BN(embed_dim[0] // 4, embed_dim[0] // 2, 3, 2, 1, resolution=resolution // 4), torch.nn.ReLU(),                           Conv2d_BN(embed_dim[0] // 2, embed_dim[0], 3, 1, 1, resolution=resolution // 8))        resolution = img_size // patch_size        attn_ratio = [embed_dim[i] / (key_dim[i] * num_heads[i]) for i in range(len(embed_dim))]        self.blocks1 = []        self.blocks2 = []        self.blocks3 = []        for i, (stg, ed, kd, dpth, nh, ar, wd, do) in enumerate(                zip(stages, embed_dim, key_dim, depth, num_heads, attn_ratio, window_size, down_ops)):            for d in range(dpth):                eval('self.blocks' + str(i+1)).append(EfficientViTBlock(stg, ed, kd, nh, ar, resolution, wd, kernels))            if do[0] == 'subsample':                #('Subsample' stride)                blk = eval('self.blocks' + str(i+2))                resolution_ = (resolution - 1) // do[1] + 1                blk.append(torch.nn.Sequential(Residual(Conv2d_BN(embed_dim[i], embed_dim[i], 3, 1, 1, groups=embed_dim[i], resolution=resolution)),                                    Residual(FFN(embed_dim[i], int(embed_dim[i] * 2), resolution)),))                blk.append(PatchMerging(*embed_dim[i:i + 2], resolution))                resolution = resolution_                blk.append(torch.nn.Sequential(Residual(Conv2d_BN(embed_dim[i + 1], embed_dim[i + 1], 3, 1, 1, groups=embed_dim[i + 1], resolution=resolution)),                                    Residual(FFN(embed_dim[i + 1], int(embed_dim[i + 1] * 2), resolution)),))        self.blocks1 = torch.nn.Sequential(*self.blocks1)        self.blocks2 = torch.nn.Sequential(*self.blocks2)        self.blocks3 = torch.nn.Sequential(*self.blocks3)        self.channel = [i.size(1) for i in self.forward(torch.randn(1, 3, 640, 640))]        def forward(self, x):        outs = []        x = self.patch_embed(x)        x = self.blocks1(x)        outs.append(x)        x = self.blocks2(x)        outs.append(x)        x = self.blocks3(x)        outs.append(x)        return outs

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

欢迎投稿

想要让高质量的内容更快地触达读者，降低他们寻找优质信息的成本吗？关键在于那些你尚未结识的人。他们可能掌握着你渴望了解的知识。【AI前沿速递】愿意成为这样的一座桥梁，连接不同领域、不同背景的学者，让他们的学术灵感相互碰撞，激发出无限可能。

【AI前沿速递】欢迎各高校实验室和个人在我们的平台上分享各类精彩内容，无论是最新的论文解读，还是对学术热点的深入分析，或是科研心得和竞赛经验的分享，我们的目标只有一个：让知识自由流动。

📝 投稿指南：

确保文章为个人原创，未在任何公开渠道发布。若文章已在其他平台发表或即将发表，请明确说明。
建议使用Markdown格式撰写稿件，并以附件形式发送清晰、无版权争议的配图。
【AI前沿速递】尊重作者的署名权，并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。

📬 投稿方式：

您可以通过添加我们的小助理微信（aiqysd）进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”

长按添加AI前沿速递小助理

AI前沿速递

持续分享最新AI前沿论文成果

最新文章

本地部署最强开源模型—DeepSeek-r1（保姆喂饭级教程）

2025 Kaggle 小白练习赛——使用保险数据集进行回归！

深度译读《DeepSeek FAQ》- 关于 DeepSeek 的答疑解惑

2025即插即用，Mamba线性注意力机制模块，持续起飞！

目前主流的attention方法都有哪些？

Tip 2024 | CGA特征融合模块，短短几行代码，有效提点，即插即用

TPAMI 2024 | 真的鲨疯啦！深度视觉学习诚不欺我！

AAAI 2024 | Conv-Former：卷积赋能，实现Transformer效果的即插即用模块！

【计算机视觉新突破】GLOMAP：重新定义全局结构光运动（SfM）的高效系统

如何评价大语言模型架构 TTT ？Transformer这次真的要没了？

NeurIPS | HiLo注意力机制：即插即用，精准捕获高低频特征

Flare7K++：解决夜间耀斑难题的综合数据集与流程

有小黑子说我家ViT在小数据集上不work，我真的忍不了了!

CVPR ｜只用一部分就好，别再傻乎乎的用普通卷积了！

博士招生 | 上海理工大学光学工程博士招生（优青教授课题组，物理、光纤传感、人工智能方向）

如何评价 Kimi 发布的多模态推理模型 k1.5？

告别手工特征提取！SparseViT 开启图像篡改定位新篇

CricaVPR：开启视觉位置识别新篇章，跨图像相关性助力性能飞跃

漫谈 Transformer 中的绝对位置编码、相对位置编码和融合位置编码（旋转位置编码 RoPE）

Nature | 给出材料性质就能输出材料结构，微软最新MatterGen模型，真猛！

博士招生 | 南方科技大学ai{DEAL} 课题组人机交互与教育技术方向博士后招聘

ECCV 2024 | 最新直方图transfomer，直接涨点起飞！

博士招生 | 吉林大学计算机学院90后教授、博士生导师招生、招老师啦！

AAAI 2024 | 动态频域fft模块，几行代码，有效提点，即插即用

得克萨斯大学提出一种解码器，以极低计算成本达成医学图像分割SOTA新性能！

TPAMI 2024 | 神来一笔！无监督半监督怎么进行球形空间领域适应呢？

超越Transformer，魔改的Mamba将横扫顶会？！

ICCV 2023 | 多尺度线性注意力模块，有效涨点，即插即用

博士招生 | 英国斯旺西大学招收研究型硕士（无需上课）和博士

CVPR 2024 | 单头注意力机制(SHSA)，即插即用，涨点起飞！

CVPR 2024 | 最新即插即用注意力机制+ffn层

博士招生 | 新加坡国立大学（NUS）招聘多名机器学习控制相关的全奖博士生 , 博士后

ECCV 2024 | 小波变换卷积的即插即用，引入了频域信息，助你涨点起飞

博士招生 | 加拿大阿尔伯塔大学招收电磁、无线通信、机器学习方向全奖硕士/博士/博士后/访问学者

TPAMI 2024 | 多模态融合超前研究！维度情感识别！

像教女朋友一样教你用Cuda实现PyTorch算子

TPAMI 2024 | 全新框架！深度学习可解释度量学习！

招生 | AI方向博士后招聘--北航杭州国际校园薪金40万起！

厉害了，LSTM+Transformer王炸创新，精准度又高了！

看我操作，手写一个神经网络训练架构！

一句话就能让论文评分飞升！上交大揭露大模型审稿背后的深度逻辑及风险！

【扩散模型】拿下CVPR两篇最佳论文，它究竟有何特别之处？我直呼牛批克拉斯！

博士招生 | 上海交通大学人工智能学院赵波课题组招硕博士生/实习生

一文读懂如何使用图框架构建多代理应用程序

博士招生 | 上海科技大学信息科学与技术学院 - 汪婧雅教授团队招收机器学习方向博士

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

TPAMI 2024 | 变态但很有效的图像识别方法！对于小样本泛化有奇效！

Stable Video Diffusion整出新活！学习【扩散模型视频】掌握3D/视频生成变革！

北京AI公司联合哈工大深圳联合招聘生物医学AI算法科研实习生（北京深圳均可）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉