AAAI 2024 | 即插即用，Conv-Former注意力模块，用卷积实现Transformer效果！

科技 2024-12-09 22:36 广东

前言本文介绍一种新颖的单分支实时分割网络，称为SCTNet。通过学习利用从transformer到CNN的语义信息对齐来提取丰富的语义信息，SCTNet在保持轻量级单分支CNN的快速推理速度的同时，享受transformer的高准确性。为了缓解CNN特征和Transformer特征之间的语义差距，设计了CFBlock（ConvFormer块），它仅使用卷积操作就能像Transformer块一样捕获长距离上下文。此外，提出了SIAM（语义信息对齐模块），以更有效的方式对齐特征。

来源：AI缝合术

仅用于学术分享，若侵权请联系删除

论文题目：SCTNet: Single-Branch CNN with Transformer Semantic Information for Real-Time Segmentation

中文题目: 单分支CNN结合Transformer语义信息的实时分割网络

论文链接：https://arxiv.org/pdf/2312.17071

官方github：https://github.com/xzz777/SCTNet

所属机构：华中科技大学人工智能与自动化学院国家多媒体信息智能处理技术重点实验室，美团

关键词：实时语义分割，Transformer，单分支CNN，语义信息对齐，深度学习

一、论文概要

Highlight

图5：在Cityscapes验证集上的可视化结果。与DDRNet-23（Pan等人，2022年）和RTFormer-B（Wang等人，2022年）相比，SCTNet-B生成的掩码具有更精细的细节，如浅蓝色框中突出显示的那样，以及更准确的大面积预测，如黄色框中突出显示的那样。

研究背景:

实时语义分割方法：近期的实时语义分割方法通常采用额外的语义分支来追求丰富的长距离上下文信息，但额外的分支会带来不希望的计算开销并减慢推理速度。
二、方法

图3：SCTNet的架构。CFBlock（Conv-Transformer，详见图4）通过SIAM（语义信息对齐模块）利用训练仅限的Transformer分支（在虚线框中以灰色显示），该模块由BFA（主干特征对齐）和SDHA（共享解码器头对齐）组成。

图4：Conv-Former块的设计（左）和卷积注意力的细节（右）。GDN表示分组双重归一化。⊗表示卷积操作，⊕代表加法，k表示核大小。

Conv-Former Block旨在模拟 Transformer 的结构，以更好地学习 Transformer 分支的语义信息，同时仅使用高效的卷积操作来实现注意力功能：

1. 结构设计：Conv-Former Block 的结构类似于典型的 Transformer 编码器。

2. 卷积注意力：为了实现低延迟和强大的语义提取能力，Conv-Former Block 的卷积注意力基于 GFA（GPU-Friendly Attention）改进而来。主要区别在于：

使用像素级卷积操作替代 GFA 中的矩阵乘法，避免了特征展平和重塑操作，以保持固有的空间结构并减少推理延迟。
通过将可学习向量扩展为可学习的核，以更好地对齐 Transformer 的语义信息。这种转换将像素与可学习向量之间的相似度计算转换为像素块与可学习核之间的相似度计算，并通过带有可学习核的卷积操作保留更多的局部空间信息。

3. 实现细节：为了提高效率，Conv-Former Block 使用条带卷积来近似标准卷积层。具体来说，使用 1×k 和 k×1 的卷积来近似 k×k 的卷积层。

4. 前馈网络（FFN）：与典型的 FFN 相比，Conv-Former Block 的 FFN 由两个标准的 3×3 卷积层组成，这比典型的 FFN 更高效，并提供了更大的感受野。

CFBlock 结合卷积和 Transformer 的特性，通过 Conv-Former 高效建模局部和全局依赖关系，能够在多种视觉任务中发挥作用，尤其是在需要平衡性能与效率的场景下（如实时检测或分割任务）。可以调整模块中卷积核的尺度、注意力头的数量以及中间通道数，以适配不同任务的需求。

注：Convolutional Attention模块也可单独拿出来使用！

三、实验分析

Cityscapes数据集上：SCTNet-B-Seg 100实现了80.5%的mIoU和62.8 FPS，这是实时分割领域的新状态最佳性能。SCTNet-B-Seg 75达到了79.8%的mIoU，比RTFormer-B和DDRNet-23等方法在准确率上更高，同时速度是它们的两倍。SCTNet-S在保持最高FPS的同时，也实现了与STDC 2、RTFormer-S、SeaFormer-B和TopFormer-B等方法相比更好的性能。

ADE 20K数据集上：SCTNet-B实现了43.0%的mIoU和145.1 FPS，比RTFormer-B快约1.6倍，同时mIoU性能高出0.9%。SCTNet-S达到了37.7%的mIoU，保持了在ADE 20K上所有方法中最高的FPS。

四、代码

温馨提示：对于所有推文中出现的代码，如果您在微信中复制的代码排版错乱，请复制该篇推文的链接，在任意浏览器中打开，再复制相应代码，即可成功在开发环境中运行！或者进入官方github仓库找到对应代码进行复制！

import torchfrom torch import nnimport torch.nn.functional as Ffrom mmengine.model import constant_init, kaiming_init,trunc_normal_init,normal_initfrom timm.models.layers import DropPath# 论文题目：SCTNet: Single-Branch CNN with Transformer Semantic Information for Real-Time Segmentation# 中文题目: 单分支CNN结合Transformer语义信息的实时分割网络# 论文链接：https://arxiv.org/pdf/2312.17071# 官方github：https://github.com/xzz777/SCTNet# 所属机构：华中科技大学人工智能与自动化学院国家多媒体信息智能处理技术重点实验室，美团# 关键词：实时语义分割，Transformer，单分支CNN，语义信息对齐，深度学习#BN->Conv->GELU->drop->Conv2->dropclass MLP(nn.Module):    def __init__(self,                 in_channels,                 hidden_channels=None,                 out_channels=None,                 drop_rate=0.):        super(MLP,self).__init__()        hidden_channels = hidden_channels or in_channels        out_channels = out_channels or in_channels        self.norm = nn.BatchNorm2d(in_channels, eps=1e-06)        self.conv1 = nn.Conv2d(in_channels, hidden_channels, 3, 1, 1)        self.act = nn.GELU()        self.conv2 = nn.Conv2d(hidden_channels, out_channels, 3, 1, 1)        self.drop = nn.Dropout(drop_rate)        self.apply(self._init_weights)    def _init_weights(self, m):        if isinstance(m, nn.Linear):            trunc_normal_init(m.weight, std=.02)            if m.bias is not None:                constant_init(m.bias, val=0)        elif isinstance(m, (nn.SyncBatchNorm, nn.BatchNorm2d)):            constant_init(m.weight, val=1.0)            constant_init(m.bias, val=0)        elif isinstance(m, nn.Conv2d):            kaiming_init(m.weight)            if m.bias is not None:                constant_init(m.bias, val=0)    def forward(self, x):        x = self.norm(x)        x = self.conv1(x)        x = self.act(x)        x = self.drop(x)        x = self.conv2(x)        x = self.drop(x)        return x    class ConvolutionalAttention(nn.Module):    """    The ConvolutionalAttention implementation    Args:        in_channels (int, optional): The input channels.        inter_channels (int, optional): The channels of intermediate feature.        out_channels (int, optional): The output channels.        num_heads (int, optional): The num of heads in attention. Default: 8    """    def __init__(self,                 in_channels,                 out_channels,                 inter_channels,                 num_heads=8):        super(ConvolutionalAttention,self).__init__()        assert out_channels % num_heads == 0, \            "out_channels ({}) should be be a multiple of num_heads ({})".format(out_channels, num_heads)        self.in_channels = in_channels        self.out_channels = out_channels        self.inter_channels = inter_channels        self.num_heads = num_heads        self.norm = nn.BatchNorm2d(in_channels, eps=1e-06)        self.kv =nn.Parameter(torch.zeros(inter_channels, in_channels, 7, 1))        self.kv3 =nn.Parameter(torch.zeros(inter_channels, in_channels, 1, 7))        trunc_normal_init(self.kv, std=0.001)        trunc_normal_init(self.kv3, std=0.001)        self.apply(self._init_weights)    def _init_weights(self, m):        if isinstance(m, nn.Linear):            trunc_normal_init(m.weight, std=.001)            if m.bias is not None:                constant_init(m.bias, val=0.)        elif isinstance(m, (nn.SyncBatchNorm, nn.BatchNorm2d)):            constant_init(m.weight, val=1.)            constant_init(m.bias, val=.0)        elif isinstance(m, nn.Conv2d):            trunc_normal_init(m.weight, std=.001)            if m.bias is not None:                constant_init(m.bias, val=0.)    def _act_dn(self, x):        x_shape = x.shape  # n,c_inter,h,w        h, w = x_shape[2], x_shape[3]        x = x.reshape(            [x_shape[0], self.num_heads, self.inter_channels // self.num_heads, -1])   #n,c_inter,h,w -> n,heads,c_inner//heads,hw        x = F.softmax(x, dim=3)           x = x / (torch.sum(x, dim =2, keepdim=True) + 1e-06)          x = x.reshape([x_shape[0], self.inter_channels, h, w])         return x    def forward(self, x):        """        Args:            x (Tensor): The input tensor. (n,c,h,w)            cross_k (Tensor, optional): The dims is (n*144, c_in, 1, 1)            cross_v (Tensor, optional): The dims is (n*c_in, 144, 1, 1)        """        x = self.norm(x)        x1 = F.conv2d(                x,                self.kv,                bias=None,                stride=1,                padding=(3,0))          x1 = self._act_dn(x1)          x1 = F.conv2d(                x1, self.kv.transpose(1, 0), bias=None, stride=1,                padding=(3,0))          x3 = F.conv2d(                x,                self.kv3,                bias=None,                stride=1,                padding=(0,3))         x3 = self._act_dn(x3)        x3 = F.conv2d(                x3, self.kv3.transpose(1, 0), bias=None, stride=1,padding=(0,3))         x=x1+x3        return x    class CFBlock(nn.Module):    """    The CFBlock implementation based on PaddlePaddle.    Args:        in_channels (int, optional): The input channels.        out_channels (int, optional): The output channels.        num_heads (int, optional): The num of heads in attention. Default: 8        drop_rate (float, optional): The drop rate in MLP. Default:0.        drop_path_rate (float, optional): The drop path rate in CFBlock. Default: 0.2    """    def __init__(self,                 in_channels,                 out_channels,                 num_heads=8,                 drop_rate=0.,                 drop_path_rate=0.):        super(CFBlock,self).__init__()        in_channels_l = in_channels        out_channels_l = out_channels        self.attn_l = ConvolutionalAttention(            in_channels_l,            out_channels_l,            inter_channels=64,            num_heads=num_heads)        self.mlp_l = MLP(out_channels_l, drop_rate=drop_rate)        self.drop_path = DropPath(            drop_path_rate) if drop_path_rate > 0. else nn.Identity()    def _init_weights_kaiming(self, m):        if isinstance(m, nn.Linear):            trunc_normal_init(m.weight, std=.02)            if m.bias is not None:                constant_init(m.bias, val=0)        elif isinstance(m, (nn.SyncBatchNorm, nn.BatchNorm2d)):            constant_init(m.weight, val=1.0)            constant_init(m.bias, val=0)        elif isinstance(m, nn.Conv2d):            kaiming_init(m.weight)            if m.bias is not None:                constant_init(m.bias, val=0)    def forward(self, x):        x_res = x        x = x_res + self.drop_path(self.attn_l(x))        x = x + self.drop_path(self.mlp_l(x))         return xif __name__ == '__main__':    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')    input=torch.randn(1,32,256,256).to(device)    print(input.shape)    cfb = CFBlock(32,32).to(device)    output=cfb(input)    print(output.shape)

运行结果

便捷下载

https://github.com/AIFengheshu/Plug-play-modules/blob/main/(AAAI%202024)%20CFBlock.py

AI算法与图像处理

考研逆袭985，非科班跨行AI，目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技，共同分享宝贵的资源资料，这里有机器学习，计算机视觉，Python等技术实战分享，也有考研，转行IT经验交流心得

最新文章

性能堪比o1？阿里mRAG新框架开启多模态动态检索新时代！

格局打开！马斯克的Grok免费开放给所有人了！

和Sora掰手腕！谷歌升级了视频模型Veo 2和Imagen 3。

图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit：BrushNet进阶版来了

ECCV 2024 | 扩散视觉Transformer：基于Transformer生成图像

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI！估值180亿初创3年颠覆硅谷

ECCV 2024 | BK-SDM：一种轻量级、快速且廉价的Stable Diffusion版本

极越，“暴雷”了！

别吹Sora了，实测一言难尽。甚至分不清人脸和猪？？

985教授发表1226篇论文，被质疑“学阀”“水文”，本人回应！

满血版 o1 上线两天，被网友玩出来了 10 个疯狂用法

AAAI 2024 | 即插即用，Conv-Former注意力模块，用卷积实现Transformer效果！

高中生中了顶会，还是一作。。。

字节团队提出 SuperClass 告别CLIP ，革新图像文本预训练分类技术！

被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！

NeurIPS 2024 | 融合现实与虚拟：人脸二维码生成技术开启新时代

网易深圳游戏部门全被裁？？

北大发布ConsisID：无需训练Lora，就可以定制化个人视频写真！

YOPO (You Only Prune Once)：给LLaVA做剪枝，大幅缩减多模态大模型计算量至12%！

雷军大学时候的论文，不需要参考文献

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

字节大瓜后续，GPU集群被投毒，索赔800万！

Kimi开源底层推理框架，1小时GitHub揽星1.2k

ArXiv | RealisHuman：用于修复生成图像中畸形人体部件的两阶段方法

RAG还是微调，怎么选？

Sora开放前夕，最好的视频生成模型是哪个？

国产AI视频生成CogVideoX v1.5，开源。

90%员工月入2-5万？互联网大厂月薪分布揭示真相

一位阿里P9的年薪和家庭资产

提升篇 | 优化YOLOv8以加快推理速度

中文版的TPAMI，你听说过么！

绝了，图片秒变代码，开发越来越简单了！

谷歌浏览器，要被强制出售！

Python优雅地书写LaTeX

又一985，落地深圳！

医图论文 Arxiv'24 | CAMS: 基于Mamba的无卷积和无注意力的图像分割

谷歌2024博士奖学金名单公布

喜提 TPAMI 顶刊！！！

网易高管贪污，基层裁员

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

如何在自定义数据集上训练 YOLOv8 实例分割模型

何恺明大神在MIT的秋季最新课程！附课程地址

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

顶会新方向！全新多模态大模型统一分割框架

被美国“制裁”的中国大学名单。。。

IC-Light V2：AI打光细节完美保留！

Pytorch2.x时代，关于C++部署的讨论

优化计算机视觉和图像处理中的图像格式：OpenCV中的PNG、JPG和WEBP

15岁，7年开发经验！初中生！开源项目被数百万收购

ECCV 2024 Oral | Co-Instruct: 让通用多模态大模型学会比较视觉质量

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉