AAAI 2024 | Conv-Former：卷积赋能，实现Transformer效果的即插即用模块！

文摘 2025-02-01 11:03 安徽

点击下方卡片，关注“AI前沿速递”公众号

各种重磅干货，第一时间送达

标题：SCTNet: Single-Branch CNN with Transformer Semantic Information for Real-Time Segmentation

论文链接：https://arxiv.org/pdf/2312.17071

代码链接：https://github.com/xzz777/SCTNet

来源：华中科技大学人工智能与自动化学院国家多媒体信息智能处理技术重点实验室，美团

论文概要

SCTNet 是一种新型的实时语义分割网络，它通过学习从 Transformer 中提取语义信息，在保持轻量级单分支 CNN 高效推理速度的同时，获得了 Transformer 的高精度。

核心思想：

单分支架构： 摒弃了双边网络中额外的语义分支，仅使用单个 CNN 分支进行推理，从而显著提升了推理速度。
Transformer 语义信息： 利用 Transformer 作为训练阶段的语义分支，提取丰富的全局语义信息。
语义信息对齐模块 (SIAM)： 设计了 CFBlock 和 SIAM 模块，有效地将 Transformer 的语义信息传递给 CNN 分支。
CFBlock： 一种类似于 Transformer 块的 CNN 块，能够通过卷积操作捕获长距离上下文信息。
SIAM： 包含 backbone 特征对齐 (BFA) 和共享解码器头对齐 (SDHA) 两个部分，用于有效地对齐 Transformer 和 CNN 的特征。

贡献

SCTNet 论文提出了一个名为 SCTNet 的新型实时语义分割网络，它通过学习从 Transformer 中提取语义信息，在保持轻量级单分支 CNN 高效推理速度的同时，获得了 Transformer 的高精度。其主要贡献可以总结为以下三个方面：

提出了一种新颖的单分支实时分割网络 SCTNet：

通过利用 Transformer 的语义信息，SCTNet 享受了 Transformer 的高精度。
只需部署单分支 CNN，避免了双边网络中的额外计算成本，从而保持了轻量级单分支 CNN 的高效推理速度。

设计了 CFBlock 和 SIAM 模块，有效地将 Transformer 的语义信息传递给 CNN 分支：

CFBlock (Conv-Former Block): 一种类似于 Transformer 块的 CNN 块，能够通过卷积操作捕获长距离上下文信息，从而减轻 CNN 和 Transformer 特征之间的语义差距。
SIAM (Semantic Information Alignment Module): 包含 backbone 特征对齐 (BFA) 和共享解码器头对齐 (SDHA) 两个部分，用于有效地对齐 Transformer 和 CNN 的特征，从而使 CNN 分支能够学习到高质量的语义信息。

实验结果表明 SCTNet 在 Cityscapes、ADE20K 和 COCO-Stuff-10K 数据集上优于现有的最先进方法：

SCTNet 在精度和速度之间取得了更好的平衡，为实时语义分割提供了一个新的视角。
SIAM 模块可以有效地提升其他 CNN 和 Transformer 分割方法的性能，证明了其有效性和泛化能力。

方法

Conv-Former Block 是一种创新的网络模块，旨在融合卷积操作的高效性与 Transformer 的语义提取能力，以在视觉任务中实现高性能与低延迟的平衡。以下是其核心设计与优势：

1. 结构设计

Conv-Former Block 的架构灵感来源于经典的 Transformer 编码器，但完全采用卷积操作来实现，避免了传统 Transformer 中的复杂计算。

2. 卷积注意力机制

为了提升语义提取能力和推理效率，Conv-Former Block 的卷积注意力机制基于 GFA（GPU-Friendly Attention）改进而来，主要创新点如下：

像素级卷积替代矩阵乘法：摒弃了 GFA 中的特征展平与重塑操作，直接使用像素级卷积，保留了数据的空间结构，同时显著降低了推理延迟。
可学习核的引入：将可学习向量扩展为可学习核，使像素与向量之间的相似度计算转变为像素块与核之间的相似度计算。这种设计不仅更好地对齐了 Transformer 的语义信息，还通过卷积操作保留了更多的局部空间信息。

3. 实现细节

为了进一步提高计算效率，Conv-Former Block 采用条带卷积（1×k 和 k×1）来近似标准的 k×k 卷积层，从而在减少计算量的同时保持了卷积的有效性。

4. 前馈网络（FFN）

与传统的 Transformer FFN 不同，Conv-Former Block 的 FFN 由两个标准的 3×3 卷积层组成。这种设计不仅提高了计算效率，还扩大了感受野，使其在处理视觉任务时更具优势。

5. 性能与适用性

Conv-Former Block 结合了卷积和 Transformer 的优点，能够高效地建模局部和全局依赖关系。它适用于多种视觉任务，尤其是在需要平衡性能与效率的场景中表现出色，例如实时目标检测和图像分割。此外，模块的卷积核尺度、注意力头数量以及中间通道数均可灵活调整，以满足不同任务的需求。

实验分析

SCTNet 论文通过在 Cityscapes、ADE20K 和 COCO-Stuff-10K 数据集上进行实验，验证了其方法的有效性和优越性。以下是对实验结果的分析：

与现有方法的比较：

Cityscapes 数据集： SCTNet 在 Cityscapes 数据集上取得了最先进的性能，在保证高精度的同时，实现了更高的推理速度。例如，SCTNet-B-Seg100 在 mIoU 达到 80.5% 的同时，实现了 62.8 FPS 的推理速度，优于其他实时分割方法。
ADE20K 数据集： SCTNet 在 ADE20K 数据集上也取得了最佳精度和速度的平衡。SCTNet-B 在 mIoU 达到 43.0% 的同时，实现了 145.1 FPS 的推理速度，比 RTFormer-B 快 1.6 倍，并且 mIoU 高出 0.9%。
COCO-Stuff-10K 数据集： SCTNet 在 COCO-Stuff-10K 数据集上同样表现出色，在 mIoU 达到 35.9% 的同时，实现了 141.5 FPS 的推理速度，优于其他实时分割方法。

消融实验：

不同类型的块： 与 ResBlock 和 SegFormer Block 相比，CFBlock 能够显著提升分割精度，并且在速度和参数量方面也取得了更好的平衡。
语义信息对齐模块 (SIAM) 的有效性： SIAM 能够有效地将 Transformer 的语义信息传递给 CNN 分支，从而提升分割精度。实验结果表明，使用 SIAM 可以显著提升 SegFormer、SegNext、SeaFormer 和 DDRNet 的性能。
组件消融： 实验结果表明，CFBlock、BFA 和 SDHA 都是 SCTNet 的关键组件，能够有效地提升分割精度。

代码实现

import torchimport torch.nn as nnimport torch.nn.functional as F
class ConvFormerAttention(nn.Module):    def __init__(self, dim, num_heads, kernel_size=3):        super(ConvFormerAttention, self).__init__()        self.dim = dim        self.num_heads = num_heads        head_dim = dim // num_heads                self.query = nn.Conv2d(dim, dim, kernel_size=1)        self.key = nn.Conv2d(dim, dim, kernel_size=1)        self.value = nn.Conv2d(dim, dim, kernel_size=1)                self.conv = nn.Conv2d(dim, dim, kernel_size=kernel_size, padding=kernel_size//2)                self.proj = nn.Conv2d(dim, dim, kernel_size=1)
    def forward(self, x):        B, C, H, W = x.shape        q = self.query(x).view(B, self.num_heads, C // self.num_heads, -1)        k = self.key(x).view(B, self.num_heads, C // self.num_heads, -1)        v = self.value(x).view(B, self.num_heads, C // self.num_heads, -1)                q = q.permute(0, 1, 3, 2)        attn = torch.matmul(q, k) * (C // self.num_heads) ** -0.5        attn = F.softmax(attn, dim=-1)                out = torch.matmul(attn, v.permute(0, 1, 3, 2))        out = out.permute(0, 1, 3, 2).contiguous().view(B, C, H, W)                out = self.conv(out)        out = self.proj(out)                return out

欢迎投稿

想要让高质量的内容更快地触达读者，降低他们寻找优质信息的成本吗？关键在于那些你尚未结识的人。他们可能掌握着你渴望了解的知识。【AI前沿速递】愿意成为这样的一座桥梁，连接不同领域、不同背景的学者，让他们的学术灵感相互碰撞，激发出无限可能。

【AI前沿速递】欢迎各高校实验室和个人在我们的平台上分享各类精彩内容，无论是最新的论文解读，还是对学术热点的深入分析，或是科研心得和竞赛经验的分享，我们的目标只有一个：让知识自由流动。

📝 投稿指南：

确保文章为个人原创，未在任何公开渠道发布。若文章已在其他平台发表或即将发表，请明确说明。
建议使用Markdown格式撰写稿件，并以附件形式发送清晰、无版权争议的配图。
【AI前沿速递】尊重作者的署名权，并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。

📬 投稿方式：

您可以通过添加我们的小助理微信（aiqysd）进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”

长按添加AI前沿速递小助理

AI前沿速递

持续分享最新AI前沿论文成果

最新文章

本地部署最强开源模型—DeepSeek-r1（保姆喂饭级教程）

2025 Kaggle 小白练习赛——使用保险数据集进行回归！

深度译读《DeepSeek FAQ》- 关于 DeepSeek 的答疑解惑

2025即插即用，Mamba线性注意力机制模块，持续起飞！

目前主流的attention方法都有哪些？

Tip 2024 | CGA特征融合模块，短短几行代码，有效提点，即插即用

TPAMI 2024 | 真的鲨疯啦！深度视觉学习诚不欺我！

AAAI 2024 | Conv-Former：卷积赋能，实现Transformer效果的即插即用模块！

【计算机视觉新突破】GLOMAP：重新定义全局结构光运动（SfM）的高效系统

如何评价大语言模型架构 TTT ？Transformer这次真的要没了？

NeurIPS | HiLo注意力机制：即插即用，精准捕获高低频特征

Flare7K++：解决夜间耀斑难题的综合数据集与流程

有小黑子说我家ViT在小数据集上不work，我真的忍不了了!

CVPR ｜只用一部分就好，别再傻乎乎的用普通卷积了！

博士招生 | 上海理工大学光学工程博士招生（优青教授课题组，物理、光纤传感、人工智能方向）

如何评价 Kimi 发布的多模态推理模型 k1.5？

告别手工特征提取！SparseViT 开启图像篡改定位新篇

CricaVPR：开启视觉位置识别新篇章，跨图像相关性助力性能飞跃

漫谈 Transformer 中的绝对位置编码、相对位置编码和融合位置编码（旋转位置编码 RoPE）

Nature | 给出材料性质就能输出材料结构，微软最新MatterGen模型，真猛！

博士招生 | 南方科技大学ai{DEAL} 课题组人机交互与教育技术方向博士后招聘

ECCV 2024 | 最新直方图transfomer，直接涨点起飞！

博士招生 | 吉林大学计算机学院90后教授、博士生导师招生、招老师啦！

AAAI 2024 | 动态频域fft模块，几行代码，有效提点，即插即用

得克萨斯大学提出一种解码器，以极低计算成本达成医学图像分割SOTA新性能！

TPAMI 2024 | 神来一笔！无监督半监督怎么进行球形空间领域适应呢？

超越Transformer，魔改的Mamba将横扫顶会？！

ICCV 2023 | 多尺度线性注意力模块，有效涨点，即插即用

博士招生 | 英国斯旺西大学招收研究型硕士（无需上课）和博士

CVPR 2024 | 单头注意力机制(SHSA)，即插即用，涨点起飞！

CVPR 2024 | 最新即插即用注意力机制+ffn层

博士招生 | 新加坡国立大学（NUS）招聘多名机器学习控制相关的全奖博士生 , 博士后

ECCV 2024 | 小波变换卷积的即插即用，引入了频域信息，助你涨点起飞

博士招生 | 加拿大阿尔伯塔大学招收电磁、无线通信、机器学习方向全奖硕士/博士/博士后/访问学者

TPAMI 2024 | 多模态融合超前研究！维度情感识别！

像教女朋友一样教你用Cuda实现PyTorch算子

TPAMI 2024 | 全新框架！深度学习可解释度量学习！

招生 | AI方向博士后招聘--北航杭州国际校园薪金40万起！

厉害了，LSTM+Transformer王炸创新，精准度又高了！

看我操作，手写一个神经网络训练架构！

一句话就能让论文评分飞升！上交大揭露大模型审稿背后的深度逻辑及风险！

【扩散模型】拿下CVPR两篇最佳论文，它究竟有何特别之处？我直呼牛批克拉斯！

博士招生 | 上海交通大学人工智能学院赵波课题组招硕博士生/实习生

一文读懂如何使用图框架构建多代理应用程序

博士招生 | 上海科技大学信息科学与技术学院 - 汪婧雅教授团队招收机器学习方向博士

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

TPAMI 2024 | 变态但很有效的图像识别方法！对于小样本泛化有奇效！

Stable Video Diffusion整出新活！学习【扩散模型视频】掌握3D/视频生成变革！

北京AI公司联合哈工大深圳联合招聘生物医学AI算法科研实习生（北京深圳均可）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉