NeurIPS | HiLo注意力机制：即插即用，精准捕获高低频特征

文摘 2025-01-27 10:39 安徽

点击下方卡片，关注“AI前沿速递”公众号

各种重磅干货，第一时间送达

标题：Fast Vision Transformers with HiLo Attention

论文链接：https://arxiv.org/abs/2205.13213

代码链接：https://github.com/ziplab/LITv2

创新点

HiLo Attention机制

高频/低频分离：提出了一种新的自注意力机制HiLo，将图像的高频和低频信息分离处理。高频信息（Hi-Fi）通过局部窗口自注意力捕捉细节，低频信息（Lo-Fi）通过全局注意力处理整体结构。这种分离方式能够更高效地处理图像特征，同时减少计算复杂度。
高效设计：HiLo通过分离自注意力头（heads），将高频和低频信息分别处理，显著降低了计算复杂度（FLOPs），并且在GPU和CPU上表现出更快的速度。

LITv2模型架构

基于直接速度评估的设计原则：与以往基于FLOPs（浮点运算次数）作为效率指标不同，LITv2直接在目标平台上评估模型的速度（throughput），以实现更实际的效率优化。
改进的Transformer架构：在LITv1的基础上，LITv2引入HiLo注意力机制，并通过移除早期的多头自注意力层（MSA），改为深度可分离卷积（Depthwise Convolution）来隐式编码位置信息，进一步提升了模型的效率和性能。

高效的频率处理

高频和低频的独立处理：HiLo通过局部窗口注意力处理高频信息，通过全局注意力处理低频信息，这种设计充分利用了不同频率信息在图像中的作用（高频关注细节，低频关注整体结构），从而在保持性能的同时显著提高效率。
动态窗口大小调整：论文提出通过调整窗口大小来优化HiLo在高分辨率图像上的效率，窗口大小的增加可以进一步降低计算复杂度，同时保持性能。

零填充卷积的位置编码

隐式位置信息编码：为了避免传统位置编码（如相对位置编码）在不同分辨率下的插值问题，LITv2在每个前馈网络（FFN）中引入3×3深度可分离卷积层，通过零填充隐式学习位置信息，同时扩大早期多层感知机（MLP）的感知野。

整体结构

LITv2模型整体架构

Patch Embedding（分块嵌入）

输入图像被分割成固定大小的patch（如16×16像素）。
每个patch通过线性层嵌入到高维空间，形成初始特征表示。
作用：将图像从像素空间转换为特征空间。

多阶段Transformer模块

LITv2主体由多个阶段（Stage）组成，每个阶段包含：

Deformable Token Merging（可变形Token合并）：

1、对特征图进行下采样，减少空间维度，增加通道数。

2、设计思想：类似金字塔结构，逐步降低分辨率以提取高级特征。

Transformer Block（Transformer块）：

包含两个核心部分：

1、HiLo Attention（HiLo注意力机制）：

分离处理高频（Hi-Fi）和低频（Lo-Fi）信息。
高频通过局部窗口自注意力捕捉细节；低频通过全局注意力处理整体结构。
分离自注意力头，降低计算复杂度。

2、ConvFFN（改进的前馈网络）：

在FFN中引入3×3深度可分离卷积。
优势：隐式编码位置信息，扩大感受野。

最终分类头（Classification Head）

最后一个Transformer阶段后，特征图通过全局平均池化生成全局特征。
全局特征通过线性分类器输出类别预测。

HiLo模块的作用

高效处理高分辨率图像HiLo通过分离高频（Hi-Fi）和低频（Lo-Fi）信息，能够显著减少计算复杂度和内存占用。在高分辨率图像处理任务中（如图像分类、目标检测和语义分割），HiLo可以高效处理局部细节和全局结构，提升推理速度。
提升模型效率和性能HiLo在GPU和CPU上表现出色，能够加快推理速度，特别适用于低延迟应用场景（如无人机图像处理和自动驾驶中的实时感知系统）。此外，HiLo在FLOPs、吞吐量和内存消耗方面优于现有的注意力机制。
增强模型鲁棒性在复杂的场景中，HiLo可以帮助模型更好地适应光照、噪声和遮挡等变化。通过关注不同频率的信息，HiLo能够减少噪声和干扰的影响，提高模型的鲁棒性。
易于集成和扩展HiLo模块具有良好的即插即用特性，可以轻松替换或补充现有的注意力机制。它能够与各种视觉模型（如YOLOv8、CNN等）结合，进一步优化模型结构和性能。

消融实验

HiLo与其他注意力机制的比较基于LITv2-S模型，作者将HiLo与其他高效注意力机制进行了比较，包括PVT中的空间缩减注意力（SRA）、Swin中的移位窗口注意力（W-MSA）以及Twins中的局部和全局交替注意力（T-MSA）。实验结果表明，HiLo在减少FLOPs的同时，实现了更好的性能和更快的推理速度。此外，在不同图像分辨率下的基准测试中，HiLo在FLOPs、吞吐量和内存消耗方面均优于其他注意力机制，例如Focal、QuadTree和Performer。
α的影响在HiLo中，α表示分配给低频（Lo-Fi）的注意力头比例。实验表明，在224×224分辨率和窗口大小为2的情况下，较大的α（如0.9）有助于减少FLOPs，因为更多的注意力头被分配给低频分支。当α=0时（即仅保留高频分支），模型性能显著下降，这表明低频信息在自注意力中非常重要。
架构修改的影响

引入3×3深度卷积层（ConvFFN）：在每个FFN中引入3×3深度卷积层后，模型在ImageNet分类和COCO检测任务上的性能显著提升，同时推理速度（FPS）也有所提高。
移除相对位置编码（RPE）：移除RPE后，模型在密集预测任务中的推理速度显著提升，但性能略有下降。
使用HiLo注意力机制：替换为HiLo注意力机制后，模型在FLOPs和推理速度上进一步优化，同时保持了较高的性能。

窗口大小的影响在COCO目标检测任务中，作者尝试了不同的窗口大小（如s=2和s=4）。结果表明，较大的窗口大小（s=4）可以进一步提高模型效率，但性能略有下降。

总结

消融实验表明，HiLo注意力机制在减少计算复杂度和提升模型效率方面表现出色，同时通过调整α和窗口大小，可以在不同任务中实现性能与效率的平衡。此外，引入深度卷积层和移除RPE等架构修改进一步优化了模型的整体性能。

代码实现

import torchimport torch.nn as nnimport torch.nn.functional as F
class HiLo(nn.Module):    def __init__(self, dim, num_heads=8, window_size=2, alpha=0.9):        """        HiLo Attention Mechanism.                Args:            dim (int): 输入特征的通道数。            num_heads (int): 注意力头的数量。            window_size (int): 局部窗口的大小（用于Hi-Fi）。            alpha (float): 高频和低频头的分配比例。        """        super(HiLo, self).__init__()        self.dim = dim        self.num_heads = num_heads        self.window_size = window_size        self.alpha = alpha        self.head_dim = dim // num_heads        self.scale = self.head_dim ** -0.5
        # 高频头数量和低频头数量        self.hi_heads = int((1 - alpha) * num_heads)        self.lo_heads = int(alpha * num_heads)
        # 线性投影层        self.qkv = nn.Linear(dim, dim * 3, bias=False)        self.proj = nn.Linear(dim, dim)
    def forward(self, x):        """        前向传播。                Args:            x (torch.Tensor): 输入特征图，形状为 (B, N, C)。        """        B, N, C = x.shape        q, k, v = self.qkv(x).reshape(B, N, 3, self.num_heads, self.head_dim).permute(2, 0, 3, 1, 4)        q, k, v = q.contiguous(), k.contiguous(), v.contiguous()
        # 分离Hi-Fi和Lo-Fi的头        q_hi, q_lo = q[:, :, :self.hi_heads, :, :], q[:, :, self.hi_heads:, :, :]        k_hi, k_lo = k[:, :, :self.hi_heads, :, :], k[:, :, self.hi_heads:, :, :]        v_hi, v_lo = v[:, :, :self.hi_heads, :, :], v[:, :, self.hi_heads:, :, :]
        # Hi-Fi: 局部窗口自注意力        x_hi = self._local_attention(q_hi, k_hi, v_hi, self.window_size)
        # Lo-Fi: 全局注意力        x_lo = self._global_attention(q_lo, k_lo, v_lo)
        # 合并Hi-Fi和Lo-Fi的输出        x = torch.cat([x_hi, x_lo], dim=2).permute(0, 2, 1, 3).reshape(B, N, C)        x = self.proj(x)        return x
    def _local_attention(self, q, k, v, window_size):        """        局部窗口自注意力。        """        B, _, H, N, C = q.shape        q = q.view(B * H, N, C)        k = k.view(B * H, N, C)        v = v.view(B * H, N, C)
        # 分割成局部窗口        q = self._window_partition(q, window_size)        k = self._window_partition(k, window_size)        v = self._window_partition(v, window_size)
        attn = (q @ k.transpose(-2, -1)) * self.scale        attn = attn.softmax(dim=-1)        x = (attn @ v).view(B, H, N, C)        return x
    def _global_attention(self, q, k, v):        """        全局注意力。        """        B, _, H, N, C = q.shape        q = q.view(B, H, N, C)        k = k.view(B, H, N, C)        v = v.view(B, H, N, C)
        # 全局平均池化        k = k.mean(dim=2, keepdim=True)        v = v.mean(dim=2, keepdim=True)
        attn = (q @ k.transpose(-2, -1)) * self.scale        attn = attn.softmax(dim=-1)        x = (attn @ v).view(B, H, N, C)        return x
    def _window_partition(self, x, window_size):        """        将特征图分割成局部窗口。        """        B, N, C = x.shape        H = int(N ** 0.5)        x = x.view(B, H, H, C)        x = x.view(B, H // window_size, window_size, H // window_size, window_size, C)        x = x.permute(0, 1, 3, 2, 4, 5).contiguous().view(-1, window_size * window_size, C)        return x

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

欢迎投稿

想要让高质量的内容更快地触达读者，降低他们寻找优质信息的成本吗？关键在于那些你尚未结识的人。他们可能掌握着你渴望了解的知识。【AI前沿速递】愿意成为这样的一座桥梁，连接不同领域、不同背景的学者，让他们的学术灵感相互碰撞，激发出无限可能。

【AI前沿速递】欢迎各高校实验室和个人在我们的平台上分享各类精彩内容，无论是最新的论文解读，还是对学术热点的深入分析，或是科研心得和竞赛经验的分享，我们的目标只有一个：让知识自由流动。

📝 投稿指南：

确保文章为个人原创，未在任何公开渠道发布。若文章已在其他平台发表或即将发表，请明确说明。
建议使用Markdown格式撰写稿件，并以附件形式发送清晰、无版权争议的配图。
【AI前沿速递】尊重作者的署名权，并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。

📬 投稿方式：

您可以通过添加我们的小助理微信（aiqysd）进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”

长按添加AI前沿速递小助理

AI前沿速递

持续分享最新AI前沿论文成果

最新文章

本地部署最强开源模型—DeepSeek-r1（保姆喂饭级教程）

2025 Kaggle 小白练习赛——使用保险数据集进行回归！

深度译读《DeepSeek FAQ》- 关于 DeepSeek 的答疑解惑

2025即插即用，Mamba线性注意力机制模块，持续起飞！

目前主流的attention方法都有哪些？

Tip 2024 | CGA特征融合模块，短短几行代码，有效提点，即插即用

TPAMI 2024 | 真的鲨疯啦！深度视觉学习诚不欺我！

AAAI 2024 | Conv-Former：卷积赋能，实现Transformer效果的即插即用模块！

【计算机视觉新突破】GLOMAP：重新定义全局结构光运动（SfM）的高效系统

如何评价大语言模型架构 TTT ？Transformer这次真的要没了？

NeurIPS | HiLo注意力机制：即插即用，精准捕获高低频特征

Flare7K++：解决夜间耀斑难题的综合数据集与流程

有小黑子说我家ViT在小数据集上不work，我真的忍不了了!

CVPR ｜只用一部分就好，别再傻乎乎的用普通卷积了！

博士招生 | 上海理工大学光学工程博士招生（优青教授课题组，物理、光纤传感、人工智能方向）

如何评价 Kimi 发布的多模态推理模型 k1.5？

告别手工特征提取！SparseViT 开启图像篡改定位新篇

CricaVPR：开启视觉位置识别新篇章，跨图像相关性助力性能飞跃

漫谈 Transformer 中的绝对位置编码、相对位置编码和融合位置编码（旋转位置编码 RoPE）

Nature | 给出材料性质就能输出材料结构，微软最新MatterGen模型，真猛！

博士招生 | 南方科技大学ai{DEAL} 课题组人机交互与教育技术方向博士后招聘

ECCV 2024 | 最新直方图transfomer，直接涨点起飞！

博士招生 | 吉林大学计算机学院90后教授、博士生导师招生、招老师啦！

AAAI 2024 | 动态频域fft模块，几行代码，有效提点，即插即用

得克萨斯大学提出一种解码器，以极低计算成本达成医学图像分割SOTA新性能！

TPAMI 2024 | 神来一笔！无监督半监督怎么进行球形空间领域适应呢？

超越Transformer，魔改的Mamba将横扫顶会？！

ICCV 2023 | 多尺度线性注意力模块，有效涨点，即插即用

博士招生 | 英国斯旺西大学招收研究型硕士（无需上课）和博士

CVPR 2024 | 单头注意力机制(SHSA)，即插即用，涨点起飞！

CVPR 2024 | 最新即插即用注意力机制+ffn层

博士招生 | 新加坡国立大学（NUS）招聘多名机器学习控制相关的全奖博士生 , 博士后

ECCV 2024 | 小波变换卷积的即插即用，引入了频域信息，助你涨点起飞

博士招生 | 加拿大阿尔伯塔大学招收电磁、无线通信、机器学习方向全奖硕士/博士/博士后/访问学者

TPAMI 2024 | 多模态融合超前研究！维度情感识别！

像教女朋友一样教你用Cuda实现PyTorch算子

TPAMI 2024 | 全新框架！深度学习可解释度量学习！

招生 | AI方向博士后招聘--北航杭州国际校园薪金40万起！

厉害了，LSTM+Transformer王炸创新，精准度又高了！

看我操作，手写一个神经网络训练架构！

一句话就能让论文评分飞升！上交大揭露大模型审稿背后的深度逻辑及风险！

【扩散模型】拿下CVPR两篇最佳论文，它究竟有何特别之处？我直呼牛批克拉斯！

博士招生 | 上海交通大学人工智能学院赵波课题组招硕博士生/实习生

一文读懂如何使用图框架构建多代理应用程序

博士招生 | 上海科技大学信息科学与技术学院 - 汪婧雅教授团队招收机器学习方向博士

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

TPAMI 2024 | 变态但很有效的图像识别方法！对于小样本泛化有奇效！

Stable Video Diffusion整出新活！学习【扩散模型视频】掌握3D/视频生成变革！

北京AI公司联合哈工大深圳联合招聘生物医学AI算法科研实习生（北京深圳均可）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉