ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

科技 2025-01-03 22:01 广东

↑ 点击蓝字关注极市平台

作者丨晓飞的算法工程笔记

来源丨晓飞的算法工程笔记

编辑丨极市平台

极市导读

本文提出了一种新的注意力机制DBRA和基于此的新型视觉Transformer网络DeBiFormer，通过双层路由注意力和代理查询优化键值对选择，增强了模型的识别能力，并在多个数据集上取得了优异的性能。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文: DeBiFormer: Vision Transformer with Deformable Agent Bi-level Routing Attention

论文地址：https://arxiv.org/abs/2410.08582
论文代码：https://github.com/maclong01/DeBiFormer

创新点

提出了可变形双层路由注意力（DBRA），一种用于视觉识别的注意力内注意力架构，利用代理查询优化键值对的选择并增强注意力图中查询的可解释性。
提出了一种新型主干网络DeBiFormer，基于注意力热图的可视化结果具有更强的识别能力。
在ImageNet、ADE20K和COCO上进行的大量实验表明，DeBiFormer始终优于其他基线。

内容概述

为了改善注意力，许多研究提出了精心设计的高效注意力模式，其中每个查询仅选择一小部分键值对进行关注。然而，尽管有不同的合并或选择键和值标记的策略，这些标记对于查询而言并不具有语义性。在将预训练的ViT和DETR应用于其它下游任务时，查询并不是来自语义区域的键值对。因此，强迫所有查询集中在不充足的标记集合上可能不会产生最佳结果。

最近，随着动态查询感知的稀疏注意力机制的出现，查询聚焦于动态语义最强的键值对，即双层路由注意力。然而，在这种方法中，查询是由语义键值对处理的，而不是源自详细的区域，这在某些情况下可能无法产生最佳结果。此外，在计算注意力时，为所有查询选择的这些键和值受到过多无关查询的影响，导致对重要查询的关注减少，这在执行分割时会产生显著影响。

为了使查询的注意力更加高效，论文提出了可变形双层路由注意力（DBRA），这是一种用于视觉识别的注意力内注意力架构。

第一个问题是如何定位可变形点。为注意力附加一个偏移网络，该网络以查询特征为输入，生成所有参考点的相应偏移量。因此，候选的可变形点朝着重要区域移动，以高灵活性和高效率捕获更多信息特征。
第二个问题是如何从语义相关的键值对中聚合信息，然后将信息广播回查询。当选择用于可变形点的键值对时，专注于前k个路由区域，选择与区域仅需的语义最相关的部分键值对。在选择了语义相关的键值对后，对可变形点查询应用标记到标记的注意力，然后应用第二个标记到标记的注意力将信息广播回查询。在此过程中，作为键值对的可变形点用于表示语义区域中最重要的点。

`DeBiFormer`

可变形双层路由注意力(`DBRA`)

DBRA首先采用一个可变形注意力模块，根据查询特征生成参考点的偏移量，得到可变形点。然而，这些点往往倾向于聚集在重要区域，导致在某些区域的过度集中。

为了解决这个问题，参考BiFormer引入了可变形点感知的区域划分，确保每个可变形点仅与少量的键值对进行交互。然而，单靠区域划分可能导致重要区域和不重要区域之间的不平衡。

为了应对这一问题，DBRA将每个可变形点作为一个代理查询，与语义区域的键值对计算注意力。这种方法确保每个重要区域只分配少数可变形点，从而使注意力能够分布在图像的所有关键区域。较少重要区域的注意力得以减少，而在更重要的区域则得以增加，从而确保整个图像的注意力分布达成平衡。

Model architectures

基于DBRA作为基本构建块，论文提出了一种新颖的视觉变换器，称为DeBiFormer。

遵循了最先进的视觉Tansformer，采用四阶段金字塔结构。在第一阶段使用重叠的图像块嵌入，在第二到第四阶段使用图像块合并模块。这是为了降低输入的空间分辨率，同时增加通道数。随后，使用个连续的DeBiFormer块来转换特征。

在每个DeBiFormer块中，开始时使用的深度卷积，为了隐式编码相对位置的信息。随后，依次使用一个DBRA模块和一个具有扩展比例的2-ConvFFN模块，分别用于跨位置关系建模和每位置嵌入。

主要实验

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

深度强化学习中SAC算法：数学原理、网络架构及其PyTorch实现

聊一聊大模型六小虎和四大厂的2024！

NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一（昆仑万维等）

AAAI'25开源 | SUTrack：简单的模型，统一全部单目标跟踪任务！

AAAI 2025｜腾讯优图10篇论文入选！深度伪造检测、图像编辑等研究方向

每月都有重磅研究，2024全年值得一读的论文都在这了

参数减少99.5%，媲美全精度FLUX！字节跳动等发布首个1.58-bit FLUX量化模型

AAAI 2025 | SparseViT：参数高效的稀疏化视觉Transformer

CUDA-MODE课程笔记｜GPU集合通信(NCCL)

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

当红炸子鸡 LoRA，是当代微调 LLMs 的正确姿势？

大模型轻量化解读系列 (五)：QuaRot：基于 Rotation 的 4-bit LLM 量化

谈谈DeepSeek-v3在算力约束下的出色工作

我与vLLM的2024：清华大佬的vLLM开发之路

NeurIPS 2024 | DACER：扩散模型与在线强化学习强强联合创造新SOTA！

实践教程｜图解NumPy，这是理解数组最形象的一份教程了

谷歌劈柴立军令状：必斩OpenAI，夺回第一！

AAAI 2025 | 港大提出SparX：强化Vision Mamba和Transformer的稀疏跳跃连接机制

4比特量化三倍加速不掉点！清华即插即用的SageAttention迎来升级

AAAI 2025 | 合成数据助力自驾点云异常检测新SOTA

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

位置编码背后的理论解释——傅里叶特征 (Fourier Feature）与核回归

超越ControlNet++！腾讯优图提出动态条件选择新架构

【CUDA编程】手撸一个大模型推理框架 FasterLLaMA

写代码的时候，请心疼一下读代码的同事

文生图击败所有扩散SOTA方案！智源研究院等提出NOVA：迈向统一的多任务大模型

大模型轻量化系列解读 (四)：LLM.int8()：大语言模型 8-bit 量化初探

AAAI 2025｜多场景行人属性识别基准数据集MSP60K：57个类别和8个特定场景

MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

深度学习工作：从追求 SoTA 到揭示新现象

[vLLM vs TensorRT-LLM] #5 动态序列长度场景对比

Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

超越YOLO11和D-FINE！DEIM：最强实时目标检测算法

超越CogVideoX-5B、Pika、Kling 和 Gen-3！苹果再发新作，视频生成大模型全面报告

使用 PyTorch 加速生成式 AI 之 GPT Fast

我在 NeurIPS’24 上感受到了焦虑和挫败

NIPS 2024 最佳论文 VAR 深度解读：下一尺度预测为何能超越扩散模型？

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

使用OpenCV测量图像中物体之间的距离

李飞飞曾入选的AI2050最新名单出炉！清华校友等25位Fellow上榜

恺明新作Fluid：文生图质量刷新纪录

低空经济万字综述｜基于深度学习的无人机检测和识别研究

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

首次实现8K图像生成！南洋理工&阿里&复旦提出FreeScale：让扩散模型解锁更高分辨率

大模型轻量化系列解读 (三)：LLM-QAT：无需数据的 LLM 量化感知训练

[vLLM vs TensorRT-LLM] #4 系统调度schedule比较

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

创新点

内容概述

DeBiFormer

可变形双层路由注意力(DBRA)

Model architectures

主要实验

`DeBiFormer`

可变形双层路由注意力(`DBRA`)