【他山之石】ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

科技 2025-01-06 18:04 北京

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注！

本文提出了一种新的注意力机制DBRA和基于此的新型视觉Transformer网络DeBiFormer，通过双层路由注意力和代理查询优化键值对选择，增强了模型的识别能力，并在多个数据集上取得了优异的性能。

论文: DeBiFormer: Vision Transformer with Deformable Agent Bi-level Routing Attention

论文地址：https://arxiv.org/abs/2410.08582
论文代码：https://github.com/maclong01/DeBiFormer

创新点

提出了可变形双层路由注意力（DBRA），一种用于视觉识别的注意力内注意力架构，利用代理查询优化键值对的选择并增强注意力图中查询的可解释性。
提出了一种新型主干网络DeBiFormer，基于注意力热图的可视化结果具有更强的识别能力。
在ImageNet、ADE20K和COCO上进行的大量实验表明，DeBiFormer始终优于其他基线。

内容概述

最近，随着动态查询感知的稀疏注意力机制的出现，查询聚焦于动态语义最强的键值对，即双层路由注意力。然而，在这种方法中，查询是由语义键值对处理的，而不是源自详细的区域，这在某些情况下可能无法产生最佳结果。此外，在计算注意力时，为所有查询选择的这些键和值受到过多无关查询的影响，导致对重要查询的关注减少，这在执行分割时会产生显著影响。

第一个问题是如何定位可变形点。为注意力附加一个偏移网络，该网络以查询特征为输入，生成所有参考点的相应偏移量。因此，候选的可变形点朝着重要区域移动，以高灵活性和高效率捕获更多信息特征。
第二个问题是如何从语义相关的键值对中聚合信息，然后将信息广播回查询。当选择用于可变形点的键值对时，专注于前k个路由区域，选择与区域仅需的语义最相关的部分键值对。在选择了语义相关的键值对后，对可变形点查询应用标记到标记的注意力，然后应用第二个标记到标记的注意力将信息广播回查询。在此过程中，作为键值对的可变形点用于表示语义区域中最重要的点。

Model architectures

主要实验

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

收藏，分享、在看，给个三连击呗！

人工智能前沿讲习

领先的人工智能知识平台

注意力计算减少99.5%，端侧文生图扩散模型成功范式！CLEAR：类卷积线性扩散Transformer

【源头活水】英伟达「世界基础模型」诞生，引爆物理AI革命！75页报告出炉，GitHub狂飙2k星

中科院/中科大/芝加哥大学创新动态Token合并框架，无需微调，依然强大，零样本视频理解的突破性进展！

【他山之石】AAAI 2025 | IML领域首个稀疏化视觉Transformer，代码已开源

【源头活水】人工智能是不是走错了方向？

【源头活水】OpenAI奥特曼发长文「反思」：十年艰难创业路，如今已掌握AGI秘诀

【他山之石】AAAI 2025 | 基于真实世界雾霾驾驶视频的视频去雾和深度估计

【源头活水】DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

1.4s 即可生成1024px图像！SnapGen：轻量化架构和训练策略实现端侧文生图

【他山之石】ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

【源头活水】数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

【他山之石】AAAI 2025｜腾讯优图实验室10篇论文入选，含大型语言模型、深度伪造检测等研究方向

【源头活水】聊一聊大模型六小虎和四大厂的2024！

【源头活水】NeurIPS 2024｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

【他山之石】AAAI 2025 | 港大提出SparX：强化Vision Mamba和Transformer的稀疏跳跃连接机制

【综述专栏】2024->2025必看的十大「人工智能领域综述」论文

【他山之石】国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

【源头活水】AAAI 2025 | SparseViT：参数高效的稀疏化视觉Transformer

【源头活水】首次！大模型自动搜索人工生命，做出AI科学家的Sakana AI又放大招

【他山之石】Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

【源头活水】NeurIPS 2024｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

【他山之石】深度学习工作：从追求 SoTA 到揭示新现象

【源头活水】华人学子闪耀NeurIPS顶会，背后最大赢家竟是它

【源头活水】我在 NeurIPS’24 上感受到了焦虑和挫败

【他山之石】MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

【他山之石】复旦&微软提出StableAnimator: 首个端到端的高质量ID一致性人类视频生成新框架！

【源头活水】刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

【他山之石】全面超越CoT！Meta田渊栋团队新作：连续思维链

【综述专栏】低空经济万字综述｜基于深度学习的无人机检测和识别研究

【他山之石】统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

Scaling laws在视觉自回归模型上失效了？谷歌联合MIT发布Fluid：文生图质量刷新纪录！

【他山之石】谷歌逆风翻盘暴击OpenAI，90天王者归来！44页报告押注25年三大技术前沿

【他山之石】历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

【源头活水】Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

【他山之石】大模型助力分割，刷新10项SOTA！清华和美团提出HyperSeg：通用分割框架

【源头活水】北交大团队开源代码生成框架o1-Coder，并将推出强化微调RFT版本

【源头活水】Ilya错了，预训练没结束！LeCun等反击，「小模型时代」让奥特曼预言成真

【他山之石】LLM最大能力密度100天翻一倍！清华刘知远团队提出Densing Law

【他山之石】田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

【源头活水】工业界主流大语言模型后训练(Post-Training)技术总结

【他山之石】AAAI2025｜只根据题目和摘要就能预测论文影响力？！

【源头活水】白话版Scaling Laws for Precision 解读

【他山之石】NeurIPS神仙打架：李飞飞180页PPT谈视觉智能，Bengio同OpenAI员工吵架，何恺明谈AI宿命论

【源头活水】Sora火爆上线系统秒瘫，奥特曼直播第三更网友震翻！20秒1080p拍大片再近AGI

【他山之石】超图计算+目标检测，性能新SOTA！清华发布Hyper-YOLO：用超图捕捉高阶视觉关联

【他山之石】NeurIPS 2024最佳论文开奖！北大字节NUS夺冠，Ilya连续三年获奖

【源头活水】2024 ACL Fellow名单出炉！微软高剑峰等4位华人科学家入选

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉