RT-DETRv3横空出世！探究实时目标检测的尽头

文摘 2024-09-27 14:08 江苏

RT-DETR是首个实时端到端Transformer目标检测算法，但性能有限。

RT-DETRv2通过优化训练策略提升性能而不减速，但训练时间延长。

为此，百度提出RT-DETRv3，采用分层密集正监督方法，旨在不增加训练时长的基础上提升性能。

优化点

RT-DETRv3的整体结构如图所示。保留了RT-DETR的整体框架（以黄色突出显示），并额外引入了分层解耦密集监督方法（以绿色突出显示）。

输入图像通过CNN骨干网（例如ResNet）和特征融合模块（称为高效混合编码器）进行处理，以获得多尺度特征{C3、C4和C5}。然后，这些特征被并行馈送到基于CNN的一对多辅助分支和基于transform的解码器分支中。

对于基于CNN的一对多辅助分支，RT-DETRv3采用现有的最先进的密集监督方法，如PP-YOLOE，来协同监督编码器的表示学习。

具体来说，RT-DETRv3直接将编码器的输出特征{C3、C4和C5}集成到PP-YOLOE头中，对于一对多匹配算法，遵循PP-YOLOE头的配置，在训练的早期使用ATSS匹配算法，然后切换到TaskAlign匹配算法。损失函数分别采用了VFL和DFL解码器由一系列Transform块组成，每个块都包含一个self_att、cross-att和FFN模块。

最初，查询通过自注意力模块相互交互，以增强或减少它们的特征表示。随后，每个查询通过交叉注意力模块从编码器的输出特征中检索信息来更新自身。最后，FFN预测与每个查询对应的目标的类和边界框坐标。和RT-DETR不同的是RT-DETRv3提出了基于掩码自注意的多个自注意扰动模块。这个扰动模块的实现细节如下图所示。

实验结果

实验结果RT-DETRv3无论是在DETR系列还是基于CNN的yolo系列都有不同程度的提升。

与RT-DETR相比，采用6倍训练计划，RT-DETRv3显示R18、R34、R50和R101主干分别提高了1.6%、1.0%、0.3%和0.3%。与RT-DETRv2相比，RT-DETRv3分别提高了1.4%/0.8%和0.9%/0.2%。此外，RT-DETRv3还保持了与RT-DETR和RT-DETRv2相同的推理速度。

在与yolo系列的对比中，根据推理速度将模型分为小、中、大三个尺度。

在类似的推理性能条件下，RT-DETRv3和OLOv6-3.0、Gold-YOLO、YOLO-MS、YOLOv8、YOLOv9和YOLOv10进行了对比。

如表2所示，对于小规模模型，RT-DETRv3-R18方法的性能分别优于YOLOv6-3.0-S、Gold-YOLO-S、YOLO-MS-S、YOLOv8-S、YOLOv9-S和YOLOv10-S 4.4%、3.3%、2.5%、2.5%、2.0%和2.4%。
对于中尺度模型，RT-DETRv3的性能也优于YOLOv6-3.0-M、Gold-YOLO-M、YOLO-MS-M、YOLOv8-M、YOLOv9-M和YOLOv10-M。
对于大尺度模型，RT-DETRv3始终优于基于CNN的实时目标检测器。同时与基于CNN的实时检测器相比，RT-DETRv3在实现卓越性能的同时，可以将训练时间减少到60%甚至更少。

结论

从论文里看RT-DETRv3明显优于现有的实时检测器，包括RT-DETR系列和YOLO系列。同时，它只需要一半的时间就可以达到相当的性能。只是代码还没有发布，等发布后可以进行论文复现。

槿墨AI

产品服务

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识，深入业务场景，精确捕获用户意图，为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

📞若您有相关需求，欢迎点击下方链接与我们沟通洽谈

🗨️也可以在公众号后台给我们留言

参考链接

1.https://zhuanlan.zhihu.com/p/721509493
2.https://mp.weixin.qq.com/s/_rEsn6_qBmfQIoq4vSVmAw
3.https://arxiv.org/pdf/2409.08475

http://mp.weixin.qq.com/s?__biz=MzkwMjY0ODMwNA==&mid=2247486872&idx=1&sn=6a805a1bd56f6b1b8cfa022fa5c38a1b

槿墨AI

开启探索人类未来命运的旅程，拥抱如槿似墨的无限可能。

最新文章

【文生智界】WonderWorld：一图在手，世界我有

【文生智界】介绍一下，Stable Diffusion！文生图的稳定之选

【文生智界】AI将3D建模带入大众视野，创意如何突破技术壁垒？

告别预设剧本，“人生”永无止境：Unbounded

国庆节火遍抖音的AI雷军从何而来——GPT-SoVits

ChatGPT终于变AI搜索引擎了！网页/手机/桌面版同时上线，即将人人可用

7天开发一个AI Agent应用！秘密武器：一体化数据库

苹果AI上线，ChatGPT免费用！首款M4 Mac诞生

大模型“投资热”降温，下半场转向“应用落地”

POINTS多模态大模型亮相：微信团队打造，高效简洁性能强

港大最新开源LightRAG：更快、更强、更经济的RAG系统

AIGC丨ChatGPT的流式输出技术SSE实践！

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

切，这玩意儿不就是一眼 AI …… 吧？

字节：不做眼镜做耳机，揭秘Ola Friend核心技术

YOLO11：重新定义性能极限！对比YOLO8如何？

H100价格大跌！GPU供需失衡，真过剩？

大语言模型垂直领域融合的最优解：微调or检索增强生成?

长文本、语音、视觉全覆盖，中国移动抬上大招：九天善智！

李飞飞「数字表兄弟」破解机器人训练难题！零样本sim2real成功率高达90%

LLM（大语言模型），我们距离应用还差什么？

特斯拉首款无人驾驶出租问世，马斯克掀翻全场！无方向盘、无踏板，3万美元26年量产

诺贝尔物理和化学奖都颁给了AI，意味着什么？

双向奔赴！什么是大模型和数据库的双向赋能？

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在手机上了

RT-DETRv3横空出世！探究实时目标检测的尽头

【一手实测】Tripo 2.0：AI 3D生成天花板再拉升！

聊聊3DGS，各应用方向的最新进展是？

李飞飞创业后的首个专访：空间智能是下一个“北极星”

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

用AI和宠物闲聊，解锁「毛孩子」语言，铲屎官心动！

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

【盘点】AI视觉算法主流部署方式，到底怎么选？

会领路、能聊天，现在的导航已经next level了

深夜空降！OpenAI草莓正式发布，命名o1， GPT-4o被碾压！

对话Qwen2-VL：多模态大模型背后的逻辑

上交大：让代码自动成长！培养你的专属宝可梦

PyTorch官宣去CUDA推理！Triton时代来了

FairMOT：解锁复杂环境下多目标跟踪的难题！

Cursor：开发者的新质生产力，人人都是程序员？

机器人身穿衣服做家务，逼真到被质疑是人类套壳

大模型应用新战场：揭秘终端侧AI竞争关键｜智在终端

全国首个上手机的AI视频通话来了！《黑神话：悟空》经文也能破译

【深度解读】政务大模型的产业图谱、企业布局与落地应用

又创新？U-KAN：专注图像边界细节优化的网络架构！

AI开启“城市漫步”，这Citywalk够不够贴心！

【梳理】主流推荐算法：如何让AI更精准地“猜你喜欢”？

Midjourney地位不稳？AI绘图又一黑马出现，附4款产品一手实测

实测！30秒即可生成工业级Mesh，媲美人工建模？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉