RT-DETRv3横空出世!探究实时目标检测的尽头

文摘   2024-09-27 14:08   江苏  

RT-DETR是首个实时端到端Transformer目标检测算法,但性能有限。

RT-DETRv2通过优化训练策略提升性能而不减速,但训练时间延长。

为此,百度提出RT-DETRv3,采用分层密集正监督方法,旨在不增加训练时长的基础上提升性能。



优化点


RT-DETRv3的整体结构如图所示。保留了RT-DETR的整体框架(以黄色突出显示),并额外引入了分层解耦密集监督方法(以绿色突出显示)。

输入图像通过CNN骨干网(例如ResNet)和特征融合模块(称为高效混合编码器)进行处理,以获得多尺度特征{C3、C4和C5}。然后,这些特征被并行馈送到基于CNN的一对多辅助分支基于transform的解码器分支中。

对于基于CNN的一对多辅助分支,RT-DETRv3采用现有的最先进的密集监督方法,如PP-YOLOE,来协同监督编码器的表示学习。

具体来说,RT-DETRv3直接将编码器的输出特征{C3、C4和C5}集成到PP-YOLOE头中,对于一对多匹配算法,遵循PP-YOLOE头的配置,在训练的早期使用ATSS匹配算法,然后切换到TaskAlign匹配算法。损失函数分别采用了VFL和DFL解码器由一系列Transform块组成,每个块都包含一个self_att、cross-att和FFN模块。

最初,查询通过自注意力模块相互交互,以增强或减少它们的特征表示。随后,每个查询通过交叉注意力模块从编码器的输出特征中检索信息来更新自身。最后,FFN预测与每个查询对应的目标的类和边界框坐标。和RT-DETR不同的是RT-DETRv3提出了基于掩码自注意的多个自注意扰动模块。这个扰动模块的实现细节如下图所示。



实验结果


实验结果RT-DETRv3无论是在DETR系列还是基于CNN的yolo系列都有不同程度的提升。

与RT-DETR相比,采用6倍训练计划,RT-DETRv3显示R18、R34、R50和R101主干分别提高了1.6%、1.0%、0.3%和0.3%。与RT-DETRv2相比,RT-DETRv3分别提高了1.4%/0.8%和0.9%/0.2%。此外,RT-DETRv3还保持了与RT-DETR和RT-DETRv2相同的推理速度。

与yolo系列的对比中,根据推理速度将模型分为小、中、大三个尺度。

在类似的推理性能条件下,RT-DETRv3和OLOv6-3.0、Gold-YOLO、YOLO-MS、YOLOv8、YOLOv9和YOLOv10进行了对比。

如表2所示,对于小规模模型,RT-DETRv3-R18方法的性能分别优于YOLOv6-3.0-S、Gold-YOLO-S、YOLO-MS-S、YOLOv8-S、YOLOv9-S和YOLOv10-S 4.4%、3.3%、2.5%、2.5%、2.0%和2.4%。
对于中尺度模型RT-DETRv3的性能也优于YOLOv6-3.0-M、Gold-YOLO-M、YOLO-MS-M、YOLOv8-M、YOLOv9-M和YOLOv10-M。
对于大尺度模型,RT-DETRv3始终优于基于CNN的实时目标检测器。同时与基于CNN的实时检测器相比,RT-DETRv3在实现卓越性能的同时,可以将训练时间减少到60%甚至更少。



结论


从论文里看RT-DETRv3明显优于现有的实时检测器,包括RT-DETR系列和YOLO系列。同时,它只需要一半的时间就可以达到相当的性能。只是代码还没有发布,等发布后可以进行论文复现。



槿墨AI
产品服务

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识,深入业务场景,精确捕获用户意图,为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

📞若您有相关需求,欢迎点击下方链接与我们沟通洽谈

🗨️也可以在公众号后台给我们留言


参考链接

1.https://zhuanlan.zhihu.com/p/721509493
2.
https://mp.weixin.qq.com/s/_rEsn6_qBmfQIoq4vSVmAw
3.https://arxiv.org/pdf/2409.08475

槿墨AI
开启探索人类未来命运的旅程,拥抱如槿似墨的无限可能。
 最新文章