RT-DETR是首个实时端到端Transformer目标检测算法,但性能有限。
RT-DETRv2通过优化训练策略提升性能而不减速,但训练时间延长。
为此,百度提出RT-DETRv3,采用分层密集正监督方法,旨在不增加训练时长的基础上提升性能。
优化点
输入图像通过CNN骨干网(例如ResNet)和特征融合模块(称为高效混合编码器)进行处理,以获得多尺度特征{C3、C4和C5}。然后,这些特征被并行馈送到基于CNN的一对多辅助分支和基于transform的解码器分支中。
对于基于CNN的一对多辅助分支,RT-DETRv3采用现有的最先进的密集监督方法,如PP-YOLOE,来协同监督编码器的表示学习。
最初,查询通过自注意力模块相互交互,以增强或减少它们的特征表示。随后,每个查询通过交叉注意力模块从编码器的输出特征中检索信息来更新自身。最后,FFN预测与每个查询对应的目标的类和边界框坐标。和RT-DETR不同的是RT-DETRv3提出了基于掩码自注意的多个自注意扰动模块。这个扰动模块的实现细节如下图所示。
实验结果
实验结果RT-DETRv3无论是在DETR系列还是基于CNN的yolo系列都有不同程度的提升。
在与yolo系列的对比中,根据推理速度将模型分为小、中、大三个尺度。
在类似的推理性能条件下,RT-DETRv3和OLOv6-3.0、Gold-YOLO、YOLO-MS、YOLOv8、YOLOv9和YOLOv10进行了对比。
如表2所示,对于小规模模型,RT-DETRv3-R18方法的性能分别优于YOLOv6-3.0-S、Gold-YOLO-S、YOLO-MS-S、YOLOv8-S、YOLOv9-S和YOLOv10-S 4.4%、3.3%、2.5%、2.5%、2.0%和2.4%。
对于中尺度模型,RT-DETRv3的性能也优于YOLOv6-3.0-M、Gold-YOLO-M、YOLO-MS-M、YOLOv8-M、YOLOv9-M和YOLOv10-M。
对于大尺度模型,RT-DETRv3始终优于基于CNN的实时目标检测器。同时与基于CNN的实时检测器相比,RT-DETRv3在实现卓越性能的同时,可以将训练时间减少到60%甚至更少。
结论
从论文里看RT-DETRv3明显优于现有的实时检测器,包括RT-DETR系列和YOLO系列。同时,它只需要一半的时间就可以达到相当的性能。只是代码还没有发布,等发布后可以进行论文复现。
结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识,深入业务场景,精确捕获用户意图,为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务
📞若您有相关需求,欢迎点击下方链接与我们沟通洽谈
🗨️也可以在公众号后台给我们留言
参考链接
1.https://zhuanlan.zhihu.com/p/721509493
2.https://mp.weixin.qq.com/s/_rEsn6_qBmfQIoq4vSVmAw
3.https://arxiv.org/pdf/2409.08475