点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement
作者:Yansong Peng, Hebei Li, Peixi Wu, Yueyi Zhang, Xiaoyan Sun, Feng Wu
机构:University of Science and Technology of China、Hefei Comprehensive National Science Center
原文链接:https://arxiv.org/abs/2410.13842
代码链接:https://github.com/Peterande/D-FINE
1. 导读
我们介绍了D-FINE,一个强大的实时对象检测器,它通过重新定义DETR模型中的包围盒回归任务来实现出色的定位精度。D-FINE包括两个关键部分:细粒度分布优化(FDR)和全局最优局部自蒸馏(GO-LSD)。FDR将回归过程从预测固定坐标转换为迭代优化概率分布,提供了一种细粒度的中间表示,显著提高了定位精度。GO-LSD是一种双向优化策略,通过自蒸馏将定位知识从精细分布转移到较浅层,同时还简化了较深层的残差预测任务。此外,D-FINE在计算密集型模块和操作中融入了轻量级优化,在速度和准确性之间实现了更好的平衡。具体来说,D-FINE-L / X在NVIDIA T4 GPU上以124 / 78 FPS的速度在COCO数据集上实现了54.0% / 55.8%的AP。当在Objects365上进行预训练时,D-FINE-L / X达到57.1% / 59.3% AP,超过了所有现有的实时检测器。此外,我们的方法在忽略额外参数和训练成本的情况下,将多种DETR模型的性能显著提高了5.3% AP。
2. 引言
实时目标检测的需求在各类应用中持续增长其中,最具影响力的实时检测器是YOLO系列,其高效性和稳健的社区生态系统广受认可。作为强有力的竞争对手,基于变换器(Transformer)的检测器(DETR)因其基于变换器的架构而具有显著优势,该架构可实现全局上下文建模和直接集合预测,无需依赖非极大值抑制(NMS)和锚框。然而,它们通常因高延迟和计算需求而受到阻碍通过开发实时变体来解决这些限制,为YOLO检测器提供了端到端的替代方案。此外,LW-DETR表明,DETR在训练于像Objects365这样的大规模数据集时,可以达到比YOLO更高的性能上限。
尽管实时目标检测取得了重大进展,但一些未解决的问题仍继续限制着检测器的性能。一个关键挑战是边界框回归的公式化。大多数检测器通过回归固定坐标来预测边界框,将边缘视为由狄拉克δ分布建模的精确值。虽然这种方法直接明了,但它无法对定位不确定性进行建模。因此,模型只能使用L1损失和交并比(IoU)损失,这两种损失不能为独立调整每个边缘提供足够的指导。这导致优化过程对小坐标变化敏感,收敛速度慢且性能不佳。尽管像GFocal这样的方法通过概率分布来处理不确定性,但它们仍受到锚框依赖、定位粗糙和缺乏迭代精化的限制。推荐课程:面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)。
另一个挑战在于最大化实时检测器的效率,实时检测器受到有限计算和参数预算的制约,以保持速度。知识蒸馏(KD)是一种有前景的解决方案,它通过从大模型(教师)向小模型(学生)传递知识,在不增加成本的情况下提高性能。然而,传统的KD方法,如Logit模仿和特征模仿,已被证明对于检测任务效率低下,甚至可能导致最先进模型的性能下降。相比之下,定位蒸馏(LD)在检测方面显示出更好的结果。不过,由于LD具有较大的训练开销,且与无锚检测器不兼容,因此整合LD仍然具有挑战性。
为解决这些问题,我们提出了D-FINE,这是一种新颖的实时目标检测器,它重新定义了边界框回归,并引入了一种有效的自蒸馏策略。我们的方法解决了固定坐标回归中优化困难、无法建模定位不确定性以及需要以较低训练成本进行有效蒸馏的问题。我们引入了细粒度分布精化(FDR)来将边界框回归从预测固定坐标转变为建模概率分布,提供了更细粒度的中间表示。FDR以残差方式迭代地精化这些分布,允许逐步进行更精细的调整,并提高定位精度。我们认识到,深层通过在其概率分布内捕获更丰富的定位信息来产生更准确的预测,因此我们引入了全局最优定位自蒸馏(GO-LSD)。GO-LSD以可忽略的额外训练成本将深层中的定位知识传递给浅层。通过将浅层的预测与后续层的精化输出对齐,模型学会产生更好的早期调整,从而加速收敛并提高整体性能。
此外,我们简化了现有实时DETR架构计算密集型模块和操作,使D-FINE更快且更轻量。虽然此类修改通常会导致性能损失,但FDR和GO-LSD有效地缓解了这种退化,实现了速度和准确性之间的更好平衡。在COCO数据集上的实验结果表明,D-FINE在实时目标检测方面达到了最先进的性能,在准确性和效率上均超越了现有模型。D-FINE-L和D-FINE-X在COCO val2017上分别实现了54.0%和55.8%的平均精度(AP),在NVIDIA T4 GPU上分别以124 FPS和78 FPS运行。在更大的数据集如Objects365上进行预训练后,D-FINE系列达到了高达59.3%的AP,超越了所有现有的实时检测器,展示了其可扩展性和鲁棒性。此外,我们的方法通过增加可忽略的额外参数和训练成本,将各种DETR模型的AP提高了多达5.3%,证明了其灵活性和泛化能力。总之,D-FINE推动了实时检测器的性能边界。通过FDR和GO-LSD解决边界框回归和蒸馏效率方面的关键挑战,我们在目标检测领域取得了有意义的进展,激发了该领域的进一步探索。
3. 效果展示
与其他检测器在延迟(左)、模型大小(中)和计算成本(右)方面的比较。我们在英伟达T4 GPU上使用TensorRT FP16测量端到端延迟。
4. 方法
我们提出了D-FINE,这是一种强大的实时目标检测器,在速度、大小、计算成本和准确性方面表现出色。D-FINE通过利用两个关键组件——细粒度分布精化(FDR)和全局最优定位自蒸馏(GO-LSD)——来解决现有边界框回归方法的不足,这两个组件协同工作,以可忽略的额外参数和训练时间成本显著提高性能。
(1)FDR迭代优化由解码器层生成的细粒度分布,如图2所示。最初,第一个解码器层通过传统的边界框回归头和D-FINE头(两个头都是多层感知器(MLP),仅输出维度不同)预测初步的边界框和初步的概率分布。每个边界框与四个分布相关联,每个边缘一个。初始边界框作为参考框,而后续层则通过以残差方式调整分布来专注于对其进行精化。然后将精化后的分布应用于调整相应初始边界框的四个边缘,每次迭代都逐步提高精度。
(2)GO-LSD将精化分布中的定位知识蒸馏到较浅的层中。随着训练的进行,最终层产生越来越精确的软标签。较浅的层通过GO-LSD使它们的预测与这些标签对齐,从而获得更准确的预测。随着早期阶段预测的改进,后续层可以专注于精化更小的残差。这种相互增强产生了协同效应,导致定位越来越准确。
为进一步提高D-FINE的效率,我们简化了现有实时DETR架构中计算密集型模块和操作,使D-FINE更快且更轻量。尽管这些修改通常会导致一些性能损失,但FDR和GO-LSD有效地缓解了这种退化。详细修改列在表3中。
通过解耦加权策略的DDF损失,将最终层精细化分布中的定位知识提炼到较浅的层中。
5. 实验结果
表1全面比较了D-FINE与COCO val2017数据集上的各种实时目标检测器。D-FINE在多个指标上实现了效率与精度的出色平衡。具体而言,D-FINE-L以3100万个参数和910亿次浮点运算(GFLOPs),实现了54.0%的平均精度(AP),同时保持了8.07毫秒的低延迟。此外,D-FINE-X以6200万个参数和2020亿次浮点运算,实现了55.8%的AP,延迟为12.89毫秒。
我们在COCO数据集上微调之前,先在Objects365数据集上对D-FINE和YOLOv10进行了预训练。预训练后,D-FINE-L和D-FINE-X的性能均显著提升,分别实现了57.1%和59.3%的AP。这些增强使它们分别以3.1%和4.4%的AP优势超越了YOLOv10-L和YOLOv10-X,从而在此比较中成为表现最佳的模型。此外,遵循YOLOv8的预训练协议,YOLOv10在Objects365数据集上预训练了300个周期。相比之下,D-FINE仅需21个周期即可实现显著的性能提升。这些发现证实了LW-DETR(Chen等,2024)的结论,即与其他检测器(如YOLO系列)相比,基于DETR的模型从预训练中获益更多。
表2展示了我们在COCO val2017数据集上的多个基于DETR的目标检测器中,所提出的FDR和GO-LSD方法的有效性。我们的方法设计灵活,可以无缝集成到任何DETR架构中,显著提升性能,同时不增加参数数量和计算负担。将FDR和GO-LSD融入Deformable DETR、DAD-DETR、DN-DETR和DINO中,检测精度一致提高,增益范围从2.0%到5.3%。这些结果凸显了FDR和GO-LSD在提高定位精度和最大化效率方面的有效性,证明了它们在不同端到端检测框架中的适应性和显著影响。
图4展示了FDR在不同检测场景中的过程。我们展示了带有两个边界框的图像上的过滤检测结果。红色框表示来自第一层解码器的初始预测,而绿色框表示来自最终解码器的精细化预测。最终预测与目标对象更加紧密对齐。图像下方的第一行显示了四个边缘(左、上、右、下)的非加权概率分布。第二行显示了加权分布,其中已应用加权函数W(n)。红色曲线表示初始分布,而绿色曲线表示最终的精细化分布。加权分布强调了准确预测附近的细微调整,并允许进行更大的调整的快速变化,进一步说明了FDR如何细化初始边界框的偏移量,从而实现越来越精确的定位。
6. 总结 & 未来工作
在本文中,我们介绍了D-FINE,这是一种强大的实时目标检测器,它通过精细分布精炼(FDR)和全局最优定位自蒸馏(GO-LSD)重新定义了DETR模型中的边界框回归任务。在COCO数据集上的实验结果表明,D-FINE实现了最先进的精度和效率,超越了所有现有的实时检测器。局限性和未来工作:然而,较轻的D-FINE模型与其他紧凑模型之间的性能差距仍然很小。一个可能的原因是,较浅的解码器层可能产生不太准确的最终层预测,从而限制了将定位知识提炼到较早层的有效性。解决这一挑战需要增强较轻模型的定位能力,同时不增加推理延迟。未来的研究可以探索先进的架构设计或新颖的训练范式,这些设计或范式允许在训练期间包含额外的复杂解码器层,同时通过在测试时简单地丢弃它们来保持轻量级的推理。我们希望D-FINE能激发该领域的进一步发展。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~