DINO-X：一种用于开放世界目标检测和理解的统一视觉模型

科技 2024-12-02 13:15 北京

图1：DINO-X是一个统一的以对象为中心的视觉模型，支持各种开放世界感知和对象级理解任务，包括开放世界目标检测和分割、短语定位、视觉提示计数、姿态估计、免提示目标检测和识别、密集区域标题生成等。

摘要

本文介绍了DINO-X，这是一种由IDEA研究团队开发的统一以对象为中心的视觉模型，其开放世界目标检测性能目前最佳。DINO-X采用与Grounding DINO 1.5 [47]相同的基于Transformer的编码器-解码器架构，以追求用于开放世界对象理解的对象级表示。为了简化长尾目标检测，DINO-X扩展了其输入选项，以支持文本提示、视觉提示和自定义提示。通过这种灵活的提示选项，我们开发了一个通用对象提示，以支持免提示开放世界检测，从而无需用户提供任何提示即可检测图像中的任何内容。为了增强模型的核心定位能力，我们构建了一个包含超过1亿个高质量定位样本的大规模数据集，称为Grounding-100M，以提升模型的开放词汇表检测性能。在如此大规模的定位数据集上进行预训练，可以得到一个基础的对象级表示，这使得DINO-X能够集成多个感知头，以同时支持多个对象感知和理解任务，包括检测、分割、姿态估计、对象标题生成、基于对象的问答等。DINO-X包含两个模型：Pro模型，为各种场景提供增强的感知能力；Edge模型，针对更快的推理速度进行了优化，更适合在边缘设备上部署。实验结果证明了DINO-X的优越性能。具体而言，DINO-X Pro模型在COCO、LVIS-minival和LVIS-val零样本目标检测基准测试中分别实现了56。 0 AP、59。8 AP和。值得注意的是，它在LVIS-minival和LVIS-val基准测试的稀有类别中分别获得了和，两者都将之前的最先进性能提高了5。8 AP。这样的结果强调了其在识别长尾物体方面能力的显著提升。我们的演示和API将发布在 github.com/IDEAResea... 。

1 引言

近年来，目标检测技术已逐渐从封闭集检测模型[74, 28, 4]发展到开放集检测模型[33, 29, 76]，后者能够识别与用户提供的提示符相对应的物体。此类模型具有众多实际应用，例如增强机器人动态环境中的适应能力，辅助自动驾驶车辆快速定位和应对新的物体，提高多模态大语言模型（MLLMs）的感知能力，减少其幻觉，并提高其响应的可靠性。

本文介绍了DINO-X，这是一种由IDEA研究团队开发的统一以对象为中心的视觉模型，其开放世界目标检测性能目前最佳。基于Grounding DINO 1.5 [47]，DINO-X采用相同的Transformer编码器-解码器架构，并采用开放集检测作为其核心训练任务。为方便长尾目标检测，DINO-X在模型的输入阶段采用了更全面的提示设计。传统的仅基于文本提示的模型[33, 47, 29]虽然取得了很大进展，但由于难以收集足够多样化的训练数据以涵盖各种应用，仍然难以覆盖足够范围的长尾检测场景。为了克服这一不足，在DINO-X中，我们将模型架构扩展为支持以下三种类型的提示。 (1) 文本提示：这涉及到根据用户提供的文本输入识别所需的物体，这可以涵盖大部分检测场景。 (2) 视觉提示：除了文本提示之外，DINO-X还支持视觉提示，如T-Rex2 [18]，进一步涵盖了仅靠文本无法很好描述的检测场景。 (3) 自定义提示：为了实现更多长尾检测问题，我们在DINO-X中特别引入了自定义提示，可以将其实现为预定义的或用户调整的提示嵌入，以满足定制需求。通过提示微调，我们可以为不同的领域创建领域定制的提示，或创建特定功能的提示来满足各种功能需求。例如，在DINO-X中，我们开发了一个通用的物体提示来支持免提示开放世界目标检测，使得无需用户提供任何提示即可检测给定图像中的任何物体。

为了获得强大的 grounding 性能，我们从不同的来源收集和整理了超过 1 亿个高质量的 grounding 样本，称为 Grounding-100M。在如此大规模的基础数据集上进行预训练，可以形成基础的物体级表示，这使得DINO-X能够集成多个感知头，同时支持多个物体感知和理解任务。除了用于目标检测的边界框头之外，DINO-X还实现了三个额外的头：(1) 用于预测检测到物体的分割掩码的掩码头；(2) 用于预测特定类别更有语义意义的关键点的关键点头；(3) 用于为每个检测到的物体生成细粒度描述性标题的语言头。通过集成这些头，DINO-X可以提供对输入图像更详细的物体级理解。在图1中，我们列举了各种例子来说明DINO-X支持的物体级视觉任务。

与Grounding DINO 1.5类似，DINO-X也包含两个模型：DINO-X Pro模型，它为各种场景提供了增强的感知能力；以及DINO-X Edge模型，它针对更快的推理速度进行了优化，更适合在边缘设备上部署。实验结果证明了DINO-X的优越性能。如图2所示，我们的DINO-X Pro模型实现了56。 0 AP、59。8 AP，和52。4 AP，分别在COCO、LVIS-minival和LVIS-val零样本迁移基准测试中。值得注意的是，它在LVIS-minival和LVIS-val基准测试的稀有类别中分别获得了63。3 AP和56。5 在LVIS-minival和LVIS-val基准测试的稀有类别上取得的平均精度（AP），表明提升了和5。 0 AP 接地 DINO ，以及 7 . 2 AP和11。9 AP，相对于Grounding DINO 1.5 Pro，突出了其识别长尾物体的能力得到显著提高。

2 方法

图2：DINO-X Pro在公共检测基准上的零样本性能。与Grounding DINO 1.5 Pro和Grounding DINO 相比，DINO-X Pro在COCO、LVIS-minival和LVIS-val零样本基准测试上取得了新的最先进（SOTA）性能。此外，它在检测LVIS-minival和LVIS-val上稀有类别的物体方面，以更大的优势超越了其他模型，证明了其识别长尾物体的卓越能力。

2.1 模型架构

DINO-X的整体框架如图3所示。沿袭Grounding DINO 1.5，我们还开发了两种DINO-X模型：一个更强大、更全面的“Pro”版本，DINO-X Pro，以及一个更快的“Edge”版本，称为DINO-X Edge，将在2.1.1节和2.1.2节分别详细介绍。

2.1.1 DINO-X Pro

DINO-X Pro模型的核心架构与Grounding DINO 1.5 [47]类似。我们利用预训练的ViT [12]模型作为其主要的视觉主干，并在特征提取阶段采用深度早期融合策略。与Grounding DINO 1.5不同，为了进一步扩展模型的

图3：DINO-X设计为接受文本提示、视觉提示和自定义提示，并能够同时生成从粗粒度表示（例如边界框）到细粒度细节（包括掩码、关键点和对象标题）的输出。

检测长尾物体能力，我们在输入阶段扩展了DINO-X Pro的提示支持。除了文本提示外，我们还扩展了DINO-X Pro以支持视觉提示和自定义提示，以满足各种检测需求。文本提示可以涵盖日常生活中常见的多数物体检测场景，而视觉提示则增强了模型在文本提示由于数据稀疏和描述限制而不足的情况下的检测能力[18]。自定义提示定义为一系列专门的提示，可以通过提示微调[26]技术进行微调，以扩展模型在更多长尾、特定领域或特定功能场景中检测物体的能力，而不会影响其他能力。通过执行大规模的语义预训练，我们从DINO-X的编码器输出中获得了一个基础的物体级表示。这种鲁棒的表示使我们能够通过引入不同的感知头来无缝地支持多个物体感知或理解任务。结果，DINO-X能够生成跨不同语义级别的输出，范围从粗略级别（例如边界框）到更细粒度的级别，包括掩码、关键点和物体标题。

我们将在接下来的段落中首先介绍DINO-X中支持的提示。

文本提示编码器：Grounding DINO [33] 和 Grounding DINO 1.5 [47] 都使用 BERT [9] 作为文本编码器。然而，BERT模型仅在文本数据上进行训练，这限制了其在需要多模态对齐的感知任务（例如开放世界检测）中的有效性。因此，在DINO-X Pro中，我们使用预训练的CLIP [65] 模型作为我们的文本编码器，该模型已在大量多模态数据上进行了预训练，从而进一步提高了模型在各种开放世界基准测试中的训练效率和性能。

视觉提示编码器：我们采用 T-Rex2 [18] 的视觉提示编码器，通过利用用户定义的框和点格式的视觉提示来集成它来增强对象检测。这些提示使用正弦-余弦层转换为位置嵌入，然后投影到统一的特征空间中。模型使用不同的线性投影来分离框和点提示。然后，我们采用与T-Rex2中相同的多分支可变形交叉注意力层，根据用户提供的视觉提示从多分支特征图中提取视觉提示特征。

自定义提示：在实际用例中，通常会遇到需要为自定义场景微调模型的需求。在DINO-X Pro中，我们定义了一系列专门的提示，称为自定义提示，可以通过提示微调[26]技术进行微调，以资源高效且经济有效的方式涵盖更多长尾、特定领域或特定功能的场景，而不会影响其他功能。例如，我们开发了一个通用物体提示来支持无提示开放世界检测，从而可以检测图像中的任何物体，从而扩展其在屏幕解析[35]等领域的潜在应用。

给定输入图像和用户提供的提示，无论它是文本、视觉还是自定义提示嵌入，DINO-X都会在提示和从输入图像中提取的视觉特征之间执行深度特征融合，然后针对不同的感知任务应用不同的头。更具体地说，已实现的头将在接下来的段落中介绍。

框头：遵循 Grounding DINO [33]，我们采用语言引导的查询选择模块来选择与输入提示最相关的特征作为解码器对象查询。然后将每个查询输入 Transformer 解码器并逐层更新，随后是一个简单的 MLP 层，用于预测每个对象查询对应的边界框坐标。与 Grounding DINO 类似，我们采用 L1 损失和 G-IoU [49] 损失进行边界框回归，同时使用对比损失将每个对象查询与输入提示对齐以进行分类。

遮罩头：遵循 Mask2Former [4] 和 Mask DINO [28] 的核心设计，我们通过融合 1/4 分辨率骨干特征和来自 Transformer 编码器的上采样 1/8 分辨率特征来构建像素嵌入图。然后，我们执行 Transformer 解码器中的每个对象查询与像素嵌入图之间的点积运算，以获得查询的遮罩输出。为了提高训练效率，骨干网络的 1/4 分辨率特征图仅用于遮罩预测。我们还遵循 [24, 4] 的方法，仅计算最终遮罩损失计算中采样点的遮罩损失。

关键点头：关键点头以来自 DINO-X 的关键点相关检测输出（例如人或手）作为输入，并利用单独的解码器来解码对象关键点。每个检测输出都被视为一个查询，并扩展为多个关键点，然后将其发送到多个可变形 Transformer 解码器层，以预测所需的关键点位置及其可见性。此过程可以视为简化的 ED-Pose [68] 算法，它不需要考虑目标检测任务，而只需要关注关键点检测。在 DINO-X 中，我们为人和手实例化了两个关键点头，它们分别具有 17 个和 21 个预定义的关键点。

语言头：语言头是一个可通过任务提示生成的轻量级语言模型，用于增强 DINO-X 理解区域上下文和执行超越定位的感知任务的能力，例如对象识别、区域标题生成、文本识别和基于区域的视觉问答 (VQA)。我们模型的架构如图 4 所示。对于来自 DINO-X 的任何检测到的对象，我们首先使用 RoIAlign [15] 算子从 DINO-X 骨干特征中提取其区域特征，并将其与查询嵌入相结合以形成我们的对象符元。然后，我们应用一个简单的线性投影来确保它们的维度与文本嵌入对齐。轻量级语言解码器将这些区域表示与任务符元集成，以自回归的方式生成输出。可学习的任务符元赋能语言解码器处理各种任务。

2.1.2 恐龙-X边缘

延续 Grounding DINO 1.5 Edge [47]，DINO-X Edge 也利用 EfficientViT [1] 作为骨干网络进行高效特征提取，并采用类似的 Transformer 编码器-解码器架构。为进一步增强 DINO-X Edge 模型的性能和计算效率，我们在以下几个方面对模型架构和训练技术进行了改进：

更强大的文本提示编码器：为了实现更有效的区域级多模态对齐，DINO-X Edge 采用与我们的 Pro 模型相同的 CLIP 文本编码器。在实践中，文本提示嵌入可以在大多数情况下预先计算，并且不会影响视觉编码器和解码器的推理速度。使用更强大的文本提示编码器通常会产生更好的结果。

知识蒸馏：在 DINO-X Edge 中，我们从 Pro 模型中蒸馏知识以增强 Edge 模型的性能。具体来说，我们同时利用基于特征的蒸馏和基于响应的蒸馏，分别对齐 Edge 模型和 Pro 模型之间的特征和预测 logits。这种知识迁移使 DINO-X Edge 能够实现比 Grounding DINO 1.6 Edge 更强的零样本能力。

改进的 FP16 推理：我们采用一种浮点乘法归一化技术，使得模型能够量化到 FP16 而不会影响精度。这导致了一个推理

图 4：DINO-X 中语言头的详细设计。它涉及使用冻结的 DINO-X 来提取目标符元，并且线性投影将其维度与文本嵌入对齐。轻量级的语言解码器随后集成这些目标符元和任务符元，以自回归的方式生成响应输出。任务符元使语言解码器能够处理不同的任务。

速度为 20 。1 FPS，比15提升了。与 Grounding DINO 1.6 Edge 相比，速度提升了 1 FPS，比 10 提升了。与 Grounding DINO 1.5 Edge 相比，速度提升了 7 FPS。

3 数据集构建和模型训练

数据收集：为了确保核心开放词汇表目标检测能力，我们开发了一个高质量且语义丰富的定位数据集，该数据集包含从网络收集的超过 1 亿张图像，命名为 Grounding-100M。我们使用了来自 T-Rex2 的训练数据，以及一些额外的工业场景数据用于基于视觉提示的定位预训练。我们使用了开源分割模型，例如 SAM [23] 和 SAM2 [46]，为 Grounding-100M 数据集的一部分生成伪掩码标注，作为我们掩码头的主要训练数据。我们从 Grounding-100M 数据集中抽取了一个高质量数据的子集，并利用它们的边界框标注作为我们无提示检测的训练数据。我们还收集了超过 1000 万个区域理解数据，涵盖目标识别、区域标题生成、OCR 和区域级问答场景，用于语言头的训练。

模型训练：为了克服训练多个视觉任务的挑战，我们采用了两阶段策略。在第一阶段，我们对基于文本提示的检测、基于视觉提示的检测和目标分割进行了联合训练。在此训练阶段，我们没有使用来自 COCO [32]、LVIS [14] 和 V3Det [57] 数据集的任何图像或标注，以便我们可以评估模型在这些基准上的零样本检测性能。如此大规模的定位预训练确保了 DINO-X 具有出色的开放词汇表定位性能，并产生了基础的物体级表示。在第二阶段，我们冻结了 DINO-X 主干网络，并添加了两个关键点头部（用于人脸和手部）和一个语言头部，每个头部分别进行训练。通过添加更多头部，我们极大地扩展了 DINO-X 执行更细粒度感知和理解任务的能力，例如姿态估计、区域标题生成、基于对象的问答等。随后，我们利用提示微调技术并训练了一个通用的对象提示，从而实现了无需提示的任意对象检测，同时保留了模型的其他能力。这种两阶段的训练方法有几个优点：（1）它确保模型的核心基础能力不会受到引入新能力的影响；（2）它也验证了大规模基础预训练可以作为面向对象的模型的强大基础，从而可以无缝迁移到其他开放世界理解任务。

4 评估

在本节中，我们将DINO-X系列模型的各种能力与其相关工作进行比较。最好和第二好的结果分别以粗体和下划线表示

4.1 恐龙-X Pro

4.1.1 开放世界检测和分割

在零样本目标检测和分割基准上的评估：遵循Grounding DINO 1.5 Pro [47]，我们在COCO [32]基准（包括80个常见类别）和LVIS基准（具有更丰富和更广泛的长尾类别分布）上评估了DINO-X Pro的零样本目标检测和分割能力。如表1所示，与之前的最先进方法相比，DINO-X Pro展现出显著的性能提升。具体来说，在COCO基准上，DINO-X Pro的box AP提高了 1。7 和 0。6，分别与Grounding DINO 和Grounding DINO 相比。在LVIS-minival和LVIS-val基准上，DINO-X Pro分别实现了 59。8 box AP和52。4 box AP，分别超过了之前性能最佳的Grounding DINO 1.6 Pro模型 2。 0 AP和 1。1 AP，分别。值得注意的是，在LVIS稀有类别上的检测性能方面，DINO-X达到了63。在LVIS-minival上达到3 AP，在LVIS-val上达到56。在LVIS-val上达到5 AP，显著超过之前的SOTA Grounding DINO 1.6 Pro模型和5。 0 AP，分别证明了DINO-X在长尾目标检测场景中的卓越能力。在分割指标方面，我们在COCO和LVIS零样本实例分割基准上，将DINO-X与最常用的通用分割模型Grounded SAM [48]系列进行了比较。使用Grounding DINO 1.5 Pro进行零样本检测，并使用SAM-Huge [23]进行分割，Grounded SAM在LVIS实例分割基准上取得了最佳的零样本性能。DINO-X实现了37的掩码AP分数。9, 43 . 8和38。在COCO、LVIS-minival和LVIS-val零样本实例分割基准上分别达到5。与Grounded SAM相比，DINO-X仍存在明显的性能差距需要追赶，这表明训练用于多种任务的统一模型的挑战。然而，DINO-X通过为每个区域生成相应的掩码，而无需多个复杂的推理步骤，从而显著提高了分割效率。我们将在未来的工作中进一步优化掩码头的性能。

基于视觉提示的检测基准评估：为了评估DINO-X的视觉提示目标检测能力，我们在少样本目标计数基准上进行了实验。在此任务中，每个测试图像都带有三个代表目标对象的视觉示例框，模型需要输出目标对象的计数。我们使用FSC147 [45]和FSCD-LVIS [40]数据集评估性能，这两个数据集都具有密集填充小型对象的场景。特别地，FSC147 主要由单目标场景构成，其中每张图像中只存在一种类型的物体，而 FSCD-LVIS 则侧重于包含多个物体类别的多目标场景。对于 FSC147，我们报告平均绝对误差 (MAE) 指标；对于 FSCD-LVIS，我们使用平均精度 (AP) 指标。遵循先前的工作 [17, 18]，视觉示例框被用作交互式视觉提示。如表 2 所示，DINO-X 实现了最先进的性能，证明了其在实际视觉提示目标检测中的强大能力。

4.1.2 关键点检测

在人类 2D 关键点基准上的评估：我们在 COCO [32]、CrowdPose [52] 和 Human-Art [20] 基准上，将 DINO-X 与其他相关工作进行了比较，结果如表 3 所示。我们采用基于 OKS 的平均精度 (AP) [52] 作为主要指标。请注意，姿态头部是在 MSCOCO、CrowdPose 和 Human-Art 上联合训练的。因此，评估并非零样本设置。但是，由于我们冻结了 DINO-X 的主干网络，并且只训练了姿态头部，因此对目标检测和分割的评估仍然遵循零样本设置。通过在多个姿态数据集上进行训练，我们的模型可以有效地预测各种人物风格的关键点，包括日常场景、拥挤环境、遮挡和艺术表现形式。虽然我们的模型达到的 AP 比 ED-Pose 低 1。6（主要是因为姿态头部中可训练参数数量有限），但它在 CrowdPose 和 Human-Art 上的性能优于现有模型。

表 1：DINO-X Pro 在 COCO、LVIS-minival 和 LVIS-val 基准上的性能与先前方法的比较。灰色数字表示训练数据集包含来自 COCO 或 LVIS 数据集的图像或标注。

表 2：DINO-X Pro 在少样本目标计数基准上的性能。

通过和 1 。8个AP分别展示了其在更多样化场景下的卓越泛化能力。

人手 2D 关键点基准评估：除了评估人体姿势之外，我们还在 HInt 基准 [42] 上提供手部姿势结果，以正确定位关键点（PCK）的百分比作为测量值。PCK是用于评估关键点定位准确性的指标。如果关键点的预测位置和地面真实位置之间的距离低于指定阈值，则认为关键点是正确的。我们使用 0.05 框大小的阈值，即 . 在训练过程中，我们结合了 HInt、COCO 和 OneHand10K [59] 训练数据集（比较方法 HaMeR [42] 的子集），并评估 HInt 测试集上的性能。如表4所示，DINO-X在PCK指标上取得了最佳性能，表明其在高精度手部姿态估计方面具有强大的能力。

表 3：在 COCO-val、CrowdPose-test 和 Human-Artval 基准上与最先进的方法进行比较。表示翻转测试。采用基于 OKS 的平均精度（AP）作为数据集的评估指标。TD、BU、OS、PT 分别表示自上而下、自下而上、单阶段和预训练方法。

表 4：与 HInt 数据集上最先进的方法的比较。我们使用 PCK 作为主要指标。

4.1.3 对象级视觉语言理解

对象识别评估：我们通过对象识别基准的相关工作验证了我们的语言头的有效性，这些基准需要识别图像指定区域中对象的类别。沿袭Osprey[73]的做法，我们使用语义相似度 (SS) 和语义IoU (S-IOU)[8] 来评估语言头部在目标级LVIS-val[14]和部件级PACO-val[44]数据集上的目标识别能力。如表5所示，我们的模型在SS上达到，在S-IoU上达到，在LVIS-val数据集上，SS指标超过Osprey ，S-IoU指标超过Osprey 。在PACO数据集上，我们的模型性能不如Osprey。请注意，我们没有将LVIS和PACO包含在我们的语言头部训练中，并且我们模型的性能是通过零样本学习获得的。PACO上较低的性能可能是由于我们的训练数据和PACO之间存在差异。而且，与Osprey相比，我们的模型只有个可训练参数。

表5：引用对象分类基准测试结果。我们使用语义相似度 (SS) 和语义-IoU (S-IoU) 分数来衡量区域分类质量。

表6：区域标题基准测试结果。我们报告METEOR和CIDEr分数来衡量区域标题质量。

区域标题评估：我们在Visual Genome[25]和RefCOCOg[37]上评估了我们模型的区域标题质量。评估结果如表6所示。值得注意的是，基于冻结的DINO-X主干提取的物体级特征，并且不使用任何Visual Genome训练数据，我们的模型在零样本情况下实现了142。1的CIDEr分数在Visual Genome基准测试中。此外，在Visual Genome数据集上微调后，我们使用轻量级的语言头部，获得了201。8的CIDEr分数，创造了新的最先进的结果。

4.2 恐龙-X边缘

表7：DINO-X Edge在COCO、LVIS-minival和LVIS-val目标检测基准上的零样本性能，与相关工作进行了比较。

零样本目标检测基准评估：为了评估DINO-X Edge的零样本目标检测能力，我们在Grounding-100M预训练后，在COCO和LVIS基准上进行了测试。如表7所示，DINO-X Edge在COCO基准测试中，大幅超越了现有的实时开放集检测器。DINO-X Edge还在LVIS-minival和LVIS-val上分别取得了和42. 0的AP，这在长尾检测场景中展示了其卓越的零样本检测能力。

我们使用NVIDIA Orin NX上的FP32和FP16 TensorRT模型评估DINO-X Edge的推理速度，并以每秒帧数（FPS）衡量性能。还包括了在A100 GPU上PyTorch模型和FP32 TensorRT模型的FPS结果。 †表示YOLO-World的结果是使用最新的官方代码复现的。

利用浮点乘法中的归一化技术，我们可以将模型量化到FP16，而不会牺牲性能。在的输入尺寸下，DINO-X Edge实现了20. 1 FPS的推理速度，与Grounding DINO 1.6 Edge相比有了的提升（从15. 1 FPS提升到20. 1 FPS）。

5 案例分析和定性可视化

在本节中，我们将可视化DINO-X模型在各种现实场景中的不同能力。图片主要来源于 COCO [32]、LVIS [14]、V3Det [57]、SA-1B [23]以及其他公开资源。我们对他们的贡献深表感谢，这些贡献极大地惠及了社区。

5.1 开放世界目标检测

如图 5 所示，DINO-X 展示了根据给定的文本提示检测任何目标的能力。它可以识别各种各样的物体，从常见类别到长尾类和密集物体场景，展示了其强大的开放世界目标检测能力。

图 5：使用 DINO-X 进行开放世界目标检测

5.2 长标题短语定位

如图 6 所示，DINO-X 表现出令人印象深刻的能力，可以根据长标题中的名词短语定位图像中对应的区域。将详细标题中的每个名词短语映射到图像中特定物体上的能力标志着深度图像理解的重大进步。此功能具有巨大的实际价值，例如使多模态大型语言模型 (MLLM) 能够生成更准确和可靠的响应。

照片描绘了两个人站在树林里，树木光秃秃的，看起来像是早春或晚秋。背景中有一片水域，很可能是一个小池塘或小溪，地面看起来很泥泞，有一些积水。在图像的右侧，有一个穿着鲜艳衣服的小孩，穿着紫色图案外套、粉色裤子和有趣的动物主题帽子。孩子手里拿着一件黄色的东西，可能是一个玩具。在孩子的左边，是一个穿着黑色外套、蓝色磨损牛仔裤和深色靴子的成年人。出于隐私原因，两个人的脸部都模糊了，无法辨别他们的面部表情或特征。成年人似乎微微倚靠着一棵树干。环境暗示他们可能正在享受户外时光，也许是远足或在树林中散步。

这张图片显示了一座庄严的建筑，具有经典的建筑特征，可能是政府大楼或历史建筑。它正面有一系列柱子，屋顶顶部有雕塑。它的设计暗示了新古典主义建筑风格，具有装饰元素、对称的窗户和宏伟的入口。这座建筑装饰着西班牙国旗，表明这可能在西班牙。这是一个阳光明媚的日子，几朵云散布在蓝天上。建筑前面是一条熙熙攘攘的街道。可以看到包括出租车、面包车和公交车在内的车辆，还有交通灯、路灯和道路标志。还有行人走在人行道上，可以看到一个交通标志，指示一个方向禁止通行（带有红白相间的圆形标志）。几棵棕榈树排列在街道两旁，为环境增添了风景如画的热带风情，表明气候温暖或位于沿海地区。总的来说，这张图片捕捉了一个充满活力的城市景象，将历史建筑与现代都市生活并置。

这张图片显示了一个户外环境，重点是一个白色石狮雕塑，这通常与中国传统建筑有关，被称为守护狮或“石狮”。雕塑细节精美，表情凶猛，牙齿外露，鬃毛和面部特征复杂。它似乎栖息在一组台阶边缘的基座上。在背景中，您可以看到一组通向上方的石阶，两侧是与狮身人面像基座相匹配的白色栏杆。在楼梯顶部，似乎有一个植被区域和一个红色建筑，可能是较大寺庙或花园群的一部分。图像左侧，部分可见一个带有中文汉字的绿色标志，表明该地点可能位于中文地区或受中国文化影响。背景明显模糊，突出了前景中的狮子雕塑，这是一个阳光明媚的日子，明亮的灯光增强了场景的暖色调。

5.3 开放世界目标分割和视觉提示计数

如图7所示，除了Grounding DINO 1.5 [47]，DINO-X不仅能够基于文本提示进行开放世界目标检测，还能为每个目标生成相应的分割掩码，提供更丰富的语义输出。此外，DINO-X还支持基于用户定义的视觉提示进行检测，方法是在目标对象上绘制边界框或点。此功能在目标计数场景中展现出卓越的可用性。

图7：使用DINO-X进行开放世界目标分割和视觉提示目标计数

5.4 无提示目标检测与识别

在DINO-X中，我们开发了一个名为“无提示”目标检测的非常实用的功能，它允许用户在不提供任何提示的情况下检测输入图像中的任何目标。如图8所示，当与DINO-X的语言头结合使用时，此功能能够无缝检测和识别图像中的所有对象，无需任何用户输入。

图8：使用DINO-X进行无提示目标检测与识别

5.5 稠密区域描述

如图9所示，DINO-X可以为任何指定的区域生成更细粒度的描述。此外，借助DINO-X的语言头，我们还可以执行基于区域的问答和其他区域理解任务。目前，此功能仍处于开发阶段，将在我们的下一个版本中发布。

图9：使用DINO-X进行稠密区域描述

5.6 人体和手部姿态估计

如图10所示，DINO-X可以通过基于文本提示的关键点检测头预测特定类别的关键点。DINO-X在COCO、CrowdHuman和Human-Art数据集的组合上进行训练，能够在各种场景下预测人体和手的关键点。

图10：使用DINO-X进行人体和手部姿态估计

5.7 与Grounding DINO 1.5 Pro的并排比较

我们对DINO-X与之前的最先进模型Grounding DINO 和Grounding DINO 1.6 Pro进行了并排比较。如图11所示，DINO-X在Grounding DINO 1.5的基础上，进一步增强了其语言理解能力，同时在密集目标检测场景中也取得了显著的性能提升。

图11：Grounding DINO 1.5 Pro、Grounding DINO 1.6 Pro和DINO-X的比较

6 结论

本文介绍了DINO-X，这是一个强大的以对象为中心的视觉模型，旨在推进开集目标检测和理解领域的研究。旗舰模型DINO-X Pro在COCO和LVIS零样本基准测试中创造了新的记录，显示出检测精度和可靠性的显著提高。为了简化长尾目标检测，DINO-X不仅支持基于文本提示的开放世界检测，还支持使用视觉提示和自定义提示进行自定义场景的目标检测。此外，DINO-X将其能力从检测扩展到更广泛的感知任务，包括分割、姿态估计和对象级理解任务。为了使更多边缘设备上的应用能够实现实时目标检测，我们还开发了DINO-X Edge模型，这进一步扩展了DINO-X系列模型的实用性。

arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。