TPAMI 2024 | 面向人群定位的一致性感知锚点金字塔网络

文摘   2024-11-17 19:00   辽宁  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

论文信息

题目:Consistency-Aware Anchor Pyramid Network for Crowd Localization

面向人群定位的一致性感知锚点金字塔网络

作者:Xinyan Liu; Guorong Li; Yuankai Qi; Zhenjun Han; Anton van den Hengel; Nicu Sebe; Ming-Hsuan Yang; Qingming Huang

源码链接:https://github.com/ucasyan/CAAPN

论文创新点

  1. 作者提出了一个自适应锚点生成器(AAG),以自适应地在每个图像区域生成锚点,这可以减轻锚点不足或过剩的问题。该模块还减少了匈牙利匹配过程中的计算负载。
  2. 作者提出了一个带有增强匹配的定位器(LAM),用于点回归人群定位,缓解了训练和测试之间的排名不一致性。
  3. 作者提出了一个级联回归损失(CRL),以减轻定位偏移误差。
  4. 在五个基准测试中,ShanghaiTech A&B、UCF-QNRF、JHU-CROWD++和NWPU-Crowd,与几种最先进的方法相比,证明了方法的有效性。

摘要

人群定位旨在预测拥挤场景图像中个体的位置。尽管现有方法已取得显著进展,但仍存在两个主要挑战:(i) 固定数量的均匀分布锚点可能导致图像中不同人群密度区域的预测过多或不足;(ii) 测试和训练阶段预测排名的不一致性导致模型在推理时表现次优。为了解决这些问题,我们提出了一种一致性感知锚点金字塔网络(CAAPN),包括两个关键组件:自适应锚点生成器(AAG)和增强匹配定位器(LAM)。AAG模块根据局部区域估计的人群密度自适应生成锚点,以减轻锚点不足或过剩的问题。它还考虑了头部的空间分布先验以获得更好的性能。LAM模块旨在通过引入额外的一组目标候选集并正确匹配它们到真实情况,来增强用于训练期间优化神经网络的预测。所提出的方法在五个具有挑战性的数据集上取得了良好的性能:ShanghaiTech A和B、UCF-QNRF、JHU-CROWD++和NWPU-Crowd。源代码和训练好的模型将在 https://github.com/ucasyan/CAAPN 上发布。

关键词

  • 锚点金字塔
  • 增强匹配
  • 人群定位
  • 人群计数

1 引言

人群定位的目标是使用点注释来定位人群中的个体。由于其广泛的应用,如交通流分析[1]、医学细胞检测[2]和人群异常检测[3],这个问题受到了广泛关注。尽管已经取得了显著进展,但由于不同人群场景中密度的大幅变化,人群定位仍然是一个挑战。基于其回归目标,现有的人群定位方法可以分为三组:基于检测的方法,回归头部的边界框[4]-[8];点回归,直接回归点注释[9]、[10];启发式方法,回归头部在密度图[11]、[12]或分割图[13]-[16]中。基于检测的方法将人群定位表述为典型的目标检测任务,并使用预测的边界框的中心坐标作为头部位置。边界框注释的数量有限[4]-[6],严重限制了基于检测方法的最近进展。深度信息在[7]、[8]中被用来估计头部大小而无需边界框注释。启发式方法使用各种辅助图,如密度图、分割图和置信图,来捕获人群分布。这些方法需要非可微的后处理步骤(例如,寻找最大值[11]、[17]、[18]或寻找连通分量[13]、[14])来计算头部坐标,使它们无法进行端到端训练。相反,点回归方法[9]、[10],也遵循检测范式,可以直接预测目标的坐标。我们的工作属于这一类。
尽管在人群定位方面取得了显著进展,但现有的点回归方法在两个方面受到限制。一个限制是训练和推理阶段预测排名的不一致性。在推理过程中,预测的选择仅基于分类分数。然而,在训练过程中,基于空间距离和分类分数选择顶部-M(M是图像中目标的数量)预测。这种不一致性导致模型针对其测试进行次优优化。我们在图1(a)中展示了一个例子,其中用于损失计算的部分预测(称为“训练阳性”)没有被选为推理的最终结果(标记为“推理阳性”),因此分散了训练过程。另一个限制是使用固定数量的均匀分布锚点。图像可能包含不同区域的不同人群密度,如图1(b)所示。在图像中使用固定数量的均匀分布锚点可能导致在稀疏目标区域预测过多,在密集目标区域预测不足,从而限制了整体性能。为了解决这些问题,我们提出了一种用于人群定位的一致性感知锚点金字塔网络(CAAPN),包括两个主要组件:自适应锚点生成器(AAG)和增强匹配定位器(LAM)。AAG模块旨在根据每个局部区域的估计密度和空间分布先验生成锚点。因此,AAG包含一个计数分支,预测区域中的头部数量。现有的计数损失(即均方误差)容易受到手动注释中不可避免的偏移的影响,使预测的密度图不够精确以指导锚点分布。为了缓解这个问题,我们提出了一个级联区域损失(CRL),以生成更精确的密度图。分布先验是从训练数据中以区域方式收集的。然后,自适应生成的锚点被送入LAM中的定位器进行位置预测。因此,AAG模块实现了动态锚点生成,并使锚点的数量和分布更接近目标,如第3.1节所示。LAM模块与以前的方法不同,根据独立标准选择两组顶部-M预测:一组是根据距离误差和分类分数选择的,类似于现有方法[9]、[10];另一组仅根据分类分数选择,以保持与测试阶段的一致性。为了有效利用它,我们将这组分配给根据逆概率排名选择的特定真实情况集。消融研究表明,这种简单的设计大大缓解了排名不一致问题,并显著提高了性能。本文的主要贡献是:
• 我们提出了一个自适应锚点生成器(AAG),以自适应地在每个图像区域生成锚点,这可以减轻锚点不足或过剩的问题。该模块还减少了匈牙利匹配过程中的计算负载。 • 我们提出了一个带有增强匹配的定位器(LAM),用于点回归人群定位,缓解了训练和测试之间的排名不一致性。 • 我们提出了一个级联回归损失(CRL),以减轻定位偏移误差。 • 在五个基准测试中,ShanghaiTech A&B、UCF-QNRF、JHU-CROWD++和NWPU-Crowd,我们的方法与几种最先进的方法相比,证明了我们方法的有效性。

3 方法

给定一个图像 ,人群定位的目标是预测图像中的所有头部位置。如图2所示,我们的方法由两个主要组件组成:自适应锚点生成器(AAG)和增强匹配定位器(LAM)。前者为每个图像区域动态生成锚点;后者以锚点为输入并预测头部位置。它通过减轻训练和测试阶段预测选择之间的不一致性来提升定位性能。

3.1 自适应锚点生成器

我们的模型基于锚点预测位置。与以前使用均匀分布锚点的工作不同,我们提出按区域分散锚点。这个想法受到我们观察的启发,如图3所示。图3(a)展示了最先进的模型P2PNet[9]在锚点数量与真实情况不同程度时的性能曲线。它表明,随着数量差异的增加,性能变差。在图3(b)中,我们展示了相同数量的锚点在不同距离到目标时的性能条。它表明,当锚点远离目标时,性能会恶化。因此,我们提出自适应确定每个区域的锚点数量,并根据空间分布先验分散这些锚点。下面我们详细介绍如何计算先验以及如何准确确定锚点数量。

分布先验。对于固定大小的区域,头部通常在不同头部密度下分布在不同位置。因此,我们希望收集一系列在不同密度下的分布先验。假设我们需要先验 其中 ,下面我们详细说明单个密度 的计算。我们首先将每个训练图像划分为大小为 像素的区域。然后,我们选择头部数量落在 中的区域。这些区域的注释根据其在 内的局部坐标合并到一个区域中。接下来,我们对合并后的区域执行 K-means [38] 聚类算法以获得 个聚类。这些聚类的中心是所需的分布先验,记为 。这样,我们为锚点生成计算了K个分布先验。
锚点金字塔生成。给定一个图像 ,我们首先通过一个计数分支 估计图像中的对象数量,记为 ,其中 是由预训练的图像分类模型(例如,VGG [39]、HRNet [40]、ConvNeXt [41])提取的特征,而 是预测的密度图。学习目标 是通过使用求和作为池化操作符对点注释()进行池化得到的。池化步长为16,因此 的每个元素是一个 像素区域中的头部数量,对应于先验分布大小。每个 图像区域的锚点分布先验根据其计数预测落在哪个密度区间内被选择:
其中 表示从1到K的分布先验索引。结果 将用于下节详细说明的位置预测。图4提供了 的一个例子。由于 表示用于图像 的特定密度的锚点集,我们将 称为锚点金字塔。它表明,在预测密度图的指导下,生成的锚点金字塔的数量和空间分布与人群更加一致。我们注意到方程(2)显示 的质量取决于 的精度。然而,用于训练计数网络的现有损失函数,例如均方误差(MSE)和平均绝对误差(MAE),容易受到手动注释中不可避免的偏移的影响,这可能导致 不够精确。为了减轻这种影响,我们提出了一种新的基于多分辨率的损失,记为级联计数损失(CCL),其中更高分辨率中的注释偏移可以在更低分辨率中得到纠正。下面我们详细介绍如何计算CCL。我们首先将输入图像划分为非重叠区域,大小为 ,其中 。这些划分结果在区域集合 ,其中 区域分辨率为 。接下来,我们定义 在区域 上的头部数量的绝对残差:
然后,我们设计了一个级联区域损失(CRL)在这些多分辨率上:
其中 表示覆盖 中的区域; 表示区域 中的元素数量。重新加权项是基于这样的观察:一个小区域中的计数误差可能在覆盖它的较大区域中得到纠正。图5显示了一个例子,其中高分辨率中的计数误差为3(图5左面板)。相比之下,其在较低分辨率的对应区域中的误差减少到零(图5中面板)。因此,我们使用较低分辨率中的归一化误差作为权重,以减少其影响,如果它有误差。考虑到计数分支在推理阶段的最终输出是最接近预测小数的整数,我们提出了以下整数损失(IL)来反映这种波动:
其中 的四舍五入数。最终的级联计数损失(CCL)是:

3.2 增强匹配定位器

定位器接收图像特征和锚点作为输入。对于每个锚点,它估计一个头部位置和相应的分类概率成为头部。这些估计通常被称为“提议”。由于锚点的数量远大于真实情况,只有一小部分提议被选为最终预测以执行匈牙利匹配然后计算损失以优化神经网络。现有方法的一个长期问题是训练和测试阶段选择最终预测的不一致性。在训练阶段,现有方法根据分类概率和欧几里得距离到真实情况选择顶部-M提议。然而,仅在测试期间使用概率进行选择。这种不一致可能导致定位器在测试期间的使用方式未被优化,限制了其性能。我们提出了一种增强匹配策略来减轻这个问题。以下,我们描述我们的定位器模块并介绍我们的新增强匹配(AM)策略。
定位头部。我们使用具有K个头的定位分支来预测头部坐标,记为 。按照目标检测方法中的常见做法[19]、[34]、[42],我们首先使用FPN[43]从第1、2、...、K金字塔级别提取K个不同尺度的特征(记为 )。然后我们用 来生成头部提议:
其中 是预测点的二元分类概率和坐标, 是提议的数量,这取决于送入 的锚点数量。我们将所有来自K个定位头的提议记为 ,其中 是分类概率。 中所有提议的数量。
增强匹配。我们的增强匹配策略包括两个步骤,在训练期间从 中选择最终预测进行匈牙利匹配。首先,我们根据空间距离和目标概率选择M个预测,就像现有方法[9]、[10]一样,其中M是图像中真实头部的数量。具体来说,我们利用匈牙利匹配算法[44]获得真实点注释集P和预测集 之间的最佳匹配
其中 是用来评估一对一匹配 的成本函数。最佳匹配 导致最小的成本; 定义为:
其中 表示 的匹配真实情况; 是分类焦点损失[45],可以减轻前景和背景样本之间的不平衡; 是L2距离。我们将由 确定的匹配M个预测记为 。接下来,我们根据分类概率重新选择M个预测,这与测试期间使用的标准一致。M个具有最高分类概率的提议,记为 ,被选中。然后,我们需要将这些预测匹配到真实情况注释。我们注意到这部分提议也出现在 中,已经被分配给真实情况。因此,我们需要将剩余的预测,记为 分配给真实情况集。假设 中有 个预测,我们首先从 中选择 个具有最低 分类概率的预测。由于这些 个预测具有较低的分类分数,它们不太可能在推理阶段被选为最终预测。我们重新分配它们匹配的真实情况注释(记为 )给 。我们将这种策略称为逆概率(IP)。
然后我们将 与真实情况注释 基于仅空间距离进行匹配。使用匈牙利匹配算法,最佳匹配 可以在 之间实现:
其中 是一个潜在的匹配,。由于我们的匹配策略扩展了传统的匹配,我们将其命名为增强匹配。基于此,我们的定位损失定义为:
其中 。讨论。上述提到的IP策略不是匹配的唯一选择。例如,我们可以:(i) 根据方程(9)从所有真实情况注释中找到与 的匹配,或(ii)选择在最佳匹配 下具有最高匹配成本的M'个真实情况。我们将替代方案(i)称为直接重排(DR)和替代方案(ii)称为高成本重排(HCR)。如第4.3节的消融研究所示,所有这些增强策略与无增强相比都提高了定位性能,但我们的逆概率方法表现最佳。

4 实验结果

我们首先介绍实现细节,并简要介绍五个评估基准(ShanghaiTech A和B、UCF-QNRF、JHU-CROWD++和NWPU-Crowd)以及相应的评估指标。然后,我们评估我们的方法与几种最先进的方法。此外,我们提供了对所提出方法的彻底消融研究。

4.1 实验设置

实现细节。在训练期间,图像大小被填充到64的整数倍。与P2PNet[9]类似,对于JHU-Crowd++和NWPU-Crowd,我们将最长边限制在1920以内,并保持原始纵横比。我们将定位分支的数量 设置为3。
数据集。我们使用ShanghaiTech A和B、UCF-QNRF、JHU-CROWD++和NWPU-Crowd数据集来评估我们的方法。ShanghaiTech A数据集包含高人群密度的网络图像,而ShanghaiTech B数据集包括相对稀疏的人群街道图像。UCF-QNRF数据集呈现了更具挑战性的场景,具有高分辨率图像和广泛的人类计数,从49到12,865跨越1,525张图像。JHU-CROWD++数据集涵盖了多样化的场景和环境条件,包括4,250张图像,人群计数从0到7,286不等。最后,NWPU-Crowd数据集提供了5,109张图像,人群计数范围广泛(包括351张无人图像)。
评估指标。对于计数性能,我们采用广泛使用的均方绝对误差(MAE)和均方误差(MSE)作为指标。对于定位性能,我们使用精确度、召回率和F1分数(P、R、F1)进行评估。按照FIDT[18]的设置,不同数据集使用不同的标准来判断一个预测是否为真正例。具体来说,ShanghaiTech A和B以及JHU-CROWD++数据集采用两个距离阈值:4像素和8像素。UCF-QNRF数据集采用从1到100的一系列阈值,步长为1。它计算平均召回率、精确度和F1作为最终性能指标。NWPU-Crowd数据集使用与目标大小相关的阈值。对于严格的定位设置,阈值 对于真实情况点 设置为 。对于相对宽松的定位设置,阈值设置为

4.2 与最先进方法的比较

我们注意到现有方法使用了不同的图像特征。为了公平比较,我们使用三种不同的特征(通过VGG-16、HRNet-W48和ConvNeXt-S获得)来评估我们的方法。
ShanghaiTech A&B。STA和STB数据集分别关注密集和稀疏场景。如表1所示,使用VGG-16[39]时,我们的CAAPN显著优于使用相同特征的方法(例如,CAAPN的78.0与TopoCount的73.6使用 )以及使用先进Transformer[30]的CLTR,其参数是我们的近三倍(43M对15M)。当采用与FIDT相同的特征时,我们的CAAPN在这两个数据集上都比FIDT表现更好,并且在STA上取得了最佳结果:77.6对78.5,以及83.5对83.8。当使用ConvNeXt-S提取图像特征时,我们的CAAPN在STB上取得了最佳结果。

UCF-QNRF。这个数据集由高分辨率图像和拥挤的人群组成。如表2所示,我们的方法不仅在F1得分上取得了最好的结果,而且在使用相同特征的情况下显著提高了精确度(比之前的最好方法FIDT高出2.43)。

JHU-CROWD++.这个数据集在人群密度和场景上具有丰富的多样性。对于这个数据集,我们只找到了TopoCount和FIDT的公开可用结果。结果如表3所示。使用与TopoCount相同的特征提取器(VGG16),我们的CAAPN在两个设置下()都取得了更好的F1,分别提高了3.7%和2.3%。与FIDT相比,我们的CAAPN也取得了更高的性能:在 的设置下大约提高了2%,在 的设置下大约提高了3%。这些结果表明我们的方法对密度变化和场景变化更为鲁棒。

NWPU-Crowd。如表4所示,我们的方法在两种设置()下都取得了最高的F1和召回率分数。我们的CAAPN使用HRNet-W48将F1/R推至78.6/76.8(在 设置下),以及在 设置下推至72.7/71.1。在表5中,我们提供了不同大小目标的详细召回率分数。我们的CAAPN使用ConvNeXt-S和HRNet-W48取得了最佳和第二佳的平均召回率,证明了其在处理各种目标尺寸方面的有效性。这是因为目标尺寸通常与目标密度负相关,而CAAPN在人群和稀疏区域都表现良好,这可以归因于AAG模块自适应地生成各种目标密度的锚点的能力。在图6中,我们在不同目标密度上可视化了结果。对于中等拥挤的图像Id 3110(NWPU-Crowd密度标签2),我们的CAAPN几乎找到了所有目标,只有3个错误预测。在这张图像中,FIDT错过的大多数人位于前排,密度相对较低。相比之下,我们的CAAPN能够找到所有这些点,这要归功于AAG模块。对于稀疏拥挤的图像Id 3113,这是一个各种尺寸的复杂市场场景(NWPU-Crowd密度标签1),我们的方法在精确度和召回率上都显著优于FIDT。我们将其归因于区域锚点生成和点提议重排策略。第三列中的图像不仅拥挤(NWPU-Crowd密度标签3),而且分辨率低。人群的密度超过了FIDT能够处理的上限。有了我们的AAG,CAAPN可以在拥挤区域生成更密集的锚点,因此很好地处理了这一具有挑战性的场景。最后,对于最右边的图像,其中没有可见的人,我们的方法仍然表现良好。

计数性能。尽管这项工作专注于人群定位,我们还提供了计数性能的全面评估。结果如表6所示。我们的CAAPN在五个基准中的四个上取得了最佳性能,就主要指标MAE而言,排名第二的是STA数据集,略逊于P2PNet。

4.3 消融研究

在本节中,我们彻底评估了我们方法的关键组件:增强匹配重排(AM)和锚点金字塔生成(APG)。我们还评估了所提出的级联计数损失(CCL)和锚点先验学习的有效性。除非另有说明,所有实验都是在JHU-CRWOD++数据集上使用ConvNeXt-S提取的特征进行的。
AM的有效性。为了评估AM的有效性,我们去掉它并报告结果,如表7所示。结果表明,我们的AM在五个数据集上分别提高了F1分数(主要指标)1.2、0.7、0.75、0.9和0.4。AM策略在提高所有数据集的精确度方面更有效,除了NWPU-Crowd。主要原因是锚点冗余(AR)在NWPU-Crowd上是最低的。AR定义为 ,其中T是数据集中的图像数量, 分别表示真实人群计数和锚点数量。AM策略旨在重新分配锚点到真实情况。NWPU-Crowd数据集上最低的锚点冗余使得不一致问题不那么严重,可能没有充分发挥我们AM的潜力。因此,提出的CAAPN在其他数据集上的性能提升不如在NWPU-Crowd上显著。

图7显示了一些仅被选为优化模型训练(红色)的结果,仅被选为推理(蓝色)的结果,以及被选为这两个阶段(绿色)的结果。我们的增强策略使所选预测更加一致,从而提高了性能。我们探索了多种匹配策略,用于额外引入的预测 ,包括DR、HCR和IP。采用DR策略时, 直接与所有真实情况注释匹配。采用HCR策略时, 与最佳匹配 定义的顶部-M'成本的真实情况注释匹配。IP表示我们的逆概率排名策略。结果如表9所示。它表明,不使用额外匹配会导致明显的性能下降。与提出的两种替代策略,即DR(直接重排)和HCR(高成本重排)相比,提出的IP策略在所有指标(F1、P、R)和两种 下都显示出优势。特别是在 时,IP的F1改进为0.9,是第二佳策略HCR的三倍。

不同人群密度水平的JHU-Crowd++数据集的性能如表10所示。它表明,提出的AM策略在处理较大人群密度的图像时更有效:F1分数提高了0.4、0.7和1.7,分别对应于(10,100]、(100,1000]和(1000,+∞)。当人数少于10时,不一致问题不严重,AM的F1改进降至0.1。总之,AM策略在密集和稀疏场景中都有效,并且在处理大人群密度的图像时更有效。我们进一步进行实验,测试目标检测中使用的多对一标签分配策略[36]是否可以转移到人群计数中。原始方法[36]使用了6个辅助头,并且向Deform DETR添加了6倍的查询,这在人群定位任务中,当人群中的人数很多时,会导致太多的内存成本。其检测任务中的图像对象数量通常少于100,但对于我们的人群定位任务,人数超过500。因此,我们将查询数量更改为1x、2x和3x。JHU-Crowd++数据集上的结果如表11所示。它表明,我们的方法在几乎所有指标上都表现最佳,即使与我们内存使用量相同的比较方法相比。

APG的有效性。在表7中,我们展示了使用和不使用APG的我们方法的性能。去掉APG模块时,我们将每个16×16网格中的锚点数量设置为4,这在使用固定数量锚点时被证明是最好的设置,如表12所示。表7的结果表明,我们的APG在所有数据集上都带来了相似的改进。图8中,我们展示了不使用APG模块(a)和使用APG(b)之间的一些定性比较。它表明,没有APG,模型可能在稀疏区域预测过多的点(用蓝圈标记),并且在拥挤区域错过人群(用红圈标记)。在图8(c)中,我们展示了我们的APG模块生成的锚点。

不同定位分支的功能。我们的模型包含三个定位分支,分别配备了1、4和8个锚点。直观上,分支越少,应该预测大尺寸目标。为了验证这个猜想,我们计算了每个分支在不同目标大小下获得的预测百分比。与其他实验类似,我们使用边界框边的平均长度来表示其大小。结果如图10(a)所示。对于非常大的目标(平均边长大于256像素),超过89%由只有一个锚点的分支预测。对于微小目标(平均边长小于2像素),67%由八个锚点的分支生成。

不同锚点金字塔级别的性能。在我们的方法中,我们在K个密度级别下学习锚点先验。这里我们探索不同的K值,对于相同的K,我们还研究了不同的密度组合。结果如表12所示。它表明,当使用一个金字塔级别(即K=1)时,将锚点数量设置为4可以获得最佳的定位性能。当K增加到2时,最佳F1在 下进一步提高(38.7对39.7)。当K=4时,模型实现了最佳的定位性能,但我们注意到计数性能显著下降。如图11所示,训练数据集中每个16×16块内的计数分布是不平衡的。使用K=3时,超过4人的块将被分配到分支s3。如果我们增加K,一些块将被分配到其他分支,加剧了不平衡问题,使得s3没有得到充分训练。相比之下,K=3且s1=1、s2=4、s3=8是在计数和定位性能之间一个很好的折衷。

锚点空间分布先验的有效性。我们利用目标的空间分布来确定区域内锚点的位置。为了验证其有效性,我们将它们替换为[9]中的均匀分布。结果如表13所示。有了K-means,先验在 的设置下带来了0.2 F1的改进(65.6对65.4)。

CCL的有效性。为了评估CCL的有效性,我们将我们的损失 替换为传统的L2损失。结果如表14所示,使用L2损失导致MAE下降了8.4(69.2对60.8),更显著的是F1在 下下降了4.2。对于CRL,它在所有指标(F1、P、R、MAE、MSE)上都优于L1、BL和NoisyCC,无论是在 还是 下。有了重新加权,F1分数提高了1.1和1.0,在 下,分别。即使没有重新加权,CRL仍然在所有指标上优于L1损失,因为它是在多分辨率密度图上进行监督的。我们还对CCL的组成部分进行了更详细的消融实验,特别是通过移除LIL。包含IL提高了数量预测的准确性(60.8对61.3),因为它迫使预测接近整数,从而减少了四舍五入误差。IL旨在减少密度图的量化误差。它与基于密度图的损失一起工作得很好,包括L1、NoisyCC和我们的CRL,分别提高了F1分数0.3、0.5和0.1。IL对基于点图的损失BL效果不佳,因为点图对量化误差不敏感[53]。为了进一步验证CCL在定位偏移误差中的有效性,我们引入了JHU-Crowd++训练集点注释的噪声。新的注释是在以每个原始注释为中心,半径为r的圆内均匀采样的,其中r分别为2、4、8、16、32和64。这些损失的计数性能如图12所示。所有损失的性能随着噪声的引入而下降,但我们的方法表现出更慢的增长速率,特别是当偏移误差超过16像素时。这表明了我们损失函数的优越性。

计算成本。我们评估了我们的方法与几种现有方法[18]、[49]、[50]、[58]的计数和定位性能,结果如表15所示。它表明,使用相同的背景,我们的模型参数略多,延迟相当。考虑到这些方法相比,性能提升很大,增加的计算成本是可以接受的。

不同特征的影响。图13显示了JHU-CROWD++数据集上不同目标大小下定位性能曲线,以及目标大小分布的直方图。与其他实验类似,目标的大小由边界框边的平均长度((width+height)*0.5)来衡量。召回率首先随着目标大小的增大而增加,但当平均长度大于64像素时,所有三种特征的性能开始下降。这可能是由于感受野对如此大的目标不足所致。

将AM应用于目标检测。查询/锚点基础的目标检测方法中也存在不一致性问题[4]、[30]-[32],这些方法通常在训练期间同时使用IoU和分类分数,但在推理期间仅使用分类分数。我们将AM策略应用于目标检测,并在他们的共同评估检测数据集CrowdHuman上比较我们的AM策略与[37]和[36],使用两个代表性的查询基础目标检测框架作为基线:FCOS[33](密集查询)和Deform DETR[32](稀疏查询)。结果如表16所示。它表明,我们的AM策略可以在相同或更少的epoch下提高FCOS和Deform DETR的性能。在密集查询基线FCOS上,改进在AP50、mMR和Recall方面分别为2.0、7.0和0.5,显示出与[37]相比的优势。我们还注意到,在稀疏查询基线Deform DETR上,改进在AP50、mMR和Recall方面分别为0.4、3.8和0.8。我们的改进小于[37]和[36]。这是因为在稀疏查询基础方法中,查询的冗余性小于密集查询基础方法,使得不一致性问题不那么严重。因此,我们的AM策略对稀疏查询基础目标检测方法的改进不是很显著。

5 结论

我们提出了一种新颖的一致性感知锚点金字塔网络,用于人群定位,通过预测人头的精确位置。该模型由两个关键组件组成:自适应锚点生成器(AAG)和增强匹配定位器(LAM)。AAG根据预测的人群密度自适应确定每个图像区域的锚点密度。这个AAG考虑了头部的空间分布先验,使生成的锚点更具代表性。LAM随后减少了训练和推理期间预测排名的不一致性。使用三种流行的特征(即VGG-16、HRNet-W48和ConvNeXt-S)进行评估,我们的方法在五个具有不同人群密度和场景的广泛使用基准上取得了优于现有方法的性能。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编


PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章