点击下方卡片,关注「集智书童」公众号
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
欢迎扫描上方二维码,加入「集智书童-知识星球」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
人体姿态估计在中小尺度上一直是一个该领域的重要挑战。大多数现有方法侧重于通过堆叠多个昂贵的反卷积层来恢复高分辨率特征图,或者通过从低分辨率特征图中持续聚合语义信息来保持高分辨率特征图,这可能导致信息冗余。
此外,由于量化误差,基于热力图的方法在准确定位中小尺度人体图的关键点上存在一定劣势。在本文中,作者提出HRPVT,它利用PVT v2作为 Backbone 来建模长期依赖性。
在这个基础上,作者引入了高分辨率金字塔模块(HRPM),该模块通过将卷积神经网络(CNNs)的内隐偏置集成到高分辨率特征图中,以生成更高质量的高分辨率表示。HRPM的集成增强了纯 Transformer 基础模型在中小尺度人体姿态估计上的性能。此外,作者将基于热力图的方法替换为SimCC方法,该方法消除了昂贵的上采样层需求,从而使作者能够将更多计算资源分配给HRPM。
为了适应具有不同参数尺度的模型,作者开发了两种插入策略的HRPM,每种策略都旨在增强模型从两个不同视角感知中小尺度人体姿态的能力。
作者提出的方法在MS COCO Keypoint验证和测试数据集上分别取得了76.3 AP和75.5 AP的得分,与HRNet-W48相比,减少了60%的参数数量和62%的GFLOPs。
此外,作者的方法在AP指标中取得了最高的分数,验证了其在中小尺度人体姿态估计方面的优越性。
1 Introduction
人体姿态估计(HPE)是计算机视觉领域的基石任务,涉及在给定图像上检测人体关键点位置,并对每个个体对这些关键点进行分类。它的意义扩展到许多下游应用,如活动识,人机交互[4; 5],以及视频监控[6; 7]。然而,由于诸多因素,如遮挡、截断、欠曝成像、模糊外观以及人体实例的低分辨率性质,HPE面临巨大的挑战。在2D人体姿态估计的早期阶段,回归方法经常被探索。这些方法直接在一个计算高效的框架内回归关键点坐标。然而,由于性能不佳,只有少数现有方法采用了这种方案。近年来,基于 Heatmap 的方法崛起为主要的做法,提供了减少假阳性、通过为每个位置分配概率值来促进更顺畅的训练的优势。
尽管它们取得了成功,但这些方法遇到一个重大挑战:持续的量化误差问题,特别是在低分辨率或小型人体场景中尤为明显。这个问题源于将连续坐标值映射到离散化的2D降采样 Heatmap 。
为解决这一量化误差问题,已经做出了许多努力,Simcc[8]就是一个显著的例子。Simcc将人体姿态估计分为两个分类任务,即水平坐标和垂直坐标,不仅消除了昂贵的上采样层,而且与基于 Heatmap 的方法相比,在中小型人的局部定位准确性上表现出优势。
基于此,作者提出了一种名为高分辨率金字塔视觉Transformer(HRPVT)的新颖模型,该模型以PVT v2和Simcc作为基础。在这个基础上,作者设计了一个模块,即高分辨率金字塔模块(HRPM)。HRPM由两个子模块组成,分别是HRPM v1和HRPM v2,它们旨在通过卷积神经网络在高质量特征图上模拟尺度不变性和局部性,从而增强网络在中等和小尺寸人体姿态中定位关键点的能力。此外,根据HRPM v2的插入位置,作者设计了两种插入策略,即分层插入和阶段插入,以便从两个角度容纳不同容量的基础模型。
作者的主要贡献如下:
作者提出了一种名为HRPVT的新模型,该模型将卷积神经网络(CNNs)固有的比例不变性和局部性内生偏置引入到PVT v2的高分辨率特征图。这增强了网络在中小尺度人体关键点定位的能力。 作者提出了两种插入策略——分层插入(Layer-wise Insertion)和阶段插入(Stage-wise Insertion)——分别从不同的角度针对各种复杂程度的 Baseline 进行设计。 作者的HRPVT模型在MS COCO和MPII数据集上都表现出了卓越的性能。值得注意的是,在MS COCO数据集上,HRPVT在仅使用40%的参数数量和37%的GFLOPS的情况下,超过了HRNet-W48,取得了更好的结果。
2 Related work
2D人体姿态估计(HPE)的方法主要关注在图像或视频中确定人体关键点(如关节点)的2D坐标或空间定位。主要采用两种深度学习策略:回归和基于热力图的方法。
Regression-based methods
回归方法采用一个全面的学习框架,该框架可以直接将输入图像映射到身体关节的位置或定义人体模型的参数。在这个领域中,DeepPose [15] 是一项开创性的工作,将人体姿态估计问题转变为关键点坐标回归问题,从而引发了一系列有影响力的后续研究,如 。然而,持续的研究发现了一些问题。首先,人类关键点坐标的数值范围广泛且分布分散,这使得网络直接学习变得困难。其次,人类关键点之间以及人与环境之间的约束信息丰富,但这些信息在坐标回归方法中被丢失。这些缺陷严重阻碍了坐标回归技术的有效性,并阻止了它们超越基于热力图的方法。这种情况一直持续到李等人[21]通过提出一个名为 RLE(残差对数似然估计)的规范化流模型进行概率建模。该模型旨在捕捉关节位置的分布,并通过残差对数似然估计优化参数。
Heatmap-based methods
基于 Heatmap 的人体姿态估计(HPE)方法与直接确定人体关节的二维坐标不同。这些方法主要关注生成二维 Heatmap ,这些 Heatmap 是通过在关节位置上叠加每个关节的二维高斯核来形成的。这种策略不仅保留了每个关节的精确空间信息,还简化了训练过程,为直接估计关节坐标的方法提供了独特优势。使用 Heatmap 表示关节位置的方法引起了广泛关注,促使了专门为此目的的卷积神经网络(CNN)架构的发展。Wei等人[22]提出了卷积姿态机,这是一种多阶段的框架,通过利用先验阶段的二维信念图来增强预测准确性,从而在确定关键点位置方面表现出色。
同时,Newell等人[23]开发了堆叠小时glass网络,这是一种创新的编码器-解码器架构,可以迭代捕捉和处理身体姿态信息,并提供中间监督。Sun等人[24]为高分辨率网络(HRNet)做出了重要贡献,该网络通过连接多分辨率子网络并执行多尺度融合,在网络的整个过程中保持高分辨率表示。这种创新极大地提高了关键点 Heatmap 预测的准确性。尽管基于 Heatmap 的方法广泛使用,但量化误差仍然是一个重大的挑战,尤其是在低分辨率输入的情况下。Cheng等人[14]提出了一个增强的HRNet,称为更高分辨率网络,它利用Cheng等人[14]产生的高分辨率 Heatmap 进行解卷积,以相对减少量化误差,并显著提高中和小尺度个体的检测。
Quantization error problem
为了减轻来自离散化的二维降采样的热力图的显著量化误差,张等人[25]提出了一种基于泰勒展开的分布近似方法进行后处理。这种方法有效地融合了热力图激活的分布信息。古等人[26]提出了一种通过归一化特征图并计算期望值来获得坐标的值的方法。
李等人[8]提出了一种新颖的方法,将HPE重新表述为两个独立的分类任务,一个用于水平坐标,另一个用于垂直。他们引入了SimCC方法,该方法显著提高了子像素定位的准确性,并通过将每个像素均匀分割成多个bin来最小化量化误差。
Vision Transformers with inductive bias
ViT [9] 是一项具有突破性的尝试,将纯 Transformer 方法应用于视觉任务,取得了有前景的结果。同时,MViT [27],PVT [11] 和 Swin [28] 的出现将多尺度特征层次结构纳入 Transformer 设计中,反映了传统卷积架构(如 ResNet-50)中的空间布局。然而,这些类似于 ViT 的方法的一个显著局限在于,它们在捕捉局部视觉结构时缺乏内在的归纳偏差,而是依赖大量数据的隐式学习。DeiT [29] 提出了一种在训练过程中从 CNN 中提炼知识并转换为 Transformer 的方法。
然而,这种方法需要使用现有的 CNN 模型作为教师,从而在训练过程中引入额外的计算开销。后续的努力已经尝试赋予视觉 Transformer CNN 的内在归纳偏差。例如,[30; 31; 32] 采用了一种堆叠卷积和注意力层顺序堆叠的策略,从而建立了一种序列结构,有利于同时建模局部和全局依赖关系。然而,这种顺序方法可能在专注于局部特征(反之亦然)时,无意中忽略了更广泛的全局上下文。相比之下,ViTAE [33] 提出了一种新颖的方法,通过在每个 Transformer 层内的并行结构同时建模局部和全局依赖关系。这种并行架构不仅提高了计算效率,而且通过同时捕获局部和全局特征,便于进行全面理解。
3 Methodology
提出的HRPVT利用PVT v2作为基础,提取全面的代表性信息,并采用SimCC作为一维坐标分类器,使用独立的分类器预测关键点坐标。HRPVT的结构如图1所示。作者通过开发HRPM进一步优化了这一基础,该任务负责将多尺度上下文细节集成到 Token 中,并增强局部低级语义表示的建模。后续部分将详细介绍HRPVT的每个组件。
Revisiting PVT v2 and Simcc
作者现在对 Baseline 进行简要回顾,即PVT v2与SimCC的结合。第一阶段,给定一个大小为的输入图像,使用重叠卷积嵌入(OPE)进行分词,将图像分成个patch来模拟局部连通信息。接下来,flattened的patch被输入到线性投影中,得到嵌入的token序列大小为,其中表示第一阶段的token维度。然后,这些token被输入到以下PVT v2编码器层。每个PVT v2编码器层由两部分组成,即空间减少注意力(SRA)层和卷积 FFN (CFFN)。
与多头自注意力(MHSA)不同,SRA在其他网络结构中保持了与MHSA的一致性,除了在注意力之前通过空间-降维(SR)操作降低 Key和Value 的空间尺度。SR(·)的详细描述如下:
在这里, 表示第 i 阶段的 Token 序列, 表示第 i 阶段注意力层的重叠比。 是一个将 Token 序列 Reshape 为大小为 的特征图的操作。 是一个线性投影,将 Token 序列的维数减少到 。 指的是层归一化 [34]。
与原始的 Feed-Forward 网络(FFN)相比,CFFN 引入了 深度卷积,填充大小为 1,从而能够捕获输入张量的局部连续性。此外,在 OPE 和 CFFN 中通过零填充引入位置信息,使得可以移除 PVT v1 中 previously 使用的固定大小的位置嵌入。
在经过多个PVT v2编码器层之后,输出的 Token 序列被转换为一个特征图,其大小为。同样地,通过利用前一个阶段的 Token 序列作为输入,后续的特征图,和也被生成,其中的步长为8像素,的步长为16像素,的步长为32像素,相对于原始输入图像。
给定由PVT v2提取的特征图,其大小为,其中取决于数据集中的关键点数量。SimCC作为姿态估计头,首先将 flatten为嵌入。然后,对个关键点的垂直和水平轴分别进行独立的两线性投影,以编码每个关键点的坐标信息。公式如下:
在这里, 表示第i个关键点的嵌入, 表示全连接层,, 分别表示水平轴和垂直轴的编码Simcc标签,其中是缩放因子。需要注意的是,这里使用了高斯标签平滑,默认为6.0的标准差,使得和遵循高斯分布。然后,这两个生成的序列,被输入到坐标分类器中,以解码水平和垂直坐标信息。具体解码过程如下:
在这里,, 分别表示 和 中的第 个分类bin。 表示第 个关键点水平或垂直坐标的预测概率。 代表第 个关键点的坐标预测。最后,将 个关键点的 组合结果为所有关键点的预测坐标。
3.2.1 HRPM v1
HRPM包含两个子模块,HRPM v1和HRPM v2。HRPM v1的结构如图2所示。与PVTv2不同,它使用茎网络(stem-net)的步长为4像素的OPE直接将图像分割并扁平化为视觉 Token ,而HRPM v1则采用渐进下采样,即使用每个步长为2像素的2个卷积层来提取具有更细粒度的表示高分辨率图像的表示,从而模拟高分辨率特征图的局部性。HRPM利用具有层次结构的混合膨胀卷积(HDC)[35],以捕捉在不同尺度和可变感受野内的多个层次的空间上下文信息,并模拟缩放不变性,即
在哪里
在这里, 表示输入图像, 表示 GELU [36] 激活函数, 表示 ConCat 操作, 表示卷积层,包括卷积、批量归一化和 ReLU [37] 激活函数。 表示由第 i 个膨胀卷积学习到的函数, 表示 HDC 结构。具体而言,在 HRPM v1 中,HDC 的深度 k 为六层,而在 HRPM v2 中,它为三层。作者已经通过实证证明其有效性。在 HDC 结构之后,层次特征沿通道维度进行 ConCat ,并使用 GELU 激活。然后,经过卷积层,作者得到 。作为第一阶段输入, 需要被 Reshape 为 1D Token 序列,然后进入堆叠 SRA 和 CFFN 进一步编码特征信息,从而得到第一阶段输出 。公式如下:
在这里, 将特征图展平为一个 Token 序列, 表示第一阶段的 Token 序列,而 表示 通过 PVT v2 编码器层后的 Token 序列。 和 分别表示 SRA 和 CFFN 操作。
3.2.2 HRPM v2
与直接在HRPMv1中使用渐进下采样相比,如图3所示,HRPMv2首先使用解卷积层将特征图从1/4的缩放到1/2的缩放。然后,使用非下采样的高分辨率卷积结构(HDC)进一步提取高分辨率表示。需要注意的是,在HDC之后,作者使用逐元素加法来合并层次特征,使网络在保持多尺度特征传输的同时,利用下层的高分辨率信息和上层的高语义信息。最后,渐进下采样被应用,将特征图从1/2的缩放到1/8的缩放。此外,还使用了一个残差分支来重用前阶段的学到的特征。整个过程可以描述如下:
在这里, 表示由解卷积层学习的函数。 作为 HRPM v2 的输出特征图,将作为第二阶段的输入进行进一步处理。到目前为止,作者的基本 HRPVT 已完成。
Two insertion strategies
由于PVT v2包含了各种不同容量的模型,仅使用普通的HRPM带来的性能提升相当有限。因此,作者根据HRPM v2的数量和插入位置设计了两种插入策略,即分层插入(Layer-wise Insertion)和阶段插入(Stage-wise Insertion)。普通HRPVT及其两种其他插入策略的结构如图4所示。
逐层插入(Layer-wise Insertion)意味着在第一阶段仅在每层PVT v2编码器之后插入HRPM v2,目的是提取比纯HRPVT更丰富的高分辨率特征,同时不引入过度的模型复杂性。公式如下:
这里, 和 分别表示第(j-1)个PVT v2编码层和HRPM v2。
逐步插入包括在每个阶段后插入HRPM v2。这种方法旨在将CNN的归纳偏见融入各个阶段,同时用比当前阶段更高分辨率的表示信息指导网络学习。公式如下:
在这里,表示第(j-1)阶段的(·)。
4 Experiments
Datasets and evaluation metrics
4.1.1 MS COCO dataset
MS COCO数据集[38]包括超过20万张图像和25万 Token 的人体实例,每个实例 Token 有17个关键点。作者的模型使用MS COCO train2017数据集进行训练,该数据集包括57,000张图像和150,000个人实例。
作者在两个子集上评估模型的性能:val2017子集,包含5,000张图像,以及test-dev2017子集,包括20,000张图像。在MS COCO数据集中,使用的评估指标是平均精确率(AP)和平均召回率(AR)。这些指标基于物体关键点相似度(OKS)计算,该指标衡量了真实关键点和预测关键点之间的对齐。公式如下:
在这个指标中,表示检测到的关键点与其真实地面目标对应的欧几里得距离。地面目标的可见性由表示,s表示目标的缩放,以适应大小的差异。此外,是一个关键点特定的常数,它会影响根据距离计算的相似度量衰减速率。
4.1.2 MPII dataset
MPII 人体姿态数据集 [46] 包括大约25,000张图像,这些图像涵盖了各种真实世界活动中的全身姿态标注。数据集中包含约40,000个主体,其中12,000个用于测试,其余的用于训练。MPII 人体姿态数据集所采用的评估指标称为基于头的正常化百分正确关键点(PCKh)。该指标通过确定预测的关键点与相应GT关键点之间的距离是否在预定义阈值内,来评估预测关键点的准确性。数据增强和训练策略与 MS COCO 数据集上使用的策略一致,唯一的区别是图像被裁剪到统一的256 256像素大小,以确保不同方法之间的比较一致。
Implementation details
对于MS COCO关键点验证集,作者首先根据SimpleBaseline[39]中的人体检测框裁剪输入图像,然后将裁剪的框重新缩放为256 192或384 288。接下来,作者进行数据增强,包括水平翻转、缩放(0.65, 1.35)和随机旋转(-45,+45),而MPII数据集将图像均匀缩放到256 256以与其他方法进行公平比较。作者的三种不同能力的模型在两个RTX2080Ti GPU和一台RTX3080Ti GPU上进行训练和测试,基于mmpose[47]代码库。
在256 192的情况下, Backbone 网络使用PVT v2官方预训练权重初始化,除了HRPVT-L,它使用来自mmpose的权重。mmpose的默认训练设置用于训练HRPVT模型,即作者使用Adam[48]优化器,学习率为5e-4。在170个周期后,学习率在接下来的40个周期中降为原来的十分之一,并在最后的10个周期中再次降为原来的十分之一。总训练周期为210个周期。在384 288的情况下, Backbone 网络使用256 192配置的权重初始化,并在100个周期内进行微调。值得注意的是,作者S(小)、M(中)和L(大)模型的缩放因子K分别设置为4.0、4.0和6.0,这实际上表现更好。
Experimental results
4.3.1 Result on the MS COCO dataset
表1和表2中报告了作者的方法以及其他在MS COCO数据集上处于最先进水平的方法的结果。
相较于MSPose-T和LMFormer-L,分别取得了0.9 AP的领先优势。尽管在256192分辨率下,HRPVT-S并未超过最先进的HRFormer-T,但在384288分辨率下,它仍领先0.9 AP,这表明在高分辨率输入下,它具有更强的判别能力。值得注意的是,作者的方法在AP指标上领先所有模型,这证明了HRPVT在中小规模人体姿态估计方面的优越性。
分别对应不同的通道,它们实现了相对较高的准确率,而在其他情况下,准确率存在不同程度的下降。这表明,HDC的宽度不一定在较大时更好。最后,HRPM v1和HRPM v2的结合实现了最高的准确率74.86 AP,这进一步强调了这两个模块的互补性。
4.4.2 HRPVT vs. two variants
作者在提出的两种插入策略上进行了实验。为了进一步验证HRPM的有效性,作者根据这些策略设计了两种相应的变体。这两种变体采用相同的设计原则:作者删除了HRPM v1,并用点积卷积层替换了HRPM v2中的所有反卷积层和步长卷积层,以确保通道数的一致性。所有模型都使用相同的训练策略从零开始训练。
如图5所示,当将渐进插入策略(Stage-wise Insertion)应用于HRPVT-S的 Baseline 模型PVT v2-B0时,取得了显著的改进(+2.9 AP)。尽管相应的变体表现良好,但由于缺少HRPM,与原始模型相比,它存在0.5 AP的差距。同时,作者发现,随着模型能力的增加,渐进插入策略带来的性能提升逐渐减弱。这表明,该策略有效地利用了比当前阶段更高分辨率的表示信息来指导小网络的学习。然而,对于像HRPVT-L这样的模型,需要更丰富的超分辨率特征来提高中、小型人类关键点的定位准确性,从而提高整体性能。因此,采用分层插入策略(Layer-wise Insertion)时,取得了0.3 AP的改进,而其变体仅取得了0.1 AP的改进。
5 Limitation and discussion
实验结果显示,作者提出的方法在处理中、小型人体姿态估计方面具有优势。然而,当进一步增加模型容量时,性能提升不明显。作者认为,作者的模型在处理计算资源有限和视场广阔的场景,如户外运动捕捉,方面更为擅长。如图6所示,作者的方法在这些场景下的表现更好。
6 Conclusion
在本文中,作者提出了HRPVT,一种新颖的混合视觉变换器架构,它将PVT v2和SimCC相结合作为其基础。
在此基础上,作者设计了HRPM,该模块将卷积神经网络(CNNs)的内在感应偏置整合到高分辨率特征图中,以解决中和小尺度人体姿态估计的重大挑战。
为了适应不同参数规模的模型,作者开发了两种不同的插入策略用于HRPM,每种策略都旨在增强模型从不同角度感知中和小尺度人体姿态的能力。
作者在MS COCO和MPII数据集上进行了实验,结果证明了HRPM及其两种插入策略的有效性,展示了HRPVT在中和小尺度人体姿态估计方面的优越性。
未来的工作将包括将HRPM扩展到其他分层视觉变换器架构,并在参数规模更大的模型中提升其性能。
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)