AAAI 2025|多场景行人属性识别基准数据集MSP60K:57个类别和8个特定场景

科技   2024-12-25 22:01   广东  
↑ 点击蓝字 关注极市平台
作者丨金建东,王逍*,朱倩,王海洋,李成龙*
编辑丨极市平台

极市导读

 

本文介绍了一个新的大规模跨域行人属性识别数据集MSP60K,包含60122个图像和57个属性注释,并提出了一个名为LLM-PAR的大语言模型增强框架,用于提升行人属性识别的性能。该框架结合了视觉特征提取、图像Caption生成和多分支分类,通过大型语言模型增强学习和视觉特征,显著提高了行人属性识别的准确性。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented Framework

作者:金建东,王逍,朱倩,王海洋,李成龙

论文:  https://arxiv.org/abs/2211.09648

代码及数据集:  https://github.com/Event-AHU/OpenPAR

行人属性识别(PAR)是以人为中心研究的重要内容之一。然而,现有的数据集忽略了不同的领域(例如,环境,时间,人种和数据源),只进行简单的随机分割,并且这些数据集的性能已经接近饱和。在过去的五年里,还没有大规模的数据集向公众开放。为了解决这一问题,本文提出了一种新的大规模跨域行人属性识别数据集MSP60K来填补数据空白。它由8个场景中的60122个图像和57个属性注释组成。还进行了综合退化,以进一步缩小数据集与现实世界挑战场景之间的差距。为了建立更严格的基准,我们在我们的数据集上评估了随机和跨域分裂协议下的17个代表性PAR模型。

图1:现有PAR数据集与我们新提出的MSP60K数据集的比较,(c).说明我们在数据集中采用的合成退化挑战,以模拟复杂和动态的现实环境。
图2 MSP60K数据集不同场景样本特征分布的T-SNE可视化,以及不同场景的属性分布。
图3 MSP60K数据集的样本示例

此外,我们提出了一个新的大语言模型增强的PAR框架,称为LLM-PAR。该框架通过ViT主干提取行人图像特征,并引入多嵌入查询Transformer学习部件感知特征进行属性分类。值得注意的是,我们用大型语言模型增强了这个框架,用于集成学习和视觉特征增强。跨多个PAR基准数据集的综合实验彻底验证了我们提出的框架的有效性。

网络框架

图4 网络结构示意图

上图展示了LLM-PAR的框架图,所提出的LLM-PAR架构包含三个主要的部分,即(1)视觉特征提取,(2)图像Caption生成,以及(3)多分支分类。具体来说,我们首先使用视觉编码器提取行人的视觉特征。然后,设计MEQ-Former提取不同属性组的特定特征,并将其转化为mllm的潜在空间,提高了mllm捕捉行人精细细节的能力。通过投影层将属性组特征集成到指令嵌入中,将特征输入到大型语言模型中生成行人字幕。最后,将每组视觉特征的分类结果与语言分支的分类结果进行汇总,生成最终的分类结果。

1.视觉特征提取:

我们设计了一种新的多嵌入查询 Transformer(MEQ-Former), 提取不同属性组特定的视觉特征。属性组 是根据属性的类型分类,如头部,上身服装,动作,其中 K 表示属性组的数量。我们创建 K 个部件查询(PartO) 集合。这些查询输入属性组特征聚合(AGFA)模块以提取属性组特定特征 。AGFA 模块由堆叠的 FFN 和交叉注意 (CrossAttn)层组成。这个过程可以表述为:

然后 被输入到 Q-former 中, 将视觉特征投影到大语言模型的输入空间, 得到 Former 由堆叠的自注意力机制层和交叉注意层组成,通过交叉注意机制聚合图像信息。

2.图像Caption生成

虽然这种多标签分类框架可以达到不错的准确率,但它仍然没有考虑到大型语言模型的逻辑推理,这在图像-文本领域是很明显的。因此,本文尝试使用大型语言模型作为辅助分支来增强行人属性识别。我们首先为每个属性组 构建指令。然后,通过 Tokenizer 得到指令嵌入 并将其与人体图像的视觉特征 组合为指令特征 , 在训练阶段, 我们嵌入真值并将其与 连接作为大型语言模型的初始输入。在我们的实验中使用 LORA 进行了调整。最后, 通过语言模型头得到 MLLM 的最后输出隐藏状态和相应的图像 Caption。

3.多分支分类:

对于视觉分支,我们使用CBAM从中捕获每个属性的细粒度特征,从而在属性级分类器中生成特定于属性的预测。并且提出了共享CBAM的实例级分类器来聚合组内的特征,以允许稀有属性从常见属性中受益。

对于大语言模型分支,我们也使用属性级分类器对MLLM的最后输出隐藏状态进行分类,最后聚合两个分支的分类结果为最终的预测结果

损失函数

在训练阶段,我们采用广泛使用的加权交叉熵损失(WCE loss)

我们还采用交叉熵损失Lce(·)来监督大型语言模型分支中的Caption生成

实验结果

表1在我们的数据集上与公共方法的比较。第一和第二高分分别用粗体和下划线表示
表2:与SOTA方法在PETA、PA100K和RAPv1公开数据集上的比较
表3:消融实验
表4:成分分析
图5 MEQ-Former注意力可视化
图6 预测结果


公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列大视觉模型 (LVM) 解读扩散模型系列极市直播
技术综述:小目标检测那点事大模型面试八股含答案万字长文!人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货


极市平台
为计算机视觉开发者提供全流程算法开发训练平台,以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。
 最新文章