极市导读
本文介绍了一个新的大规模跨域行人属性识别数据集MSP60K,包含60122个图像和57个属性注释,并提出了一个名为LLM-PAR的大语言模型增强框架,用于提升行人属性识别的性能。该框架结合了视觉特征提取、图像Caption生成和多分支分类,通过大型语言模型增强学习和视觉特征,显著提高了行人属性识别的准确性。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented Framework
作者:金建东,王逍,朱倩,王海洋,李成龙
论文: https://arxiv.org/abs/2211.09648
代码及数据集: https://github.com/Event-AHU/OpenPAR
行人属性识别(PAR)是以人为中心研究的重要内容之一。然而,现有的数据集忽略了不同的领域(例如,环境,时间,人种和数据源),只进行简单的随机分割,并且这些数据集的性能已经接近饱和。在过去的五年里,还没有大规模的数据集向公众开放。为了解决这一问题,本文提出了一种新的大规模跨域行人属性识别数据集MSP60K来填补数据空白。它由8个场景中的60122个图像和57个属性注释组成。还进行了综合退化,以进一步缩小数据集与现实世界挑战场景之间的差距。为了建立更严格的基准,我们在我们的数据集上评估了随机和跨域分裂协议下的17个代表性PAR模型。
此外,我们提出了一个新的大语言模型增强的PAR框架,称为LLM-PAR。该框架通过ViT主干提取行人图像特征,并引入多嵌入查询Transformer学习部件感知特征进行属性分类。值得注意的是,我们用大型语言模型增强了这个框架,用于集成学习和视觉特征增强。跨多个PAR基准数据集的综合实验彻底验证了我们提出的框架的有效性。
网络框架
上图展示了LLM-PAR的框架图,所提出的LLM-PAR架构包含三个主要的部分,即(1)视觉特征提取,(2)图像Caption生成,以及(3)多分支分类。具体来说,我们首先使用视觉编码器提取行人的视觉特征。然后,设计MEQ-Former提取不同属性组的特定特征,并将其转化为mllm的潜在空间,提高了mllm捕捉行人精细细节的能力。通过投影层将属性组特征集成到指令嵌入中,将特征输入到大型语言模型中生成行人字幕。最后,将每组视觉特征的分类结果与语言分支的分类结果进行汇总,生成最终的分类结果。
1.视觉特征提取:
我们设计了一种新的多嵌入查询 Transformer(MEQ-Former), 提取不同属性组特定的视觉特征。属性组 是根据属性的类型分类,如头部,上身服装,动作,其中 K 表示属性组的数量。我们创建 K 个部件查询(PartO) 集合。这些查询输入属性组特征聚合(AGFA)模块以提取属性组特定特征 。AGFA 模块由堆叠的 FFN 和交叉注意 (CrossAttn)层组成。这个过程可以表述为:
然后 被输入到 Q-former 中, 将视觉特征投影到大语言模型的输入空间, 得到 Former 由堆叠的自注意力机制层和交叉注意层组成,通过交叉注意机制聚合图像信息。
2.图像Caption生成
虽然这种多标签分类框架可以达到不错的准确率,但它仍然没有考虑到大型语言模型的逻辑推理,这在图像-文本领域是很明显的。因此,本文尝试使用大型语言模型作为辅助分支来增强行人属性识别。我们首先为每个属性组 构建指令。然后,通过 Tokenizer 得到指令嵌入 并将其与人体图像的视觉特征 组合为指令特征 , 在训练阶段, 我们嵌入真值并将其与 连接作为大型语言模型的初始输入。在我们的实验中使用 LORA 进行了调整。最后, 通过语言模型头得到 MLLM 的最后输出隐藏状态和相应的图像 Caption。
3.多分支分类:
对于视觉分支,我们使用CBAM从中捕获每个属性的细粒度特征,从而在属性级分类器中生成特定于属性的预测。并且提出了共享CBAM的实例级分类器来聚合组内的特征,以允许稀有属性从常见属性中受益。
对于大语言模型分支,我们也使用属性级分类器对MLLM的最后输出隐藏状态进行分类,最后聚合两个分支的分类结果为最终的预测结果
损失函数
在训练阶段,我们采用广泛使用的加权交叉熵损失(WCE loss)
我们还采用交叉熵损失Lce(·)来监督大型语言模型分支中的Caption生成
实验结果
公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货
点击阅读原文进入CV社区
收获更多技术干货