AAAI 2025｜多场景行人属性识别基准数据集MSP60K：57个类别和8个特定场景

科技 2024-12-25 22:01 广东

↑ 点击蓝字关注极市平台

作者丨金建东，王逍*，朱倩，王海洋，李成龙*

编辑丨极市平台

极市导读

本文介绍了一个新的大规模跨域行人属性识别数据集MSP60K，包含60122个图像和57个属性注释，并提出了一个名为LLM-PAR的大语言模型增强框架，用于提升行人属性识别的性能。该框架结合了视觉特征提取、图像Caption生成和多分支分类，通过大型语言模型增强学习和视觉特征，显著提高了行人属性识别的准确性。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented Framework

作者：金建东，王逍，朱倩，王海洋，李成龙

论文: https://arxiv.org/abs/2211.09648

代码及数据集: https://github.com/Event-AHU/OpenPAR

行人属性识别(PAR)是以人为中心研究的重要内容之一。然而，现有的数据集忽略了不同的领域(例如，环境，时间，人种和数据源)，只进行简单的随机分割，并且这些数据集的性能已经接近饱和。在过去的五年里，还没有大规模的数据集向公众开放。为了解决这一问题，本文提出了一种新的大规模跨域行人属性识别数据集MSP60K来填补数据空白。它由8个场景中的60122个图像和57个属性注释组成。还进行了综合退化，以进一步缩小数据集与现实世界挑战场景之间的差距。为了建立更严格的基准，我们在我们的数据集上评估了随机和跨域分裂协议下的17个代表性PAR模型。

图1：现有PAR数据集与我们新提出的MSP60K数据集的比较，(c).说明我们在数据集中采用的合成退化挑战，以模拟复杂和动态的现实环境。

图2 MSP60K数据集不同场景样本特征分布的T-SNE可视化，以及不同场景的属性分布。

此外，我们提出了一个新的大语言模型增强的PAR框架，称为LLM-PAR。该框架通过ViT主干提取行人图像特征，并引入多嵌入查询Transformer学习部件感知特征进行属性分类。值得注意的是，我们用大型语言模型增强了这个框架，用于集成学习和视觉特征增强。跨多个PAR基准数据集的综合实验彻底验证了我们提出的框架的有效性。

网络框架

上图展示了LLM-PAR的框架图，所提出的LLM-PAR架构包含三个主要的部分，即（1）视觉特征提取，（2）图像Caption生成，以及（3）多分支分类。具体来说，我们首先使用视觉编码器提取行人的视觉特征。然后，设计MEQ-Former提取不同属性组的特定特征，并将其转化为mllm的潜在空间，提高了mllm捕捉行人精细细节的能力。通过投影层将属性组特征集成到指令嵌入中，将特征输入到大型语言模型中生成行人字幕。最后，将每组视觉特征的分类结果与语言分支的分类结果进行汇总，生成最终的分类结果。

1.视觉特征提取：

我们设计了一种新的多嵌入查询 Transformer(MEQ-Former), 提取不同属性组特定的视觉特征。属性组是根据属性的类型分类，如头部，上身服装，动作，其中 K 表示属性组的数量。我们创建 K 个部件查询（PartO）集合。这些查询输入属性组特征聚合（AGFA）模块以提取属性组特定特征。AGFA 模块由堆叠的 FFN 和交叉注意 (CrossAttn)层组成。这个过程可以表述为:

然后被输入到 Q-former 中, 将视觉特征投影到大语言模型的输入空间, 得到 Former 由堆叠的自注意力机制层和交叉注意层组成，通过交叉注意机制聚合图像信息。

2.图像Caption生成

虽然这种多标签分类框架可以达到不错的准确率，但它仍然没有考虑到大型语言模型的逻辑推理，这在图像-文本领域是很明显的。因此，本文尝试使用大型语言模型作为辅助分支来增强行人属性识别。我们首先为每个属性组构建指令。然后，通过 Tokenizer 得到指令嵌入并将其与人体图像的视觉特征组合为指令特征 , 在训练阶段, 我们嵌入真值并将其与连接作为大型语言模型的初始输入。在我们的实验中使用 LORA 进行了调整。最后, 通过语言模型头得到 MLLM 的最后输出隐藏状态和相应的图像 Caption。

3.多分支分类：

对于视觉分支，我们使用CBAM从中捕获每个属性的细粒度特征，从而在属性级分类器中生成特定于属性的预测。并且提出了共享CBAM的实例级分类器来聚合组内的特征，以允许稀有属性从常见属性中受益。

对于大语言模型分支，我们也使用属性级分类器对MLLM的最后输出隐藏状态进行分类，最后聚合两个分支的分类结果为最终的预测结果

损失函数

在训练阶段，我们采用广泛使用的加权交叉熵损失(WCE loss)

我们还采用交叉熵损失Lce(·)来监督大型语言模型分支中的Caption生成

实验结果

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

深度强化学习中SAC算法：数学原理、网络架构及其PyTorch实现

聊一聊大模型六小虎和四大厂的2024！

NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一（昆仑万维等）

AAAI'25开源 | SUTrack：简单的模型，统一全部单目标跟踪任务！

AAAI 2025｜腾讯优图10篇论文入选！深度伪造检测、图像编辑等研究方向

每月都有重磅研究，2024全年值得一读的论文都在这了

参数减少99.5%，媲美全精度FLUX！字节跳动等发布首个1.58-bit FLUX量化模型

AAAI 2025 | SparseViT：参数高效的稀疏化视觉Transformer

CUDA-MODE课程笔记｜GPU集合通信(NCCL)

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

当红炸子鸡 LoRA，是当代微调 LLMs 的正确姿势？

大模型轻量化解读系列 (五)：QuaRot：基于 Rotation 的 4-bit LLM 量化

谈谈DeepSeek-v3在算力约束下的出色工作

我与vLLM的2024：清华大佬的vLLM开发之路

NeurIPS 2024 | DACER：扩散模型与在线强化学习强强联合创造新SOTA！

实践教程｜图解NumPy，这是理解数组最形象的一份教程了

谷歌劈柴立军令状：必斩OpenAI，夺回第一！

AAAI 2025 | 港大提出SparX：强化Vision Mamba和Transformer的稀疏跳跃连接机制

4比特量化三倍加速不掉点！清华即插即用的SageAttention迎来升级

AAAI 2025 | 合成数据助力自驾点云异常检测新SOTA

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

位置编码背后的理论解释——傅里叶特征 (Fourier Feature）与核回归

超越ControlNet++！腾讯优图提出动态条件选择新架构

【CUDA编程】手撸一个大模型推理框架 FasterLLaMA

写代码的时候，请心疼一下读代码的同事

文生图击败所有扩散SOTA方案！智源研究院等提出NOVA：迈向统一的多任务大模型

大模型轻量化系列解读 (四)：LLM.int8()：大语言模型 8-bit 量化初探

AAAI 2025｜多场景行人属性识别基准数据集MSP60K：57个类别和8个特定场景

MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

深度学习工作：从追求 SoTA 到揭示新现象

[vLLM vs TensorRT-LLM] #5 动态序列长度场景对比

Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

超越YOLO11和D-FINE！DEIM：最强实时目标检测算法

超越CogVideoX-5B、Pika、Kling 和 Gen-3！苹果再发新作，视频生成大模型全面报告

使用 PyTorch 加速生成式 AI 之 GPT Fast

我在 NeurIPS’24 上感受到了焦虑和挫败

NIPS 2024 最佳论文 VAR 深度解读：下一尺度预测为何能超越扩散模型？

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

使用OpenCV测量图像中物体之间的距离

李飞飞曾入选的AI2050最新名单出炉！清华校友等25位Fellow上榜

恺明新作Fluid：文生图质量刷新纪录

低空经济万字综述｜基于深度学习的无人机检测和识别研究

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

首次实现8K图像生成！南洋理工&阿里&复旦提出FreeScale：让扩散模型解锁更高分辨率

大模型轻量化系列解读 (三)：LLM-QAT：无需数据的 LLM 量化感知训练

[vLLM vs TensorRT-LLM] #4 系统调度schedule比较

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉