以人为中心的感知(Human-Centric Perception, HCP),例如检测、分割、2D/3D姿态估计和属性分类是计算机视觉领域的一个长期存在的问题。本文提出了一种单阶段、多人、多任务的HCP统一框架HQNet,该方法以学习统一的人体查询表示(称为 Human Query)为中心,可抽取单人的实例特征并应用到复杂的多人场景,在多任务HCP模型中具有最佳性能,并且与特定的单任务HCP模型相比也具有竞争力。
论文名称:
You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception
论文链接:
https://arxiv.org/abs/2312.05525
数据&代码地址:
https://github.com/lishuhuai527/COCO-UniHuman
一、动机
图1. Human-Centric Perception任务示意图
HCP包括以人为目标的检测、分割、姿态估计、属性分类、3D网格估计等多种任务(图1),对于体育分析、虚拟现实、增强现实等多种工业应用至关重要。
此前的大多数方法采用了多阶段的范式——使用人体检测器来获得每个人的框,然后将框内区域裁剪出来,再使用特定的模型来完成每个单独的感知任务(如姿态估计、实例分割)。
这些方法存在三个显著缺点:
1,流程的总体表现高度依赖于检测,若检测结果不佳则下游任务将受到严重影响。
2,流程耗时与图像中人的数量正相关,在实时应用中计算昂贵。
3,任务间相互独立,忽视了潜在的任务协同作用。
与之相比,单阶段方法在一次推理中估计所有人的所有属性,效率远高于多阶段;单阶段方法可以让多任务共享对人体结构的共同理解,利用任务间的相关性来提升表现。因此,单阶段多任务的HCP框架有很高的研究价值和应用价值。
然而,现有数据集之间的各种问题阻碍了将所有HCP任务统一到一个通用的框架的研究进展。例如,检测数据集通常是多人场景,而属性数据集通常是裁剪后的单人,二者很难结合使用;再例如,一些单任务数据集是在特定环境下收集的,例如实验室环境、监控视角获取,这与通用场景存在偏差。
为了解决这个问题,我们为MSCOCO数据集增加了丰富的HCP标注,包括人的检测框、分割图、2D肢体关键点、年龄属性、性别属性、3D Mesh等标注,覆盖了大部分HCP任务,拥有丰富的场景多样性,可用来训练单阶段多任务感知模型,也适合对多任务模型进行全面评估。进一步地,我们提出了一个统一、高效、可拓展、效果好的单阶段多任务HCP模型HQNet(Human Query Net)。
二、方法
图2. HQNet架构
三、实验结果
图3. COCO-UniHuman Benchmark上与其他方法的指标对比
图4.人脸检测指标对比
四、总结
相关工作
[1]. Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C.L.: Microsoft coco: Common objects in context. In: Eur. Conf. Comput. Vis. (2014)
[2]. Joo, H., Neverova, N., Vedaldi, A.: Exemplar fine-tuning for 3d human model fitting towards in-the-wild 3d human pose estimation. In: Int. Conf. 3D Vis. pp. 42–52. IEEE (2021)
[3].Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable detr: Deformable transformers for end-to-end object detection. Int. Conf. Learn. Represent. (2021)
[4]. Li, F., Zhang, H., Xu, H., Liu, S., Zhang, L., Ni, L.M., Shum, H.Y.: Mask dino: Towards a unified transformer-based framework for object detection and segmentation. In: IEEE Conf. Comput. Vis. Pattern Recog. pp. 3041–3050 (2023)
作者:金晟、李树槐
来源:公众号【商汤学术】
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。