ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

创业   2024-08-20 08:22   北京  

以人为中心的感知(Human-Centric Perception, HCP),例如检测、分割、2D/3D姿态估计和属性分类是计算机视觉领域的一个长期存在的问题。本文提出了一种单阶段、多人、多任务的HCP统一框架HQNet,该方法以学习统一的人体查询表示(称为 Human Query)为中心,可抽取单人的实例特征并应用到复杂的多人场景,在多任务HCP模型中具有最佳性能,并且与特定的单任务HCP模型相比也具有竞争力。

论文名称:

You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception

论文链接:

https://arxiv.org/abs/2312.05525

数据&代码地址:

https://github.com/lishuhuai527/COCO-UniHuman

一、动机

图1. Human-Centric Perception任务示意图

HCP包括以人为目标的检测、分割、姿态估计、属性分类、3D网格估计等多种任务(图1),对于体育分析、虚拟现实、增强现实等多种工业应用至关重要。

此前的大多数方法采用了多阶段的范式——使用人体检测器来获得每个人的框,然后将框内区域裁剪出来,再使用特定的模型来完成每个单独的感知任务(如姿态估计、实例分割)。

这些方法存在三个显著缺点:

1,流程的总体表现高度依赖于检测,若检测结果不佳则下游任务将受到严重影响。

2,流程耗时与图像中人的数量正相关,在实时应用中计算昂贵。

3,任务间相互独立,忽视了潜在的任务协同作用。

与之相比,单阶段方法在一次推理中估计所有人的所有属性,效率远高于多阶段;单阶段方法可以让多任务共享对人体结构的共同理解,利用任务间的相关性来提升表现。因此,单阶段多任务的HCP框架有很高的研究价值和应用价值。

然而,现有数据集之间的各种问题阻碍了将所有HCP任务统一到一个通用的框架的研究进展。例如,检测数据集通常是多人场景,而属性数据集通常是裁剪后的单人,二者很难结合使用;再例如,一些单任务数据集是在特定环境下收集的,例如实验室环境、监控视角获取,这与通用场景存在偏差。

为了解决这个问题,我们为MSCOCO数据集增加了丰富的HCP标注,包括人的检测框、分割图、2D肢体关键点、年龄属性、性别属性、3D Mesh等标注,覆盖了大部分HCP任务,拥有丰富的场景多样性,可用来训练单阶段多任务感知模型,也适合对多任务模型进行全面评估。进一步地,我们提出了一个统一、高效、可拓展、效果好的单阶段多任务HCP模型HQNet(Human Query Net)。

二、方法

本文旨在开发一个单阶段框架来支持各种HCP任务,关键是学习一个可以在各种HCP任务中普遍应用的人体表示。为实现这一目标,我们以query based检测为基础,设计了HQNet的架构(如图2所示),研究将每个人的实例表示为单个HumanQuery的可行性。

图2. HQNet架构
我们希望最大限度地共享各种HCP任务之间的知识,所以多任务共享了大部分的网络结构,仅各自的任务头(task-specific heads)是非共享的,经HumanQuery抽取后的共享特征送往不同的任务头来实现各任务的预测。
Task-specific heads的具体设计如下:用一个二分类头来预测人体分类的置信度;对检测任务,使用Deformable DETR[3]的bbox回归头,同为坐标预测任务的2D关键点与检测共享坐标参考点,并对每个关键点额外预测一组偏移量。对于像素级的分割任务,参考MaskDINO[4],引入backbone的浅层特征来恢复特征的空间尺寸并生成降采样segmentation mask;对属性分类任务,使用对应类别数量的分类器来实现不同数量的多分类任务;对于3D Mesh估计,使用pose head和shape head分别回归10-d的shape和72-d的pose参数,再经过SMPL模型获得3D Mesh。
在训练阶段,为了将GT和Query进行匹配以计算loss,我们设计了HumanQuery-Instance Matching机制,让一个HumanQuery表示一个人的实例,用每个HumanQuery的多任务输出和每个GT实例的多任务标签计算代价矩阵,为每个GT人实例匹配到其对应的Query。最终在推理阶段可以实现一次推理获得所有人的所有HCP任务结果。

三、实验结果

我们在COCO-UniHuman上训练和测试了模型。与其他多任务或单任务模型进行指标对比,如图3所示,HQNet在多任务模型中支持的任务种类最多且指标最好!并且和单任务模型相比也具有竞争力:请勿忽视单阶段模型在推理阶段的巨大经济性优势。

图3. COCO-UniHuman Benchmark上与其他方法的指标对比
我们用预训练的HQNet在人脸检测任务上进行finetune,结果见图4,我们取得了巨大的优势!这表明HumanQuery学习到了丰富的人体结构特征,具备迁移到其他HCP任务的能力。

图4.人脸检测指标对比
此外,我们还验证了HQNet在OCHuman、PoseTrack、HumanART等不同数据集、不同任务上的表现,更多实验可以阅读论文,下面展示一些COCO-UniHuman上的结果可视化:

四、总结

本篇论文提出了首个大规模HCP数据集COCO-UniHuman和单阶段多任务HCP模型HQNet,以较少的参数量增加支持了当前主流的各种HCP任务,探索了用一个Query表示人体实例的可行性,通过HumanQuery来抽取所有感知任务的通用特征,在各项任务上均取得较好效果,超越现有的单阶段多任务算法。

相关工作

[1]. Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C.L.: Microsoft coco: Common objects in context. In: Eur. Conf. Comput. Vis. (2014)

[2]. Joo, H., Neverova, N., Vedaldi, A.: Exemplar fine-tuning for 3d human model fitting towards in-the-wild 3d human pose estimation. In: Int. Conf. 3D Vis. pp. 42–52. IEEE (2021)

[3].Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable detr: Deformable transformers for end-to-end object detection. Int. Conf. Learn. Represent. (2021)

[4]. Li, F., Zhang, H., Xu, H., Liu, S., Zhang, L., Ni, L.M., Shum, H.Y.: Mask dino: Towards a unified transformer-based framework for object detection and segmentation. In: IEEE Conf. Comput. Vis. Pattern Recog. pp. 3041–3050 (2023)

作者:金晟、李树槐

来源:公众号【商汤学术】

llustration From IconScout By Genko Mono

-The End-

扫码观看

本周上新!


“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //


投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励


投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。


关于我“

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com

    


点击右上角,把文章分享到朋友圈
点击“阅读原文”按钮,查看社区原文

将门创投
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器,由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
 最新文章