ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

创业 2024-08-20 08:22 北京

以人为中心的感知（Human-Centric Perception, HCP），例如检测、分割、2D/3D姿态估计和属性分类是计算机视觉领域的一个长期存在的问题。本文提出了一种单阶段、多人、多任务的HCP统一框架HQNet，该方法以学习统一的人体查询表示（称为 Human Query）为中心，可抽取单人的实例特征并应用到复杂的多人场景，在多任务HCP模型中具有最佳性能，并且与特定的单任务HCP模型相比也具有竞争力。

论文名称：
You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception
论文链接：
https://arxiv.org/abs/2312.05525
数据&代码地址：
https://github.com/lishuhuai527/COCO-UniHuman

一、动机

图1. Human-Centric Perception任务示意图

HCP包括以人为目标的检测、分割、姿态估计、属性分类、3D网格估计等多种任务（图1），对于体育分析、虚拟现实、增强现实等多种工业应用至关重要。

此前的大多数方法采用了多阶段的范式——使用人体检测器来获得每个人的框，然后将框内区域裁剪出来，再使用特定的模型来完成每个单独的感知任务（如姿态估计、实例分割）。

这些方法存在三个显著缺点：

1，流程的总体表现高度依赖于检测，若检测结果不佳则下游任务将受到严重影响。

2，流程耗时与图像中人的数量正相关，在实时应用中计算昂贵。

3，任务间相互独立，忽视了潜在的任务协同作用。

与之相比，单阶段方法在一次推理中估计所有人的所有属性，效率远高于多阶段；单阶段方法可以让多任务共享对人体结构的共同理解，利用任务间的相关性来提升表现。因此，单阶段多任务的HCP框架有很高的研究价值和应用价值。

然而，现有数据集之间的各种问题阻碍了将所有HCP任务统一到一个通用的框架的研究进展。例如，检测数据集通常是多人场景，而属性数据集通常是裁剪后的单人，二者很难结合使用；再例如，一些单任务数据集是在特定环境下收集的，例如实验室环境、监控视角获取，这与通用场景存在偏差。

为了解决这个问题，我们为MSCOCO数据集增加了丰富的HCP标注，包括人的检测框、分割图、2D肢体关键点、年龄属性、性别属性、3D Mesh等标注，覆盖了大部分HCP任务，拥有丰富的场景多样性，可用来训练单阶段多任务感知模型，也适合对多任务模型进行全面评估。进一步地，我们提出了一个统一、高效、可拓展、效果好的单阶段多任务HCP模型HQNet（Human Query Net）。

二、方法

本文旨在开发一个单阶段框架来支持各种HCP任务，关键是学习一个可以在各种HCP任务中普遍应用的人体表示。为实现这一目标，我们以query based检测为基础，设计了HQNet的架构（如图2所示），研究将每个人的实例表示为单个HumanQuery的可行性。

图2. HQNet架构

我们希望最大限度地共享各种HCP任务之间的知识，所以多任务共享了大部分的网络结构，仅各自的任务头（task-specific heads）是非共享的，经HumanQuery抽取后的共享特征送往不同的任务头来实现各任务的预测。

Task-specific heads的具体设计如下：用一个二分类头来预测人体分类的置信度；对检测任务，使用Deformable DETR[3]的bbox回归头，同为坐标预测任务的2D关键点与检测共享坐标参考点，并对每个关键点额外预测一组偏移量。对于像素级的分割任务，参考MaskDINO[4]，引入backbone的浅层特征来恢复特征的空间尺寸并生成降采样segmentation mask；对属性分类任务，使用对应类别数量的分类器来实现不同数量的多分类任务；对于3D Mesh估计，使用pose head和shape head分别回归10-d的shape和72-d的pose参数，再经过SMPL模型获得3D Mesh。

在训练阶段，为了将GT和Query进行匹配以计算loss，我们设计了HumanQuery-Instance Matching机制，让一个HumanQuery表示一个人的实例，用每个HumanQuery的多任务输出和每个GT实例的多任务标签计算代价矩阵，为每个GT人实例匹配到其对应的Query。最终在推理阶段可以实现一次推理获得所有人的所有HCP任务结果。

三、实验结果

我们在COCO-UniHuman上训练和测试了模型。与其他多任务或单任务模型进行指标对比，如图3所示，HQNet在多任务模型中支持的任务种类最多且指标最好！并且和单任务模型相比也具有竞争力：请勿忽视单阶段模型在推理阶段的巨大经济性优势。

图3. COCO-UniHuman Benchmark上与其他方法的指标对比

我们用预训练的HQNet在人脸检测任务上进行finetune，结果见图4，我们取得了巨大的优势！这表明HumanQuery学习到了丰富的人体结构特征，具备迁移到其他HCP任务的能力。

图4.人脸检测指标对比

此外，我们还验证了HQNet在OCHuman、PoseTrack、HumanART等不同数据集、不同任务上的表现，更多实验可以阅读论文，下面展示一些COCO-UniHuman上的结果可视化：

四、总结

本篇论文提出了首个大规模HCP数据集COCO-UniHuman和单阶段多任务HCP模型HQNet，以较少的参数量增加支持了当前主流的各种HCP任务，探索了用一个Query表示人体实例的可行性，通过HumanQuery来抽取所有感知任务的通用特征，在各项任务上均取得较好效果，超越现有的单阶段多任务算法。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉