导读 本文是VCC刘凯盛同学对论文 Joint Reconstruction of 3D Human and Object via Contact-Based Refinement Transformer 的解读,该工作来自首尔大学计算机视觉实验室和Meta公司Codec Avatars实验室,并已被发表在计算机视觉顶级会议CVPR 2024上。 项目主页: https://github.com/dqj5182/CONTHO_RELEASE 该工作提出了一种联合重建人与物体的方法,有效地利用了人与物体之间的接触信息,该重建方法可在虚拟现实场景、具身智能等应用场景下发挥重要作用。 注:本文图片与视频均来自原论文与其项目主页。
I 引言 3D人体与物体的联合重建在AR/VR沉浸式体验和机器人智能操作等应用上发挥重要作用。在这项任务中,人与物体的接触位置是一个重要信息,但以往工作将接触位置预测和人-物三维重建当作两个独立的任务,有一部分工作根据输入图像预测了人体表面与物体的接触点集,但没有重建人和物体;还有一部分重建了人和物体,但没有充分提取和利用接触信息来协助重建。 本次导读论文将这两部分任务整合起来,集成到了一个统一的框架中 (CONTact-based 3D Human and Object reconstruction,简称CONTHO)。CONTHO有两个核心步骤:(1) 估计三维人体和物体的接触位置;(2) 基于接触位置微调三维人体和物体。在第一个步骤中,首先从输入图像中重建人体网格,并预测给定三维物体网格的位姿(三维平移和旋转),得到三维人体和物体后,用Contact estimation Transformer (简称ContactFormer) 预测两者的接触位置。在第二个步骤中,用Contact-based Refinement Transformer(简称CRFormer)来根据接触信息来调整三维人体和物体。CRFormer中根据人-物接触位置选择性地利用人和物体特征,从而更准确地进行位姿微调。这种微调的方法有两个优势:一方面,CRFormer指明了哪些特征是人-物交互中的关键;另一方面,防止无关特征干扰网络交互信息的学习。基于以上这些设计,CONTHO在人-物联合重建以及接触位置估计两个任务上都达到了目前的领先水平。 II 技术贡献
本工作主要贡献如下:
提出了CONTHO,利用人-物接触位置作为关键信息来联合重建3D人和物体;
利用三维人体和物体作为显式的三维引导,从而获得准确的人-物交互信息;
提出了CRFormer,有效地基于接触信息利用人体特征和物体特征,排除了无关信息;
CONTHO在人-物接触位置估计和三维人与物体联合重建方面的精度远优于以往方法。
III 方法介绍 本文方法的输入为单张RGB图像和对应物体网格,输出是三维人体网格和物体位姿,算法流程如图1所示,主要分为三个部分:初始化重建、接触位置估计和人-物微调。
[1] Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, Michael J. Black. SMPL: a skinned multi-person linear model. ACM Transactions on Graphics (SIGGRAPH Asia). 34(6), 248:1-248:16, 2015.
[2] Jason Y. Zhang, Sam Pepose, Hanbyul Joo, Deva Ramanan, Jitendra Malik, Angjoo Kanazawa. Perceiving 3D human-object spatial arrangements from a single image in the Wild. European Conference On Computer Vision (ECCV). 34-51, 2022.
[3] Xianghui Xie, Bharat Lal Bhatnagar, Gerard Pons-Moll. Chore: Contact, human and object reconstruction from a single RGB image. European Conference On Computer Vision (ECCV). 125-145, 2022.
[4] Chun-Hao P. Huang, Hongwei Yi, Markus Höschle, Matvey Safroshkin, Tsvetelina Alexiadis, Senya Polikovsky, Daniel Scharstein, Michael J. Black. Capturing and inferring dense full-body human-scene contact. Conference on Computer Vision and Pattern Recognition (CVPR). 13274-13285, 2022.
[5] Shashank Tripathi, Agniv Chatterjee, Jean-Claude Passy, Hongwei Yi, Dimitrios Tzionas, Michael J. Black. Deco: Dense estimation of 3D human-scene contact in the wild. IEEE International Conference on Computer Vision (ICCV). 8001-8013, 2023.
深圳大学可视计算研究中心Visual Computing Research Center----------------------------------https://vcc.tech