论文一起读 | 基于接触信息微调的Transformer实现人-物联合重建

文摘   科技   2024-07-11 11:01   广东  

导读

本文是VCC刘凯盛同学对论文 Joint Reconstruction of 3D Human and Object via Contact-Based Refinement Transformer 的解读,该工作来自首尔大学计算机视觉实验室和Meta公司Codec Avatars实验室,并已被发表在计算机视觉顶级会议CVPR 2024上。

项目主页: 
https://github.com/dqj5182/CONTHO_RELEASE

该工作提出了一种联合重建人与物体的方法,有效地利用了人与物体之间的接触信息,该重建方法可在虚拟现实场景、具身智能等应用场景下发挥重要作用。

注:本文图片与视频均来自原论文与其项目主页。



I


 引言 
3D人体与物体的联合重建在AR/VR沉浸式体验和机器人智能操作等应用上发挥重要作用。在这项任务中,人与物体的接触位置是一个重要信息,但以往工作将接触位置预测和人-物三维重建当作两个独立的任务,有一部分工作根据输入图像预测了人体表面与物体的接触点集,但没有重建人和物体;还有一部分重建了人和物体,但没有充分提取和利用接触信息来协助重建。

本次导读论文将这两部分任务整合起来,集成到了一个统一的框架中 (CONTact-based 3D Human and Object reconstruction,简称CONTHO)。CONTHO有两个核心步骤:(1) 估计三维人体和物体的接触位置;(2) 基于接触位置微调三维人体和物体。在第一个步骤中,首先从输入图像中重建人体网格,并预测给定三维物体网格的位姿(三维平移和旋转),得到三维人体和物体后,用Contact estimation Transformer (简称ContactFormer) 预测两者的接触位置。在第二个步骤中,用Contact-based Refinement Transformer(简称CRFormer)来根据接触信息来调整三维人体和物体。CRFormer中根据人-物接触位置选择性地利用人和物体特征,从而更准确地进行位姿微调。这种微调的方法有两个优势:一方面,CRFormer指明了哪些特征是人-物交互中的关键;另一方面,防止无关特征干扰网络交互信息的学习。基于以上这些设计,CONTHO在人-物联合重建以及接触位置估计两个任务上都达到了目前的领先水平。

II


 技术贡献 

本工作主要贡献如下:

  • 提出了CONTHO,利用人-物接触位置作为关键信息来联合重建3D人和物体;

  • 利用三维人体和物体作为显式的三维引导,从而获得准确的人-物交互信息

  • 提出了CRFormer有效地基于接触信息利用人体特征和物体特征,排除了无关信息;

  • CONTHO在人-物接触位置估计和三维人与物体联合重建方面的精度远优于以往方法


III


 方法介绍 
本文方法的输入为单张RGB图像和对应物体网格,输出是三维人体网格和物体位姿,算法流程如图1所示,主要分为三个部分:初始化重建、接触位置估计和人-物微调。

图1 算法流程图


初始化重建 (initial reconstruction) 
给定一个包含人和物体交互的RGB图像,以及对应图中物体的三维网格,目标是重建出三维人体网格并估计物体网格的三维旋转和平移。首先对RGB图像进行实例分割,得到人和物体的二维掩码,然后将RGB和人/物二维掩码输入一个CNN网络,提出逐像素图像特征。这些图像特征用来回归SMPL+H [1]人体模型的身体参数  和手部参数 以及物体的三维旋转参数  和平移参数 SMPL+H的姿态参数可以用于生成对应姿态下的三维人体网格。为了减少后续的计算量,完成位姿估计的三维人体和物体网格分别下采样,得到人体网格  和物体网格  

三维信息引导的接触位置估计 (3D-guided contact estimation) 
在这个阶段,ContactFormer从三维人体和对象网格  上分别提取特征,然后预测每个人体和物体网格顶点的接触概率。具体来说,每个网格上的顶点投影到二维后得到一个二维坐标,根据该坐标,可以对其周围的逐像素特征进行插值和卷积,从而得到网格顶点对应的视觉特征。这种视觉特征与三维坐标拼接,就得到了该三维顶点的点特征。这些人和物体的点特征  送入ContactFormer,经过交叉注意力层和多个全连接层后,输出三维人体和物体各点的接触概率  

基于接触位置的人-物微调 (contact-based refinement) 
得到接触概率后,连同网格点特征传入CRFormer。CRFormer的任务是用接触概率和点特征来微调人和物体,这部分的流程如图1右侧部分所示。对于非接触的顶点,其点特征被置零,也即只保留接触点的特征,这样操作后的人和物体点特征分别记为 这种基于接触信息的特征屏蔽是CRFormer的核心,因为接触信息可以指明哪些特征包含了关键的人-物交互信息,防止不必要的信息干扰网络的学习。接下来  和  被传入交叉注意力层处理,用来学习人-物交互的上下文信息;  和  则分别传入各自的自注意力层,用来提取独立的位置信息。交叉注意力层和自注意力层的输出拼接后传入下一个自注意力层,最后用全连接层来预测出逐点调整位置后的三维人体和物体网格  

损失函数
CONTHO的损失函数包括以下三个部分:
  
其中,  表示网格顶点接触概率  和  与真实值的交叉熵损失,  则由两个部分组成,即:
   
其中,  计算CRFormer输出的人体和物体点坐标与真实值的L1损失,  计算微调后人体网格边长与真实值的L1损失。

最后是  ,其包含三个约束项:
  
第一个约束项  计算SMPL+H参数  与真实值的L1损失;  计算人体三维及其投影的二维关节与真实值的L1损失;  计算人体手部二维包围盒与真实包围盒的L1损失。


IV


 部分结果展示 
首先展示CONTHO重建的结果,如图2所示:在CRFormer微调之前,网络已经大致准确地估计了人和物体的位姿,但是难免会出现人和物体穿模或无接触的情况。经过CRFormer微调后可以得到比较合理的交互结果。

图2 经过CRFormer微调前后的重建结果对比


接下来展示CONTHO在BEHAVE和InterCap两个包含三维人-物交互的数据集上重建的结果以及与以往工作PHOSA[2]、CHORE[3]的对比,如图3和图4所示。可以看到CONTHO更准确地预测了人和物体的位置和姿态。

图3 三项工作在BEHAVE数据集上的重建结果

图4 三项工作在InterCap数据集上的重建结果

最后展示CONTHO在这两个数据集上预测接触位置的结果,以及与以往工作BSTRO[4]、DECO[5]的对比,如图5和图6所示。从图中可以看出,CONTHO更加准确地估计了接触位置。

图5 三项工作在BEHAVE数据集上的测试结果

图6 三项工作在InterCap数据集上的测试结果

V


 总结与展望 
论文提出了一种新的人-物交互重建方法,可以从单张RGB图像中重建出人和物体。为了准确地预测出人和物体的接触位置,CONTHO使用了三维信息作为引导,相比直接从图像回归,这种三维引导的方法实现了更准确的预测结果;为了充分利用接触位置,CONTHO使用了特征屏蔽和交叉注意力机制,使神经网络很好地学习人-物交互的信息,进而微调三维人体和物体的顶点位置。

该论文关注了人与刚性物体交互的重建,未来方向是重建人与铰接物体的交互,或者人与多个物体、多个人类的交互。
VI


 思考与讨论 
Q: 如何验证CRFormer网络正确地关注了图像中人和物体的交互信息? 
A: 文中采用了控制变量的方法,用一个滑动窗口将输入图像的各个部分遮住,然后分别重建。当窗口挡住交互部分时,重建结果的准确性下降幅度最大,间接地说明了CRFormer准确地关注了交互信息。 

Q: 论文使用网络直接预测物体位姿参数,在遮挡严重时可能预测不准,是否有矫正方法? 
A: 可以引入几何上的约束,例如手在抓取物体时,手部形状和物体形状高度耦合,这种耦合关系可以进一步调整物体的位姿。 

以下是开放性问题,欢迎读者朋友留言讨论: 
Q: 本文单纯从视觉信息中学习和重建人-物交互,在物体被严重遮挡的情况下可能会出现物体位姿估计出错的情况,是否有比较好的方法可以获取人和物体的交互先验,从而约束物体的位姿空间?

-- End--



导 读 | 刘凯盛
审 核 | 胡瑞珍
编 辑 | 申


参考文献

[1] Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, Michael J. Black. SMPL: a skinned multi-person linear model. ACM Transactions on Graphics (SIGGRAPH Asia). 34(6), 248:1-248:16, 2015. 

[2] Jason Y. Zhang, Sam Pepose, Hanbyul Joo, Deva Ramanan, Jitendra Malik, Angjoo Kanazawa. Perceiving 3D human-object spatial arrangements from a single image in the Wild. European Conference On Computer Vision (ECCV). 34-51, 2022. 

[3] Xianghui Xie, Bharat Lal Bhatnagar, Gerard Pons-Moll. Chore: Contact, human and object reconstruction from a single RGB image. European Conference On Computer Vision (ECCV). 125-145, 2022. 

[4] Chun-Hao P. Huang, Hongwei Yi, Markus Höschle, Matvey Safroshkin, Tsvetelina Alexiadis, Senya Polikovsky, Daniel Scharstein, Michael J. Black. Capturing and inferring dense full-body human-scene contact. Conference on Computer Vision and Pattern Recognition (CVPR). 13274-13285, 2022. 

[5] Shashank Tripathi, Agniv Chatterjee, Jean-Claude Passy, Hongwei Yi, Dimitrios Tzionas, Michael J. Black. Deco: Dense estimation of 3D human-scene contact in the wild. IEEE International Conference on Computer Vision (ICCV). 8001-8013, 2023.




深圳大学可视计算研究中心
Visual Computing Research Center
----------------------------------
https://vcc.tech


中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础,致力促进多个学科的深入交叉与集成创新,重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学研究。

📫
转载及合作:szuvcc@gmail.com


深圳大学可视计算研究中心
深圳大学可视计算研究中心致力于大力提升可视计算科学研究与高等教育水平,以计算机图形学、计算机视觉、人机交互、机器学习、机器人、可视化和可视分析为学科基础,促进多个学科的深入交叉和集成创新。详见官网: vcc.tech
 最新文章