SIGGRAPH 2024 | 基于空间和表面对应场的交互迁移方法

文摘   科技   2024-07-18 11:00   广东  

导读

本文是VCC许宏浩同学对论文 Spatial and Surface Correspondence Field for Interaction Transfer 的解读,该工作由深圳大学可视计算研究中心和快手科技合作完成,并已被发表在计算机图形学顶级会议SIGGRAPH 2024上。 

项目主页: 
https://vcc.tech/research/2024/InterTransfer 
项目论文: 
https://arxiv.org/abs/2405.03221 

该工作提出了一种基于空间和表面对应场的交互迁移方法,给定智能体和源物体之间的示例交互,该方法能够通过对应场推断出智能体和同类别目标物体之间的空间和表面关系,该对应关系能够为后续的交互优化提供约束,从而产生更加精确、合理的交互迁移



I


 引言 
交互在理解3D物体方面起着至关重要的作用,在游戏、电影、AR/VR和机器人等多个领域有着广泛应用。传统的交互生成方法包括艺术家手工设计,或者使用动作捕捉设备记录。但是这些方法成本高昂且不易拓展。本工作采用交互迁移的方法解决交互生成任务。交互迁移的目的是:给定智能体与源物体之间的示例交互,我们希望将示例交互的交互信息迁移到具有类似几何结构的新物体上,随后智能体能够基于迁移后的交互信息预测其在新物体上的交互。
早期的一类方法将交互表达为智能体与物体表面之间的接触点,这类方法通过建立源物体表面和目标物体表面之间的对应关系,从而能够将表面接触点从源物体迁移到目标物体,迁移后的接触点会用于引导智能体在目标物体空间的姿势优化。然而,由于接触点往往是局部且稀疏的,使得这些方法对表面对应结果非常敏感。为了解决上述方法的问题,另一类方法提出将交互表达为物体空间中的采样点,通过构建源物体和目标物体在空间上的对应关系来实现交互迁移。这类方法能够提供更加全局的对应关系从而实现更加连续的迁移效果,然而这类方法没有显式地考虑局部的交互细节。

为了解决过往工作存在的问题,本工作提出结合空间交互表达和表面交互表达来编码交互的全局特征和局部特征;为了构建源物体和目标物体的对应关系,本工作利用神经隐式场来构建表面和空间对应场,具体来说,给定一个源交互以及一个目标物体,该方法将二者映射到一个可学习的模板场中,该模板场能够提供源物体表面交互区域和目标物体表面区域的对应关系,智能体点集在源物体空间的空间坐标也能通过模板场对应到目标物体空间中;基于对应场我们能获取迁移到目标空间的交互表达,智能体的参数能够基于此进行优化,从而得到从源物体到目标物体的交互迁移。

II


 技术贡献 

本工作主要贡献如下:

  • 提出了一种空间和表面交互表达,能够有效编码交互的全局特征局部特征

  • 提出了一种空间和表面对应场,能够在两个物体空间建立表面和空间对应关系

  • 提出了一种基于空间和表面约束的交互优化,能够生成准确且有效的目标交互


III


 方法介绍 

图1 SSCF流程图


本文的方法总览如图1所示,给定一个示例交互,该方法首先提取与交互相关的智能体点、物体点、以及智能体与物体之间的交互图作为交互表达;随后,该方法利用一个隐式模板场来建立源物体空间与目标物体空间之间的对应关系,从而能将智能体点与物体点从源物体空间迁移到目标物体空间;最后,基于迁移后的智能体点、物体点以及交互图,该方法通过优化智能体参数以获取目标交互。

空间和表面交互表达
本文首先提出空间和表面交互表达用于编码交互的全局特征和局部特征。为了编码智能体在物体空间的全局位置,本文使用相对物体中心的智能体坐标作为交互的空间表达  本文假设所有物体都以原点为中心,因此空间表达可以简单地表示为 

为了表征智能体与物体表面的局部交互细节,本文提出使用基于交互图的拉普拉斯坐标  作为交互的表面表达。具体来说,首先对源交互中的所有点  进行Delaunay四面体化得到Delaunay图,本文将交互图的边定义为Delaunay图中与智能体直接相连的边,将交互图中的点定义为智能体点以及与智能体直接相连的物体点。本文将拉普拉斯坐标  定义为每个智能体点  与其在交互图中所有相邻点线性组合之间的局部差值,具体公式如下:
其中  和  分别表示智能体点  在交互图中的智能体点近邻和物体点近邻,  是与边长为反比的标准化权重。

空间和表面对应场

图2 隐式模板场


为了将源交互迁移到目标物体上,本文提出使用隐式模板场[1]作为空间和表面对应场,用于建立源物体空间和目标物体空间之间的对应关系。

隐式模板场的构建如图2所示,给定一个输入物体,本文使用一个编码器  将其编码为旋转不变的形状编码  并预测一个旋转矩阵 该旋转矩阵能将源物体空间旋转至标准空间以实现不同物体的对齐;随后本文将形状编码  输入至解码器  中得到一个形变场,该形变场能够将标准物体空间中的点  偏移到模板空间中的相应位置 因此通过形变场,我们能够将物体空间映射到模板空间中;除此之外,该解码器同时输出一个SDF修正场用于建立物体空间SDF场和模板空间SDF场的关系。

本文使用上述的隐式模板场作为交互的空间和表面对应场,从而能够将源物体空间中的智能体点  和物体点  对应到目标物体空间中 首先针对物体点,我们可以将源物体表面上的一个点 通过在模板空间中寻找最近邻的方式对应到目标物体表面上的点 
同理,对于智能体点,我们可以用同样的方式将源物体空间中的一个点 对应到目标物体空间中  :
 空间和表面交互优化
给定源物体空间中的交互点  以及目标物体空间中的对应点 我们在智能体的参数空间  上引入空间和表面约束优化将交互迁移到目标物体中,其中优化目标由空间损失、表面损失和穿透损失组成;

空间损失的表达式如下,我们使用对应智能体点作为当前智能体点  的位置参考: 
表面损失的表达式如下,我们使用源拉普拉斯坐标  来保留当前智能体表面相对于目标物体的局部交互细节:
 穿透损失的表达式如下,我们检测当前位于智能体内部的目标物体点,并最小化其与最近智能体点之间的距离:
 综上,最终的优化目标如下:  
其中  为损失权重,  是用于限制智能体每个关节角度相较原姿势的变化阈值。

IV


 部分结果展示 

图3展示了在人-椅静态交互和手-杯静态交互上的对比结果,针对人-椅交互的例子,本工作能够在具有不同结构和几何形状的椅子上迁移各种交互姿势,例如,本方法能够准确地将手与椅子扶手之间的接触转移到其他椅子上。针对手-杯交互,本方法迁移后的交互也准确地保留了重要的交互语义。本方法在智能体方向、物体穿透、交互语义以及交互相似性上均超过了所有基线方法[2, 3, 4, 5, 6]。

图3 静态交互

图4展示了一个动态交互的例子,相比其他基线,本方法能够生成更加稳定、平滑的运动序列。

图4 动态交互

图5展示了在残缺扫描物体输入的迁移结果,可以发现本方法能够产生更加合理的交互迁移。

图5 残缺点云物体输入

表1和表2展示了本方法与其他基线方法的定量比较,本方法不仅在穿透指标上展现出显著的优势,同时也保持了最高的交互相似性。

表1 人椅交互的定量比较

表2 人手交互的定量比较

V


 总结与展望 
本工作首先提出空间和表面交互表达用于编码交互的全局特征和局部特征,随后本工作利用隐式模板场建立源物体空间和目标物体空间的对应关系,最后提出基于空间和表面约束的交互优化,能够生成准确且有效的目标交互。

VI


 思考与讨论 
Q: 本文方法为何可以处理不同拓扑结构的物体? 
A: 由于本方法使用隐式的模板场来建立源物体与目标物体之间的空间和表面对应关系,因此本方法可以处理包含大量拓扑结构变化的同类别的物体。 

Q: 本文方法在物体的尺寸上有限制吗? 
A: 本文方法假定交互迁移是在尺寸相似的物体之间进行的,如图6所示,本方法能够很好地处理-25%到25%之间的比例变化,这是因为模型是在此范围内进行数据增强训练的,针对超出这一范围的尺度变化,本文方法可能无法产生合理的交互。

图6 不同大小物体的迁移结果

以下是开放性问题,欢迎读者朋友留言讨论: 
Q: 本方法在处理拓扑结构相同,但交互区域的几何形状明显不同的目标物体时很难产生合理的结果,如图7所示,本方法没法将坐姿从单人座椅子迁移到双人座沙发上,本方法很难将握姿迁移到手柄空间明显缩小的杯子上,这是因为手柄没有足够的空间容纳三根手指。如何对交互进行更高级的语义或功能理解是一项可能的未来工作。

图7 失败例子

-- End--



导 读 | 许宏浩
审 核 | 胡瑞珍
编 辑 | 申


参考文献

[1] Yu Deng, Jiaolong Yang, and Xin Tong. Deformed implicit field: Modeling 3D shapes with learned dense correspondence. Conference on Computer Vision and Pattern Recognition (CVPR). 10286-10296, 2021. 

[2] Andriy Myronenko, and Xubo Song. Point set registration: Coherent point drift. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). 32(12), 2262-2275, 2010. 

[3] Diego Rodriguez, and Sven Behnke. Transferring category-based functional grasping skills by latent space non-rigid registration. IEEE Robotics and Automation Letters (RAL). 3(3), 2662-2669, 2018. 

[4] Lixin Yang, Kailin Li, Xinyu Zhan, Fei Wu, Anran Xu, Liu Liu, and Cewu Lu. OakInk: A large-scale knowledge repository for understanding hand-object interaction. Conference on Computer Vision and Pattern Recognition (CVPR). 20953-20962, 2022. 

[5] Yeonjoon Kim, Hangil Park, Seungbae Bang, and Sung-Hee Lee. Retargeting human-object interaction to virtual avatars. IEEE Transactions on Visualization and Computer Graphics (TVCG). 22(11), 2405-2412, 2016. 

[6] Anthony Simeonov, Yilun Du, Andrea Tagliasacchi, Joshua B Tenenbaum, Alberto Rodriguez, Pulkit Agrawal, and Vincent Sitzmann. Neural descriptor fields: SE(3)-equivariant object representations for manipulation. International Conference on Robotics and Automation (ICRA). 6394-6400, 2022.




深圳大学可视计算研究中心
Visual Computing Research Center
----------------------------------
https://vcc.tech


中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础,致力促进多个学科的深入交叉与集成创新,重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学研究。

📫
转载及合作:szuvcc@gmail.com


深圳大学可视计算研究中心
深圳大学可视计算研究中心致力于大力提升可视计算科学研究与高等教育水平,以计算机图形学、计算机视觉、人机交互、机器学习、机器人、可视化和可视分析为学科基础,促进多个学科的深入交叉和集成创新。详见官网: vcc.tech
 最新文章