近年来,随着表示学习和神经几何处理的进展,3D形状编辑作为计算机图形学中最经典和基础的问题之一,再次引起了广泛关注。传统的3D形状编辑主要依赖一些编辑控制点或代理,例如点、曲线、草图、骨架或框架,这些代理为形状提供了简化的表示或抽象形式,便于操作。随着深度神经网络的快速发展,潜在空间中的形状编辑成为一种常见方法。通过在生成模型(如自编码器、生成对抗网络 (GAN) 或扩散模型)中操作潜在空间,可以隐式进行形状编辑。这种方法在图像和视频编辑中取得了显著成功,主要通过拖拽实现对象变形或场景布局更改。然而,3D形状的编辑具有不同的性质,尤其是在精细编辑方面,传统的潜在空间编辑方法常常难以保证编辑质量。尽管一些方法通过隐式函数与几何原语的耦合或连接CLIP空间与形状潜在空间进行3D形状操作,但由于几何原语或文本提示的粗糙性,这些方法在进行精细编辑时常常力不从心。
本工作主要贡献如下:
通过全局潜在编码和神经特征体积的耦合,捕捉形状的全局语义与空间上下文,支持精细编辑;
将编辑操作转换为优化目标,迭代共同优化潜在编码和神经体积,确保形状的结构完整性和语义一致性;
引入复制、调整大小、删除、拖拽等操作,通过特定目标函数引导优化,实现复杂的形状编辑。
CNS表示的基础在于两个神经张量的组合:全局潜在编码𝑧和3D神经特征体积𝐹。全局潜在编码𝑧用于捕捉形状的整体语义信息,如对称性、形状的全局结构等,而3D神经特征体积𝐹则负责提供形状的空间上下文,这对于编辑局部区域尤其重要。两者共同作用,能够在修改形状的同时保持语义一致性,并确保编辑后的形状具有高度的几何保真度。
通过这种耦合机制,CNS表示能够支持多种编辑操作,如复制、调整大小、删除和拖拽。每个操作都可以转化为具体的优化目标,指导神经特征体积和全局潜在编码的共同优化,从而生成所需的编辑结果。这种方法不仅能够实现高保真度的形状修改,还能够对复杂的形状拓扑进行编辑,而这些是传统方法难以达到的。
每个操作的损失函数都基于两个关键参数:
在复制操作中,首先根据选择的区域确定该区域在神经体积中的坐标,构建坐标列表
在调整大小操作中,选定区域的坐标集被表示为
对于删除操作,要删除的区域坐标集被表示为
在拖拽操作中,
定量结果
本文方法对生成的形状与其他最先进方法进行了定量比较。比较对象包括DualSDF[2]、SPAGHETTI[3]、SLIDE[4]和DeepMetaHandle[5]等方法。为了评估不同方法生成形状的视觉质量,本文采用了Frechet Inception Distance (FID) 和 Kernel Inception Score (KID) 两项指标。同时,为了评估方法生成的形状与用户操作的匹配程度,本文还进行了用户研究。参考之前的研究方法,本文邀请了10位参与者评估编辑后的形状,重点关注两方面:一是形状的视觉吸引力 (Quality Score, QS),二是形状与用户操作的匹配程度 (Matching Score, MS)。参与者对每个编辑后的形状进行了1到5分的评分。
结果表明,本文方法在所有指标上均优于现有最先进方法。具体而言,本文方法在生成符合用户操作的形状方面表现得更为出色,匹配评分 (MS) 显著高于其他方法。此外,通过FID、KID和QS指标,本文方法生成的编辑形状在质量和保真度方面也达到了更高水平,展示了其卓越的视觉效果和对用户意图的精确响应。
图3 与其他方法在编辑性能上进行比较
定性结果
该论文方法在定量比较中表现出色,所有评估指标均优于现有的最先进方法。具体来说,本文方法在Frechet Inception Distance (FID) 和 Kernel Inception Distance (KID) 上均取得了最低值,表明其生成的编辑形状在视觉质量上最佳。此外,本文方法还获得了最高的质量评分 (QS) 和匹配评分 (MS),表明其生成的形状不仅视觉上具有较高的吸引力,而且在操作的准确性上更符合用户的预期。
由于DeepMetaHandle[5]没有针对飞机类的预训练模型,因此无法与该方法进行飞机类的对比。但在其他类别中,本文方法仍然展示了更高的形状编辑质量和保真度。这一结果表明,本文提出的耦合神经形状优化框架在多个指标上均超越了现有的方法,尤其在实现高质量和语义一致的编辑方面表现突出。更多结果可以查看原论文。
消融研究
本文通过消融研究深入分析了所提出方法的关键组件及其对形状编辑效果的影响。首先,本文探讨了使用U-Net不同层的特征来构建神经体积 F 的效果。在标准设置中,方法使用第12层的特征来生成 F,但消融实验表明,较浅层(第15层)的特征虽然提供了丰富的空间上下文,却缺乏足够的形状语义,导致编辑后形状出现明显的伪影;而较深层(第9层)的特征由于抽象性强,缺乏空间上下文,从而降低了编辑过程的可控性。其次,本文对直接在空间域(即小波体积)中应用操作进行了消融实验,结果表明,直接在空间域中进行操作可能导致编辑形状中的伪影,并且无法很好地理解形状语义。相比之下,在神经体积域中应用操作能够生成高保真的编辑结果,并保持形状语义的一致性。这些消融研究验证了方法在神经体积域进行操作的优势,凸显了本文提出的CNS表示对精细形状编辑的重要性。
表2 本文方法能实现的功能和SPAGHETTI[3]的对比
文章的补充材料中也提到了这个问题,如图6所示:
图6 CNS复制操作的失败案例
-- End--
[1] Jingyu Hu, Ka-Hei Hui, Zhengzhe Liu, Ruihui Li, Chi-Wing Fu. Neural wavelet-domain diffusion for 3D shape generation, inversion, and manipulation. ACM Transactions on Graphics (TOG). 43(2), 16:1-16:18, 2024.
[2] Amir Hertz, Or Perel, Raja Giryes, Olga Sorkine-Hornung, Daniel Cohen-Or. Spaghetti: Editing implicit shapes through part aware generation. ACM Transactions on Graphics (SIGGRAPH). 41(4), 106:1-106:20, 2022.
[3] Zekun Hao, Hadar Averbuch-Elor, Noah Snavely, Serge Belongie. Dualsdf: Semantic shape manipulation using a two-level representation. Conference on Computer Vision and Pattern Recognition (CVPR). 7631-7641, 2020.
[4] Zhaoyang Lyu, Jinyi Wang, Yuwei An, Ya Zhang, Dahua Lin, Bo Dai. Controllable mesh generation through sparse latent point diffusion models. Conference on Computer Vision and Pattern Recognition (CVPR). 271-280, 2023.
[5] Minghua Liu, Minhyuk Sung, Radomir Mech, Hao Su. Deepmetahandles: Learning deformation meta-handles of 3D meshes with biharmonic coordinates. Conference on Computer Vision and Pattern Recognition (CVPR). 12-21, 2021.