论文一起读 | CNS-Edit: 通过耦合神经形状优化进行3D形状编辑

文摘   科技   2024-11-07 11:00   广东  
导读

本文是VCC周金同学对论文 CNS-Edit: 3D Shape Editing via Coupled Neural Shape Optimization 的解读,该工作由香港中文大学计算机科学系与加拿大西蒙弗雷泽大学合作完成,并已发表在计算机图形学领域的顶级会议SIGGRAPH 2024上。

项目主页: 
https://dl.acm.org/doi/10.1145/3641519.3657412

这篇文章提出了一种耦合神经形状 (CNS) 表示和优化方法,通过结合全局潜在编码神经特征体积,支持3D形状的直观、精细的编辑操作,能够自动保持形状的语义一致性和拓扑修改,相较于现有方法更具灵活性和高保真度。

注:本文图片均来自原论文与其项目主页。



I


 引言 

近年来,随着表示学习和神经几何处理的进展,3D形状编辑作为计算机图形学中最经典和基础的问题之一,再次引起了广泛关注。传统的3D形状编辑主要依赖一些编辑控制点或代理,例如点、曲线、草图、骨架或框架,这些代理为形状提供了简化的表示或抽象形式,便于操作。随着深度神经网络的快速发展,潜在空间中的形状编辑成为一种常见方法。通过在生成模型(如自编码器、生成对抗网络 (GAN) 或扩散模型)中操作潜在空间,可以隐式进行形状编辑。这种方法在图像和视频编辑中取得了显著成功,主要通过拖拽实现对象变形或场景布局更改。然而,3D形状的编辑具有不同的性质,尤其是在精细编辑方面,传统的潜在空间编辑方法常常难以保证编辑质量。尽管一些方法通过隐式函数与几何原语的耦合或连接CLIP空间与形状潜在空间进行3D形状操作,但由于几何原语或文本提示的粗糙性,这些方法在进行精细编辑时常常力不从心。


本次导读论文介绍了一种新颖的耦合神经形状 (CNS) 表示,用于3D形状的语义感知编辑操作。该方法包括全局潜在编码和3D神经特征体积两个部分,前者捕捉形状的高级全局语义,如对称性,后者提供与编辑操作相关的空间上下文。这种耦合表示通过在潜在空间中的共同优化隐式地进行编辑操作,支持复制、调整大小、删除和拖拽等多种直观且精细的编辑操作。通过对CNS表示的两个组件进行共同优化,CNS-Edit可以实现丰富多样的编辑结果,既能够识别形状的语义,又能够引入如拓扑变化等现有方法难以实现的编辑效果。论文中的定量和定性评估结果表明,CNS-Edit在形状语义理解和编辑质量方面具有强大的能力,显著优于现有最先进的解决方案。

II


 技术贡献 

本工作主要贡献如下:

  • 通过全局潜在编码神经特征体积的耦合,捕捉形状的全局语义与空间上下文,支持精细编辑;

  • 将编辑操作转换为优化目标,迭代共同优化潜在编码和神经体积,确保形状的结构完整性和语义一致性;

  • 引入复制、调整大小、删除、拖拽等操作,通过特定目标函数引导优化,实现复杂的形状编辑


III


 方法介绍 

图1 网络结构图,a为训练过程,c为修改过程

CNS表示的基础在于两个神经张量的组合:全局潜在编码𝑧和3D神经特征体积𝐹。全局潜在编码𝑧用于捕捉形状的整体语义信息,如对称性、形状的全局结构等,而3D神经特征体积𝐹则负责提供形状的空间上下文,这对于编辑局部区域尤其重要。两者共同作用,能够在修改形状的同时保持语义一致性,并确保编辑后的形状具有高度的几何保真度。


全局潜在编码𝑧
在具体实现上,CNS表示依赖于两个核心组件的构建过程。首先,输入的3D形状被编码为一个紧凑的“小波系数体积” 。选取两个尺度的小波变换以编码低频信息和高频信息,参考[1]。这个体积表示保留了与原始形状的空间关联,使得局部的形状变化仅会影响到形状的相应局部区域。其次,该输入形状被进一步编码到预训练的潜在空间中,该潜在空间通过扩散模型进行构建。通过这种方式,CNS表示能够生成全局潜在编码𝑧,该编码提供了形状的高层次语义信息,支持后续的编辑操作。


神经特征体积𝐹
仅有全局潜在编码并不能满足复杂的编辑需求,特别是在需要对局部区域进行精确修改时。因此,CNS表示还包含了一个3D神经特征体积𝐹,用于捕捉形状的空间细节和局部特征。这个特征体积通过扩散模型中的U-Net架构提取,具体来说,CNS从第t (t<T) 步降噪过程的U-Net的倒数第4层(第12层)提取中间特征作为神经特征体积。这一层的选择兼顾了空间上下文和形状语义之间的平衡:较浅层的特征缺乏语义信息,而较深层的特征则缺乏空间细节。通过这种设计,3D神经特征体积能够准确地反映局部编辑的影响范围,并与全局语义保持一致。

CNS表示的两个组件是紧密耦合的,这意味着一个组件的变化会影响另一个组件。例如,修改全局潜在编码𝑧可以通过CNS的优化过程更新神经特征体积𝐹,反之亦然。当修改某个局部的神经体积𝐹时,这些变化可以通过反向传播传递到全局潜在编码𝑧,从而更新编码以匹配新的形状特征。
图2 四种修改操作: 复制、调整、删除、拖拽

编辑操作

通过这种耦合机制,CNS表示能够支持多种编辑操作,如复制、调整大小、删除和拖拽。每个操作都可以转化为具体的优化目标,指导神经特征体积和全局潜在编码的共同优化,从而生成所需的编辑结果。这种方法不仅能够实现高保真度的形状修改,还能够对复杂的形状拓扑进行编辑,而这些是传统方法难以达到的。


每个操作的损失函数都基于两个关键参数:  和  其中,  表示编辑操作影响的目标区域的空间坐标列表,  则对应这些空间坐标的目标特征值列表。一个操作的损失表示为:

 表目标修改区域的特征值应尽可能接近目标特征值。


复制操作中,首先根据选择的区域确定该区域在神经体积中的坐标,构建坐标列表  然后根据用户提供的位移向量,将这些坐标平移,生成粘贴区域的坐标  即为粘贴区域的坐标,而  是源区域  中的特征值。


调整大小操作中,选定区域的坐标集被表示为  并找到包含该区域的边界框  再将其缩放为新的边界框   是缩放后的边界框内的坐标集,而  是从原始边界框  中通过三线性插值获得的目标特征值。


对于删除操作,要删除的区域坐标集被表示为  为了将该区域调整为空区域的特征值,首先在形状中找到空区域  并从中提取局部特征值。因此,  为待删除区域的坐标,而  是空区域的特征值。


拖拽操作中,  和  的计算是一个迭代过程,涉及多个步骤。首先,用户会指定一个源点  和一个目标点  在每一次迭代中,系统会逐步将源点周围的局部几何特征沿着从  到  的路径进行平移。具体来说,在第  次迭代时,源点的位置记作  ,并在该源点周围定义一个局部邻域,记作  其中  是一个半径参数,表示我们要考虑的局部区域的范围。接下来,定义一个从  指向  的单位向量  这个向量用来平移局部邻域,从而生成新的目标区域  目标值  则是源点邻域  中的特征值。通过这种方式,拖拽的几何特征可以逐步向目标点移动。为了确保源点的移动准确,每次迭代结束后需要更新源点的位置。为了实现这一点,系统在源点  的周围(即一个半径为  的范围内)搜索下一个位置  该位置的特征值应与初始神经体积  中源点  附近的特征最为相似。通过这种方式,我们确保拖拽过程中的源点跟踪始终保持正确,从而避免由于错误位置导致的不理想结果。整个拖拽操作通过上述过程逐步更新  和  最终在优化过程中将局部几何特征从源点平滑地拖动到目标点。


IV


 部分结果展示 

表1 本文方法在形状编辑的质量和精度上优于其他现有方法

定量结果

本文方法对生成的形状与其他最先进方法进行了定量比较。比较对象包括DualSDF[2]、SPAGHETTI[3]、SLIDE[4]和DeepMetaHandle[5]等方法。为了评估不同方法生成形状的视觉质量,本文采用了Frechet Inception Distance (FID) 和 Kernel Inception Score (KID) 两项指标。同时,为了评估方法生成的形状与用户操作的匹配程度,本文还进行了用户研究。参考之前的研究方法,本文邀请了10位参与者评估编辑后的形状,重点关注两方面:一是形状的视觉吸引力 (Quality Score, QS),二是形状与用户操作的匹配程度 (Matching Score, MS)。参与者对每个编辑后的形状进行了1到5分的评分。


结果表明,本文方法在所有指标上均优于现有最先进方法。具体而言,本文方法在生成符合用户操作的形状方面表现得更为出色,匹配评分 (MS) 显著高于其他方法。此外,通过FID、KID和QS指标,本文方法生成的编辑形状在质量和保真度方面也达到了更高水平,展示了其卓越的视觉效果和对用户意图的精确响应。

3 与其他方法在编辑性能上进行比较


定性结果

该论文方法在定量比较中表现出色,所有评估指标均优于现有的最先进方法。具体来说,本文方法在Frechet Inception Distance (FID) 和 Kernel Inception Distance (KID) 上均取得了最低值,表明其生成的编辑形状在视觉质量上最佳。此外,本文方法还获得了最高的质量评分 (QS) 和匹配评分 (MS),表明其生成的形状不仅视觉上具有较高的吸引力,而且在操作的准确性上更符合用户的预期。


由于DeepMetaHandle[5]没有针对飞机类的预训练模型,因此无法与该方法进行飞机类的对比。但在其他类别中,本文方法仍然展示了更高的形状编辑质量和保真度。这一结果表明,本文提出的耦合神经形状优化框架在多个指标上均超越了现有的方法,尤其在实现高质量和语义一致的编辑方面表现突出。更多结果可以查看原论文。

图4 关于神经体积F获取、小波体积编辑的消融实验

消融研究

本文通过消融研究深入分析了所提出方法的关键组件及其对形状编辑效果的影响。首先,本文探讨了使用U-Net不同层的特征来构建神经体积 F 的效果。在标准设置中,方法使用第12层的特征来生成 F,但消融实验表明,较浅层(第15层)的特征虽然提供了丰富的空间上下文,却缺乏足够的形状语义,导致编辑后形状出现明显的伪影;而较深层(第9层)的特征由于抽象性强,缺乏空间上下文,从而降低了编辑过程的可控性。其次,本文对直接在空间域(即小波体积)中应用操作进行了消融实验,结果表明,直接在空间域中进行操作可能导致编辑形状中的伪影,并且无法很好地理解形状语义。相比之下,在神经体积域中应用操作能够生成高保真的编辑结果,并保持形状语义的一致性。这些消融研究验证了方法在神经体积域进行操作的优势,凸显了本文提出的CNS表示对精细形状编辑的重要性。


V


 总结与展望 
本文提出了一种新颖的耦合神经形状 (CNS) 表示方法,用于支持3D形状编辑。通过结合全局潜在编码和3D神经特征体积,CNS表示能够在潜在空间中执行细粒度、语义感知的形状编辑操作,如拖拽、删除、复制和调整大小。该方法在不同的数据集上展示了卓越的性能,尤其是在处理具有复杂拓扑的CAD模型时表现出色。此外,CNS-Edit在保持未编辑区域完整性的同时,能够通过共优化过程实现高保真度的编辑结果,并引入了对称性等形状语义的理解。

表2 本文方法能实现的功能和SPAGHETTI[3]的对比


未来工作可以从以下几个方向进行拓展。首先,目前的CNS表示依赖于类别特定的预训练模型,限制了对任意3D形状的编辑能力。其次,虽然CNS共优化过程本身较为高效(10秒),但基于扩散的形状重建步骤较为耗时(1分钟)。最后,如上图所示,当前的操作主要集中于单形状编辑,不能进行形状混合、旋转等编辑操作,以及不同形状之间的部分插值。

VI


 思考与讨论 
Q: 为什么CNS不能进行旋转编辑和形状混合? 
A: CNS-Edit的最小单元并非直接使用小波体素,而是通过模型编码后下采样得到的特征体素。由于该编码过程不具备旋转不变性,旋转90°后的小波体素区域在重新编码时会生成完全不同的特征。因此,通过旋转前某个位置的特征,无法简单地推导出旋转后相应位置的特征。同样地,这也限制了对称操作的实现。

此外,U-Net的中间层使用了注意力机制,这意味着每个特征体素在编码过程中会关注整个形状的信息,并具有全局的上下文。因此,即使是形状中的空白区域,其编码也会随着形状的不同而发生变化。这导致CNS-Edit的删除操作需要在当前形状空间中寻找一个特定的空白区域作为空白编码,而无法提供一个通用的空白编码。当进行形状混合时,由于不同形状部件的特征来自完全不同的上下文,这也使得形状混合难以成功。

Q: CNS的剪切-复制操作是通过连续使用复制和删除操作实现的,为什么不能直接完成?
A: 由于该方法本质上仍是在全局潜在编码 z 的隐空间中进行形状检索,因此要求整个变形过程必须在隐空间内保持连续。对于某个位置的编码 z 而言,某个潜在方向上形状部件的消失、出现或移动是可预期的。然而,导致一个部件消失的同时在其他位置出现相同部件的潜在方向大概率是不存在的,因此只能分两步进行操作。

需要注意的是,即便将操作分为两步(即先复制再删除),中间的形状状态也必须能够通过全局潜在编码 z 表示。换句话说,这个包含重复部件的形状必须是合理的有效形状,如图5所示。如果希望通过这种方式移动椅子的靠背,由于现实中不存在拥有两个靠背的椅子,操作将很难成功。

图5 CNS的剪切-复制操作的实现

文章的补充材料中也提到了这个问题,如图6所示:

图6 CNS复制操作的失败案例


以下是开放性问题,欢迎读者朋友留言讨论: 
Q: 文章中提到,由于CNS调用的预训练模型是针对特定类别进行训练的,导致其无法对任意3D形状进行重建和编辑。但是,除此之外是否有任何设置或限制阻碍CNS应用于更广泛的类别?

-- End--



导 读 | 周金
审 核 | 徐鹏飞
编 辑 | 申金、余鑫泉


参考文献

[1] Jingyu Hu, Ka-Hei Hui, Zhengzhe Liu, Ruihui Li, Chi-Wing Fu. Neural wavelet-domain diffusion for 3D shape generation, inversion, and manipulation. ACM Transactions on Graphics (TOG). 43(2), 16:1-16:18, 2024.

[2] Amir Hertz, Or Perel, Raja Giryes, Olga Sorkine-Hornung, Daniel Cohen-Or. Spaghetti: Editing implicit shapes through part aware generation. ACM Transactions on Graphics (SIGGRAPH). 41(4), 106:1-106:20, 2022.

[3] Zekun Hao, Hadar Averbuch-Elor, Noah Snavely, Serge Belongie. Dualsdf: Semantic shape manipulation using a two-level representation. Conference on Computer Vision and Pattern Recognition (CVPR). 7631-7641, 2020.

[4] Zhaoyang Lyu, Jinyi Wang, Yuwei An, Ya Zhang, Dahua Lin, Bo Dai. Controllable mesh generation through sparse latent point diffusion models. Conference on Computer Vision and Pattern Recognition (CVPR). 271-280, 2023.

[5] Minghua Liu, Minhyuk Sung, Radomir Mech, Hao Su. Deepmetahandles: Learning deformation meta-handles of 3D meshes with biharmonic coordinates. Conference on Computer Vision and Pattern Recognition (CVPR). 12-21, 2021. 



深圳大学可视计算研究中心
Visual Computing Research Center
----------------------------------
https://vcc.tech


中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础,致力促进多个学科的深入交叉与集成创新,重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学研究。

📫
转载及合作:szuvcc@gmail.com


深圳大学可视计算研究中心
深圳大学可视计算研究中心致力于大力提升可视计算科学研究与高等教育水平,以计算机图形学、计算机视觉、人机交互、机器学习、机器人、可视化和可视分析为学科基础,促进多个学科的深入交叉和集成创新。详见官网: vcc.tech
 最新文章