I 引言 在计算机图形学中,三角网格是3D几何的主要表达形式,该表达被广泛应用于电影、游戏以及虚拟现实中。与点云或体素等其他3D形状表达相比,三角网格更可控、紧凑且可直接用于现代渲染管线。本工作旨在解决三角网格的生成任务,从而简化3D资产的制作流程。 近年来,3D形状生成取得了重大进展,这些方法生成的几何表达主要集中在体素 [1]、点云 [2]和神经场 [3];为了便于下游应用,这些几何表达通常需要通过后处理来转换成三角网格,例如使用Marching Cubes算法进行表面提取。然而,如图1所示,后处理生成的三角网格密度过高、划分过细,导致其表面过于平滑,容易丧失一些尖锐的几何特性。
图1 现有方法生成三角网格质量
为了解决上述问题,本工作提出了一种直接生成三角网格的方法。受文本生成模型的启发,本工作将三角网格的生成视作一组三角面片序列的生成。遵循文本生成的范式,本工作首先从大量的3D物体网格中学习三角面片的几何嵌入词汇表,从而能够对三角面片进行编码和解码;随后,基于学习到的词汇表,本工作通过训练一个transformer模型自回归地生成表示网格的三角面片序列。与现有技术相比,该工作显著地提高了三角网格的生成质量。 II 技术贡献
III 方法介绍 MeshGPT方法由词汇表学习和自回归网格生成两部分构成。本工作首先从大量的3D形状中学习几何嵌入词汇表,这是通过编码器-解码器网络完成的,该网络的瓶颈是一个向量量化模块,通过词汇表学习模块,我们能将组成网格的一组三角面片编码为一组量化的几何嵌入;随后,本工作训练一个GPT风格的仅解码器的transformer模型,给定上述的几何嵌入序列,该transformer模型的训练目标是预测序列中下一个几何嵌入的词汇表索引。 经过训练后,该transformer模型能够自回归地采样以预测几何嵌入序列,这些几何嵌入序列可以被解码组成最终表达物体几何的网格结构。 词汇表学习
IV 部分结果展示 下图展示了本工作在ShapeNet数据集的椅子和桌子类别上的对比生成结果。相较于以往工作,本文方法能够生成连续的保留锐利边缘的紧凑网格,同时保留了更多几何细节。
图4 椅子和桌子的生成质量对比
除此之外,如下图所示,MeshGPT还能根据给定的局部形状推断多种可能的补全方案。图5 形状补全
V 总结与展望 MeshGPT是一种新颖的形状生成的方法,能够直接生成三角网格。与现有的网格生成方法相比,本工作能够生成更加干净、连续、紧凑的三角网格,更加符合真实数据中的三角剖分模式。该工作也面临一些局限性:该方法是通过自回归的方式生成三角网格,因此面临生成时间过长的问题,通常生成一个物体需要30-90秒的时间,该方法可能无法有效地解决场景生成的任务,因此如何在场景生成的任务上结合该生成范式是一个值得探索的方向。 VI 思考与讨论 Q: 为什么不直接用三角面片顶点坐标作为tokens进行生成? A: 直接使用坐标作为token主要有以下两个问题:(1) 序列长度过长;(2) 使用坐标作为token无法有效捕捉形状的几何模式,同时该表示也缺少有关相邻三角面片的信息。 Q: 该方法是否只是记住了数据集内的形状?A: 如下图展示了与MeshGPT生成的样本相对应的训练集中最相似的物体,可以发现该方法能够生成新颖且逼真的几何形状。图6 形状新颖性展示 以下是开放性问题,欢迎读者朋友留言讨论: Q: 目前论文的实验部分只提供了ShapeNet四个类别(椅子、桌子、长凳、灯)的实验结果,可以发现这些类别的物体都是高度对称、且具有明显锐利边缘的物体,如果需要生成一些表面比较平滑的形状,比如衣服、人体等,该方法又会生成怎样的结果呢?
-- End--
导 读 | 许宏浩审 核 | 胡瑞珍编 辑 | 申金 参考文献
[1] Jiajun Wu, Chengkai Zhang, Tianfan Xue, Bill Freeman, and Josh Tenenbaum. Learning a probabilistic latent space of object shapes via 3D generative-adversarial modeling. Advances in Neural Information Processing Systems (NeurlPS). 82-90, 2016.
[2] Shitong Luo and Wei Hu. Diffusion probabilistic models for 3D point cloud generation. Conference on Computer Vision and Pattern Recognition (CVPR). 2837-2845, 2021.
[3] Muheng Li, Yueqi Duan, Jie Zhou, and Jiwen Lu. Diffusionsdf: Text-to-shape via voxelized diffusion. Conference on Computer Vision and Pattern Recognition (CVPR). 12642-12651, 2023.
深圳大学可视计算研究中心Visual Computing Research Center----------------------------------https://vcc.tech