本工作主要贡献如下:
提出了一种基于线段表示的线框生成模型,用于学习线框分布,显著提高了三维线框生成的精度;
引入了一种语义感知的序列构建技术,减少了学习阶段的歧义。此外,该方法允许线框被分割成不同的部分,每个部分反映了三维房屋线框模型的基础语义。
在三维设计中,专业设计师通过逐条绘制线段来构建线框图。类似地,大语言模型采用序列化方法来构建复杂的语言结构。本文的方法综合了这些原理,采用逐线生成的方式来制作三维线框。该方法首先从大量三维线框图中学习几何嵌入词汇,每个线段都被量化到一个潜在空间中,便于编码及后续处理。之后,该方法基于Transformer模型[7]预测在预定义词汇表中的线段序列,逐步生成相应的三维线框。
线段特征的量化学习
该方法首先对线段的特征进行了量化学习,这一过程对于三维线框的生成至关重要。该方法首先通过编码器得到线段的潜在编码,然后通过残差量化模块[3]将这些线段的特征量化到几何码本中。
a) 线段端点的坐标;
b) 线段的长度;
c)线段的方向;
d) 线段与相邻线段之间的夹角;
e) 线段中点的坐标。
所有这些特征都被量化到 [0,128) 的整数区间内,并嵌入到一个
基于Transformer生成三维线框
在训练得到线段的几何码本之后,该方法利用线段的量化特征,通过训练一个Transformer模型,以自回归的方式预测序列中的下一条线段。在三维线框模型生成的过程中,线段的生成顺序至关重要,这不仅确保了线框结构的完整性,还帮助模型学习更复杂的几何形状。
与之前的方法不同(如PolyGen[1]和MeshGPT[2]),这些方法仅依赖于基于坐标的Token序列,而本文方法则基于线段的语义对线段进行了重新排序。值得注意的是,房屋的线框通常由多个不连通的子图组成,因此本文采用广度优先搜索算法对同一对象中的线段进行分组,从而确保了来自同一对象的线段的顺序生成。 最后,该方法采用了Decoder-Only Transformer架构,并根据之前建立的几何码本来预测线段序列索引。为了有效的学习线段序列,本文方法将Transformer的训练过程分为了两个阶段:初始阶段和细化阶段。在初始阶段,该方法主要用于学习每条线段的序列;而在细化阶段,该模型会根据之前预测的每条线段,进一步预测线段的顶点索引。通过这种两阶段的Transformer结构,该方法不仅提高了生成的三维线框的准确性,还使得这些线框更具有语义信息和结构连贯性。
定量对比
通过两阶段的Transformer结构,本文方法不仅提高了生成的三维线框的准确性,还使得这些线框更具有语义信息和结构连贯性。该论文在多个评估指标上与PolyGen以及MeshGPT进行了对比,包括COV,MMD,1-NN,结构有效性等,如表1所示。该方法在所有指标上均优于其他对比方法。为了进一步评估生成的三维房屋线框的质量,该论文进行了用户调研,对不同的方法生成的三维线框质量进行了对比,如表2所示。此外,该论文还在ABC数据集上进行了实验,如表3所示。尽管ABC数据集中的样本非常多样化,导致所有方法的表现均有所下降,但该论文的方法仍优于其他方法。
定性对比
现有的PolyGen方法通常会产生浮动的顶点和线段,这是由于该方法将线框生成分为顶点和线段两部分进行,容易导致误差累积,从而影响线段的连贯性。而MeshGPT方法忽略了外墙、房间和屋顶之间的语义关系,导致生成的线框在结构上不够连贯。相比之下,本文方法能够生成结构稳定且具有语义的三维线框,能够准确的区分外墙、房间和屋顶,这不仅提高了线框的可解释性,还显著减少了浮动的顶点和冗余的线段,从而增强了生成结果的准确性和结构的完整性,如图3所示:
此外,生成的线框可以根据线段的连接性轻松地分割成多个组件,如外墙、房间和屋顶,如图4所示。这些线框还可以方便地转换为网格模型,如图5所示。并且,当给定部分线框时,该方法能够提供多种可能的补全方案,如图6所示。当给定文本描述信息后,该方法能够生成符合文本描述的具有丰富语义的三维房屋线框,如图7所示。图8展示了该方法在生成复杂模型方面的能力:
线框新颖性分析
该论文通过将生成的线框与训练集中的样本进行对比,分析了该方法生成线框的新颖性,如图9所示。可以看到,随着CD值的增加,生成的线框与训练集中最相似的样本之间的差异逐渐变大,这表明了该方法具有生成新颖线框的能力。
-- End--
[1] Charlie Nash, Yaroslav Ganin, S. M. Ali Eslami, Peter W. Battaglia. PolyGen: An autoregressive generative model of 3D meshes. International Conference on Machine Learning (ICML). 7220-7229, 2020.
[2] Yawar Siddiqui, Antonio Alliegro, Alexey Artemov, Tatiana Tommasi, Daniele Sirigatti, Vladislav Rosov, Angela Dai, Matthias Nießner. MeshGPT: Generating triangle meshes with decoder-only Transformers. Conference on Computer Vision and Pattern Recognition (CVPR). 19615-19625, 2024.
[3] Doyup Lee, Chiheon Kim, Saehoon Kim, Minsu Cho, Wook-Shin Han. Autoregressive image generation using residual quantization. Conference on Computer Vision and Pattern Recognition (CVPR). 11523-11532, 2023.
[4] William L. Hamilton, Rex Ying, Jure Leskovec. Inductive representation learning on large graphs. Advances in Neural Information Processing Systems (NeurIPS). 1024-1034, 2017.
[5] Aurko Roy, Mohammad Saffar, Ashish Vaswani, David Grangier. Efficient content-based sparse attention with routing transformers. Transactions of the Association for Computational Linguistics (TACL). 9:53-68, 2021.
[6] Sebastian Koch, Albert Matveev, Zhongshi Jiang, Francis Williams, Alexey Artemov, Evgeny Burnaev, Marc Alexa, Denis Zorin, Daniele Panozzo. ABC: A big CAD model dataset for geometric deep learning. Conference on Computer Vision and Pattern Recognition (CVPR). 9601-9611, 2019.
[7] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention is all you need. Advances in Neural Information Processing Systems (NeurIPS). 5998-6008, 2017.