ECCV 2024 | 具有语义的三维房屋线框生成

文摘   科技   2024-08-29 10:01   广东  

导读

本文是VCC马雪奇同学对论文 Generating 3D House Wireframes with Semantics 的解读,该工作来自深圳大学可视计算研究中心黄惠教授课题组,已被计算机视觉顶级会议ECCV 2024录用。

项目主页: 
https://vcc.tech/research/2024/3DWire 

项目数据集: 

https://github.com/3d-house-wireframe/3d-house-wireframe-dataset 

该工作提出了一种具有语义的三维房屋线框生成的新方法。与传统生成模型分别处理顶点、边和面不同,该方法采用了统一的基于线段的表示方式,从而在学习三维线框结构时提高了连贯性。该方法采用两阶段技术,首先通过基于图的自编码器学习潜在的几何特征,然后使用Decoder-Only Transformer架构生成具有语义感知的三维房屋线框。该项目所使用的三维房屋线框数据集已开源,欢迎大家使用。



I


 引言 
在计算机视觉和图形学中,三维线框作为一种关键数据结构,能够简洁抽象地表示物体的三维形状,特别适合用于三维多面体的精确表示,如机械零件和建筑物。尽管三维线框生成在模型创建中至关重要,但其过程复杂且对精度和创造力要求很高。现有的方法主要依赖从图像和点云等数据源中重建线框,但这些方法无法生成新的线框数据。近年来的研究逐渐转向基于学习的方法,通过学习几何元素的分布模式,以自回归方式生成新数据。然而,这些方法主要基于空间坐标组织这些基本序列,在分布建模过程中,缺乏基本元素之间的高级关联,可能会引入歧义,从而对生成模型的质量产生不利影响。
本次导读论文介绍了一种用于生成具有语义的三维房屋线框的新方法。与传统方法[1]分别建模顶点和边的方式不同,该方法侧重于基于语义关联构建纯线段序列。在该方法中,线框被转化为图,其中节点对应于线段,而边表示线段之间的连接关系。值得注意的是,线框可能包含不相连的组件。例如,房屋的屋顶或外墙通常与内部房间不相连。该方法将每个不相连的组件建模为一个独立的子图,基于它们的拓扑连接来组织线段,以反映它们之间的语义关系。线段的顺序通过广度优先搜索 (BFS) 遍历图来建立,确保生成的线框既连贯又具备语义结构。在该方法中,线框生成过程分为两个阶段。在初始阶段,该方法学习代表线段的潜在几何表示词汇,这涉及使用图卷积网络编码线段的局部几何和拓扑特征,并辅以基于注意力的编码器,旨在提取线框的全局信息。在随后的阶段中,该方法使用基于Transformer的解码器从训练的词汇表中以自回归方式生成线段序列。

II


 技术贡献 

本工作主要贡献如下:

  • 提出了一种基于线段表示的线框生成模型,用于学习线框分布,显著提高了三维线框生成的精度;

  • 引入了一种语义感知的序列构建技术,减少了学习阶段的歧义。此外,该方法允许线框被分割成不同的部分,每个部分反映了三维房屋线框模型的基础语义。


III


 方法介绍 

在三维设计中,专业设计师通过逐条绘制线段来构建线框图。类似地,大语言模型采用序列化方法来构建复杂的语言结构。本文的方法综合了这些原理,采用逐线生成的方式来制作三维线框。该方法首先从大量三维线框图中学习几何嵌入词汇,每个线段都被量化到一个潜在空间中,便于编码及后续处理。之后,该方法基于Transformer模型[7]预测在预定义词汇表中的线段序列,逐步生成相应的三维线框。

线段特征的量化学习

该方法首先对线段的特征进行了量化学习,这一过程对于三维线框的生成至关重要。该方法首先通过编码器得到线段的潜在编码,然后通过残差量化模块[3]将这些线段的特征量化到几何码本中。 

该方法将三维线框表示为线段的集合,每条线段通过以下特征进行描述: 

a) 线段端点的坐标; 

b) 线段的长度; 

c)线段的方向; 

d) 线段与相邻线段之间的夹角; 

e) 线段中点的坐标。


所有这些特征都被量化到 [0,128) 的整数区间内,并嵌入到一个  维度的向量中。为了增强相邻线段的特征表示,该方法将线段的特征通过编码器转换为一个  维度的向量。在这一过程中,该方法采用了图卷积网络[4]以及注意力机制网络[5]来提取线段的局部特征以及全局特征;最后,该方法通过残差量化模块[3]来学习线段的几何词汇,并将这些几何词汇用于后续的自回归模型训练中。

图1 线段几何词汇学习


基于Transformer生成三维线框

在训练得到线段的几何码本之后,该方法利用线段的量化特征,通过训练一个Transformer模型,以自回归的方式预测序列中的下一条线段。在三维线框模型生成的过程中,线段的生成顺序至关重要,这不仅确保了线框结构的完整性,还帮助模型学习更复杂的几何形状。 


与之前的方法不同(如PolyGen[1]和MeshGPT[2]),这些方法仅依赖于基于坐标的Token序列,而本文方法则基于线段的语义对线段进行了重新排序。值得注意的是,房屋的线框通常由多个不连通的子图组成,因此本文采用广度优先搜索算法对同一对象中的线段进行分组,从而确保了来自同一对象的线段的顺序生成。 最后,该方法采用了Decoder-Only Transformer架构,并根据之前建立的几何码本来预测线段序列索引。为了有效的学习线段序列,本文方法将Transformer的训练过程分为了两个阶段:初始阶段和细化阶段。在初始阶段,该方法主要用于学习每条线段的序列;而在细化阶段,该模型会根据之前预测的每条线段,进一步预测线段的顶点索引。通过这种两阶段的Transformer结构,该方法不仅提高了生成的三维线框的准确性,还使得这些线框更具有语义信息和结构连贯性。

图2  Decoder-Only Transformer模型训练

IV


 部分结果展示 

定量对比

通过两阶段的Transformer结构,本文方法不仅提高了生成的三维线框的准确性,还使得这些线框更具有语义信息和结构连贯性。该论文在多个评估指标上与PolyGen以及MeshGPT进行了对比,包括COV,MMD,1-NN,结构有效性等,如表1所示。该方法在所有指标上均优于其他对比方法。为了进一步评估生成的三维房屋线框的质量,该论文进行了用户调研,对不同的方法生成的三维线框质量进行了对比,如表2所示。此外,该论文还在ABC数据集上进行了实验,如表3所示。尽管ABC数据集中的样本非常多样化,导致所有方法的表现均有所下降,但该论文的方法仍优于其他方法。

表1 不同方法的三维房屋线框生成质量结果对比

表2 不同方法的三维房屋线框生成结果的用户调研结果对比

表3 基于ABC数据集的线框生成质量结果对比

定性对比

现有的PolyGen方法通常会产生浮动的顶点和线段,这是由于该方法将线框生成分为顶点和线段两部分进行,容易导致误差累积,从而影响线段的连贯性。而MeshGPT方法忽略了外墙、房间和屋顶之间的语义关系,导致生成的线框在结构上不够连贯。相比之下,本文方法能够生成结构稳定且具有语义的三维线框,能够准确的区分外墙、房间和屋顶,这不仅提高了线框的可解释性,还显著减少了浮动的顶点和冗余的线段,从而增强了生成结果的准确性和结构的完整性,如图3所示: 

图3 本文方法与其他方法生成的三维房屋线框对比


此外,生成的线框可以根据线段的连接性轻松地分割成多个组件,如外墙、房间和屋顶,如图4所示。这些线框还可以方便地转换为网格模型,如图5所示。并且,当给定部分线框时,该方法能够提供多种可能的补全方案,如图6所示。当给定文本描述信息后,该方法能够生成符合文本描述的具有丰富语义的三维房屋线框,如图7所示。图8展示了该方法在生成复杂模型方面的能力:

图4 三维房屋线框可以分为不同的组件,例如房间、屋顶和外墙

图5 生成的三维房屋线框可以轻松地转换为网格模型

图6 本文方法能够为不完整的线框提供多个潜在的补全方案

图7 基于文本条件生成的三维房屋线框

图8 本文方法基于ABC数据集生成的三维线框模型

线框新颖性分析

该论文通过将生成的线框与训练集中的样本进行对比,分析了该方法生成线框的新颖性,如图9所示。可以看到,随着CD值的增加,生成的线框与训练集中最相似的样本之间的差异逐渐变大,这表明了该方法具有生成新颖线框的能力。

图9 生成的三维房屋线框样本的新颖性分析

V


 总结与展望 
该论文介绍了一种新颖的三维线框自回归生成模型,该模型显著增强了语义丰富的三维房屋线框的生成能力。通过利用统一的基于线段的表示方式和基于语义的线段序列排序方式,该方法在准确性、新颖性和语义完整性方面均优于现有方法。实验结果表明,该模型在多样化的三维房屋数据集上展现了卓越的性能,显示出其在三维建模、计算机辅助设计和虚拟现实等应用中的巨大潜力。

VI


 思考与讨论 
Q: 如何确保三维线框中的线段顶点可以连接在一起? 
A: 该方法首先将三维线框模型归一化到 [-1,1] 空间中,再将线段的顶点坐标离散到 [0,128) 的整数范围内,然后将线段顶点的回归问题转换为分类问题。当两条线段的顶点落在相同格子中,则表示这两条线段的端点连接在一起。 

Q: 在几何特征量化部分,是对顶点的特征进行量化还是对线段特征进行量化? 
A: 在该论文中,作者首先利用编码器对线框中的每条线段特征进行编码,然后根据线段与顶点之间的对应关系,将学习的线段特征赋给相应的顶点,然后将顶点的特征送入到残差量化模块中进行量化。 

以下是开放性问题,欢迎读者朋友留言讨论: 
Q: 该论文能够在文本条件下生成具有丰富语义的三维房屋,那是否可以使用点云作为条件,生成与点云形状相符的三维线框呢?

-- End--



导 读 | 马雪奇
审 核 | 黄惠
编 辑 | 申


参考文献

[1] Charlie Nash, Yaroslav Ganin, S. M. Ali Eslami, Peter W. Battaglia. PolyGen: An autoregressive generative model of 3D meshes. International Conference on Machine Learning (ICML). 7220-7229, 2020. 

[2] Yawar Siddiqui, Antonio Alliegro, Alexey Artemov, Tatiana Tommasi, Daniele Sirigatti, Vladislav Rosov, Angela Dai, Matthias Nießner. MeshGPT: Generating triangle meshes with decoder-only Transformers. Conference on Computer Vision and Pattern Recognition (CVPR). 19615-19625, 2024. 

[3] Doyup Lee, Chiheon Kim, Saehoon Kim, Minsu Cho, Wook-Shin Han. Autoregressive image generation using residual quantization. Conference on Computer Vision and Pattern Recognition (CVPR). 11523-11532, 2023. 

[4] William L. Hamilton, Rex Ying, Jure Leskovec. Inductive representation learning on large graphs. Advances in Neural Information Processing Systems (NeurIPS). 1024-1034, 2017. 

[5] Aurko Roy, Mohammad Saffar, Ashish Vaswani, David Grangier. Efficient content-based sparse attention with routing transformers. Transactions of the Association for Computational Linguistics (TACL). 9:53-68, 2021. 

[6] Sebastian Koch, Albert Matveev, Zhongshi Jiang, Francis Williams, Alexey Artemov, Evgeny Burnaev, Marc Alexa, Denis Zorin, Daniele Panozzo. ABC: A big CAD model dataset for geometric deep learning. Conference on Computer Vision and Pattern Recognition (CVPR). 9601-9611, 2019. 

[7] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention is all you need. Advances in Neural Information Processing Systems (NeurIPS). 5998-6008, 2017.




深圳大学可视计算研究中心
Visual Computing Research Center
----------------------------------
https://vcc.tech


中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础,致力促进多个学科的深入交叉与集成创新,重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学研究。

📫
转载及合作:szuvcc@gmail.com


深圳大学可视计算研究中心
深圳大学可视计算研究中心致力于大力提升可视计算科学研究与高等教育水平,以计算机图形学、计算机视觉、人机交互、机器学习、机器人、可视化和可视分析为学科基础,促进多个学科的深入交叉和集成创新。详见官网: vcc.tech
 最新文章