3D对象分割与生成:SAMPart3D,分割3D物体不同结构;基于小波的紧凑 latent 编码方法,高压缩倍率表示
SAMPart3D: Segment Any Part in 3D Objects
2024-11-11|HKU, VAST|🔺25
http://arxiv.org/abs/2411.07184v2
https://huggingface.co/papers/2411.07184
https://yhyang-myron.github.io/SAMPart3D-website/
研究背景与意义
3D部分分割在机器人技术、3D生成和编辑等领域中扮演着至关重要的角色。然而,现有的3D部分分割方法在处理复杂对象和多样化数据集时表现有限。这些方法依赖于预定义的部分标签集和文本提示,限制了其扩展性和灵活性。为了解决这些问题,本文提出了SAMPart3D,这是一种可扩展的零样本3D部分分割框架,能够在无需预设部分标签的情况下,将3D对象分割成语义部分。本文还引入了一个新的3D部分分割基准PartObjaverse-Tiny,以解决现有数据集在对象和部分的多样性和复杂性方面的不足。
研究方法与创新
背景与问题定义
3D部分分割旨在将3D对象分割成语义部分,是3D计算机视觉中的一个基本任务。现有方法在处理复杂对象和大规模数据集时存在局限性,主要挑战包括如何在没有3D部分注释的情况下进行泛化,以及如何从无标签的3D形状中学习3D先验知识。
方法创新详解
1. 大规模预训练:从2D视觉特征蒸馏到3D骨干网络
为了训练一个能够从大规模无标签3D数据中学习丰富3D先验的骨干网络,本文采用了DINOv2模型作为监督,进行2D到3D特征蒸馏。具体来说,本文使用Objaverse数据集,通过渲染多视图图像并利用SAM生成2D掩码,计算点云的对应2D特征,并通过平均多视图特征来获得最终的2D特征。
2. 样例特定的微调:用于多粒度分割的2D掩码蒸馏
在预训练后,本文进一步引入了一个尺度条件下的轻量级MLP,以实现多粒度分割。通过渲染3D对象的多视图图像,并利用SAM生成2D掩码,计算每个掩码的相关点,并通过对比学习进行训练。
3. 语义查询与多模态大语言模型(MLLMs)
在获得3D对象的部分分割结果后,本文使用强大的多模态大语言模型(MLLMs)对每个部分进行语义查询,通过3D到2D的映射,在多视图渲染中突出显示相应的2D部分区域,从而获得部分的语义标签。
4. 长期跳过连接与PTv3-object架构
为了保留点云的低级线索,本文引入了MLP based的长期跳过连接模块,将法线值、颜色和坐标作为输入,补充点云的低级特征。本文还对PTv3骨干进行了修改,去除了大部分下采样层,并增加了更多的Transformer块,以增强细节保留和特征抽象能力。
实验设计与结果分析
实验设计
本文在PartObjaverse-Tiny数据集上对SAMPart3D进行了评估,并与PointCLIP、PointCLIPv2、SATR和PartSLIP等方法进行了比较。为了验证模型的泛化能力,本文还在GSO、OmniObject3D、Vroid和3D生成网格数据集上进行了实验。
结果分析
实验结果表明,SAMPart3D在零样本语义分割、零样本类别不可知部分分割和实例分割任务中均显著优于现有方法。具体数据如下:
零样本语义分割:SAMPart3D在PartObjaverse-Tiny数据集上的mIoU为34.7%,显著高于其他方法。 零样本类别不可知部分分割:SAMPart3D的mIoU为53.7%,优于PartSLIP的35.2%。 零样本实例分割:SAMPart3D的mAP50为30.2%,优于PartSLIP的16.3%。
此外,本文还进行了消融实验,验证了预训练、PTv3-object架构和长期跳过连接的必要性和有效性。
结论与展望
本文提出了SAMPart3D,一种可扩展的零样本3D部分分割框架,能够在无需预设部分标签的情况下,将3D对象分割成语义部分。此外,本文还引入了一个新的3D部分分割基准PartObjaverse-Tiny,以解决现有数据集在对象和部分的多样性和复杂性方面的不足。实验结果表明,SAMPart3D在多个基准数据集上均取得了优异的性能,并能够支持各种应用,如部分级编辑和交互式分割。
未来的工作可以进一步探索如何提高模型的泛化能力和处理更复杂的3D对象。同时,还可以扩展PartObjaverse-Tiny数据集,增加更多的对象和部分类别,以进一步推动3D部分分割领域的发展。
Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings
2024-11-12|Autodesk AI Lab|🔺11
http://arxiv.org/abs/2411.08017v1
https://huggingface.co/papers/2411.08017
https://autodeskailab.github.io/WaLaProject
研究背景与意义
3D生成模型近年来取得了显著进展,但仍面临计算资源消耗大、细节捕捉能力不足的挑战,尤其在高分辨率3D形状生成上表现更为明显。当前的表示方法在处理大规模生成模型时,因缺乏紧凑性而效率低下,导致模型难以有效捕捉复杂的几何结构。为了解决这些问题,Wavelet Latent Diffusion (WaLa) 提出了一种基于小波的紧凑 latent 编码方法,显著提升了3D生成模型的效率和质量。WaLa通过将3D形状压缩成小波表示,实现了2,427倍的压缩率,同时保持了较高的重建精度。这种方法不仅减少了生成模型的计算负担,还提升了生成形状的细节表现。
研究方法与创新
背景与挑战
在3D生成任务中,数据表示的选择至关重要。传统的3D表示方法如体素、点云和隐式函数等,各有优缺点。例如,体素表示简单但计算复杂度高,点云表示稀疏但难以捕捉内部细节,而隐式函数表示紧凑但训练时间长。为了平衡这些表示的优缺点,近年来小波表示开始受到关注。小波表示通过分解3D形状为粗略系数和高频细节系数,能够有效压缩数据并保留重要信息。然而,现有的基于小波的方法在表示大规模3D数据时仍然存在计算和存储上的挑战。
WaLa方法详解
WaLa通过引入小波潜在扩散模型,进一步压缩小波表示以获得更加紧凑的 latent 编码。该方法的核心步骤如下:
小波变换与压缩:首先将3D形状转换为截断符号距离场(TSDF),然后应用小波变换将其分解为粗略系数和细节系数。通过自适应采样损失函数,重点保留重要系数,实现高压缩比。
VQ-VAE训练:采用基于卷积的VQ-VAE模型,将小波表示进一步压缩为更加紧凑的 latent 网格。训练过程中使用自适应采样损失和平衡微调策略,确保模型在压缩的同时保持较高的重建精度。
扩散模型训练:在压缩后的 latent 空间上训练扩散模型,通过条件和无条件生成方式,实现高质量的3D形状生成。训练过程中使用分类器自由引导(classifier-free guidance),提升生成质量和多样性。
推理过程:在推理阶段,从噪声 latent 编码开始,通过逆扩散过程逐步去噪,最终重建出3D形状。
方法创新
WaLa的创新点主要体现在以下几个方面:
紧凑表示:通过小波变换和自适应采样损失,实现了对3D形状的超高压缩比(2,427倍),显著减少了生成模型的输入变量数量。
高质量生成:在压缩后的 latent 空间上训练扩散模型,实现了高质量的3D形状生成,生成时间仅为2到4秒。
多模态支持:支持多种输入模态,包括草图、文本、单视图图像、低分辨率体素、点云和多视图深度图,实现了广泛的应用场景。
理论基础
WaLa方法基于小波变换和扩散模型的理论基础。小波变换通过多分辨率分析,能够有效压缩和表示高分辨率3D形状。扩散模型通过逐步去噪的过程,实现了高质量的生成任务。结合这两种方法的优势,WaLa在3D生成任务上取得了显著的效果。
实验设计与结果分析
实验设计
为了验证WaLa方法的有效性,论文进行了广泛的实验,包括点云到网格、体素到网格和图像到3D形状的生成任务。实验数据集涵盖了超过1000万个3D形状,来自19个公开数据集。评价指标包括Light Field Distance (LFD)、Intersection over Union (IoU)和Chamfer Distance (CD)。
结果分析
实验结果表明,WaLa在多个生成任务上显著优于现有方法:
点云到网格生成:WaLa在GSO和MAS验证数据集上的LFD、IoU和CD指标均优于Poisson表面重建、Point-E和Make-A-Shape等方法。
体素到网格生成:WaLa在低分辨率体素到网格生成任务中,显著优于传统的上采样方法和Make-A-Shape方法。
图像到3D形状生成:WaLa在单视图和多视图图像到3D形状生成任务中,显著优于Point-E、Shap-E和Make-A-Shape等方法,实现了更高的IoU和更低的LFD。
结论与展望
总结贡献
WaLa方法通过引入小波潜在扩散模型,实现了对3D形状的高效压缩和高质量生成。其主要贡献包括:
提出了一种基于小波变换的紧凑表示方法,实现了超高压缩比。 在压缩后的 latent 空间上训练扩散模型,实现了高质量的3D形状生成。 支持多种输入模态,实现了广泛的应用场景。
分析局限
尽管WaLa方法在多个生成任务上取得了显著的效果,但仍存在一些局限:
数据偏斜:训练数据集包含大量简单CAD对象,可能导致模型在复杂形状上的表现受到限制。 计算资源:尽管WaLa显著减少了计算负担,但训练和推理过程仍需要大量的计算资源。
方法展望
未来工作可以从以下几个方面展开:
数据增强:通过数据增强技术,进一步提升模型在复杂形状上的表现。 多模态融合:探索更多模态的融合方式,实现更加鲁棒的3D形状生成。 实时生成:优化模型结构和推理过程,实现实时的高质量3D形状生成。