Adobe重磅开源DiffusionGS:融入3DGS到扩散模型,6s完成三维重建!

科技   2024-11-24 00:01   江苏  

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation

作者:Yuanhao Cai, He Zhang, Kai Zhang, Yixun Liang, Mengwei Ren, Fujun Luan, Qing Liu, Soo Ye Kim, Jianming Zhang, Zhifei Zhang, Yuqian Zhou, Zhe Lin, Alan Yuille

机构:Johns Hopkins University、Adobe Research、HKUST

原文链接:https://arxiv.org/pdf/2411.14384v1

代码链接:https://github.com/caiyuanhao1998/Open-DiffusionGS

官方主页:https://caiyuanhao1998.github.io/project/DiffusionGS/

1. 导读

现有的前馈图像到3D方法主要依赖于不能保证3D一致性的2D多视图扩散模型。这些方法在改变提示视图方向时很容易崩溃,主要处理以对象为中心的提示图像。在本文中,我们提出了一种新的单阶段三维扩散模型,用于从单个视图生成物体和场景。扩散直接在每个时间步输出3D高斯点云,以加强视图一致性,并允许模型生成任何方向的鲁棒给定即时视图,超出以对象为中心的输入。此外,为了提高扩散的能力和泛化能力,我们通过开发场景-对象混合训练策略来扩大3D训练数据。实验表明,与SOTA方法相比,我们的方法具有更好的生成质量(在PSNR高2.20 dB,在FID低2.20 dB)和超过5倍的速度(在100 GPU上约6s)。用户研究和文本到3D的应用也揭示了我们的方法的实用价值。

2. 引言

图像到3D生成是一项重要且具有挑战性的任务,其目标是根据单张视图图像生成场景或物体的3D表示。该技术在增强现实/虚拟现实(AR/VR)、电影制作、机器人技术、动画、游戏等领域有着广泛的应用。

现有的前馈图像到3D方法主要是两阶段的。它们首先采用2D扩散模型生成被遮挡的多视图图像,然后将这些多视图图像输入到3D重建模型中。由于在扩散过程中没有3D模型,这些方法无法强制视图一致性,并且在提示视图方向改变时容易崩溃。另一条研究较少的技术路线是训练带有2D渲染损失的3D扩散模型。然而,这些方法主要依赖于三平面神经辐射场(NeRF)。NeRF的体积渲染耗时较长,且三平面分辨率有限,这限制了模型扩展到更大场景的能力。此外,当前方法主要研究使用以物体为中心的数据集进行训练的物体级生成,这限制了模型的泛化能力,并且较少探索更大规模的场景级生成。

为了解决这些问题,我们提出了一种新颖的单阶段基于3D高斯溅射(3DGS)的扩散模型DiffusionGS,用于从单视图生成3D物体和场景。我们的DiffusionGS通过在每个时间步预测多视图像素对齐的高斯基元来强制生成内容的3D一致性。凭借其高度并行的光栅化和可扩展的成像范围,DiffusionGS的每个资产的推理速度约为6秒,并且可以轻松应用于大型场景。由于我们的目标是构建一个通用且大规模的3D生成模型,因此充分利用现有的3D场景和物体数据至关重要。然而,直接使用场景和物体数据进行训练可能会因为领域差异过大而导致不收敛。因此,我们提出了一种场景-物体混合训练策略来处理这个问题,并学习几何形状和纹理的通用先验。我们的混合训练策略通过控制所选视图的分布、相机条件、高斯点云和成像深度,使DiffusionGS适应物体和场景数据集。特别是,我们注意到之前的相机条件化方法Plücker坐标在捕捉深度和3D几何形状方面存在局限性。因此,我们设计了一种新的相机条件化方法——参考点Plücker坐标(RPPC),它编码了每条射线上最接近世界坐标系原点的点,以帮助DiffusionGS更好地感知场景和物体数据中的深度和3D几何形状。最后,在物体或场景数据上对混合训练权重进行微调,以提高性能。

3. 效果展示

我们方法的生成结果。对于对象,提示视图位于左侧虚线框中。右边是生成的新奇视图和高斯点云。对于场景,我们的模型可以处理带有遮挡和旋转的困难情况,如第三行的虚线框所示。物体和场景的稳定扩散和黑脸田鸡促进了文本到3D的演示。

我们的方法在GSO、wild图像和由稳定扩散或通量促进的文本到图像上的单视图对象级生成。我们的扩散可以稳健地处理具有毛茸茸外观、阴影、平面插图、复杂几何形状和镜面反射的硬案例。推荐课程:实时400FPS!高精NeRF/Gaussian SLAM定位与建图

我们的方法在有旋转和遮挡的室内(上)和室外(下)场景上的单视图场景生成结果。

4. 主要贡献

我们的贡献可以概括为以下几点:

• 我们提出了一种新颖的基于3DGS的扩散模型DiffusionGS,用于从单视图生成3D物体和场景。

• 我们设计了一种场景-物体混合训练策略,以从3D物体和场景数据中学习更通用的先验。

• 我们定制了一种新的相机姿态条件化方法RPPC,以更好地感知相对深度和几何形状。

• DiffusionGS生成了更多视觉上令人愉悦的结果,并且在对象级和场景级生成的PSNR/FID上分别比先前方法高出2.20 dB/23.25和2.91 dB/75.68,同时在单个A100 GPU上的推理速度约为6秒。

5. 方法

图4描绘了我们的方法流程。图4(a)展示了场景-物体混合训练。对于每个场景或物体,我们选择一个视图作为条件,N个视图作为待去噪的噪声视图,M个新视图用于监督。然后在图4(b)中,将清晰视图和噪声视图输入到我们的DiffusionGS中,以预测每个像素的3D高斯基元。

6. 实验结果

物体级生成。图6展示了在ABO、GSO、真实相机图像[36]以及FLUX提示下的文本到图像的物体级生成的视觉对比。我们将我们的方法与五种具有代表性的最先进(SOTA)方法进行了比较,包括一种单阶段3D扩散方法DMV3D、三种基于2D多视图扩散的方法(LGM、CRM和12345++)以及一种基于SDS的方法DreamGS。以前的方法会生成过度平滑的图像或扭曲3D几何形状。相比之下,我们的方法能够稳健地生成更清晰的新视图和完美的3D几何形状,同时保留任意方向提示视图中的精细细节,如第一行中的灯罩。即使给定以前方法擅长的正面视图(第三行和第四行),我们的方法仍能通过保留玩偶的面部细节来获得更好的视图一致性。而基于2D多视图扩散的方法在“拼接”未对齐的多视图图像时,会在面部引入裂纹、伪影和模糊。

我们邀请25人进行用户研究,根据3D几何形状、纹理质量和与提示视图的对齐程度,对14个物体的生成结果的视觉质量进行评分。用户研究评分范围从1(最差)到6(最好)。对于每个测试对象,我们以随机顺序向人类测试者展示提示视图和不同方法生成的未命名新视图。表1a报告了在256×256尺寸下的结果和运行时间。我们的方法获得了最高评分,同时与最近的最佳3D扩散方法DMV3D和多视图扩散方法12345++相比,推理速度分别提高了5倍以上和10倍以上。表1b和1c展示了ABO和GSO数据集上物体级生成的定量结果。在ABO/GSO上,DiffusionGS在PSNR上比DMV3D高出2.2/1.25 dB,在FID分数上高出23.25/21.96。

由于单视图场景生成的研究较少,我们训练了三个SOTA场景重建模型,包括GS-LRM、pixelSplat和pixelNeRF,它们使用单个输入视图和与DiffusionGS相同数量的监督视图,以便进行公平比较。表1d报告了RealEstate10K测试集上的定量结果。我们的方法在PSNR上比SOTA方法GS-LRM高出2.91 dB,在FID分数上低75.68(数值越低表示质量越好,但此处为突出对比采用“低”的表述方式,实际上FID分数越低表示生成图像与真实图像越接近)。图7展示了具有遮挡和旋转的室内和室外场景生成的视觉结果。在图7中,以前的确定性方法都生成了非常模糊的图像。相比之下,我们的DiffusionGS可以生成障碍物后面和提示视图之外的详细内容。我们将Sora与我们的DiffusionGS相结合来执行文本到场景的生成。当移动相机时,我们的DiffusionGS可以可靠地为Sora提示的室内和室外场景生成新视图。

分解消融。为了研究每个组件对更高性能的影响,我们采用没有时间步控制的去噪器作为基线来进行分解消融。我们在具有单视图输入和与DiffusionGS相同数量的监督视图的物体级数据集上对其进行训练。GSO的结果如表2所示。基线在PSNR上产生了17.63 dB的较差结果,在FID上达到了118.31。当应用我们的扩散框架、点云分布损失Lpd、无参考点普吕克坐标(RPPC)的场景-物体混合训练以及RPPC时,模型在PSNR上分别提高了2.94、0.37、0.79、0.34 dB,在FID上分别下降了70.45、19.45、10.62、6.27。此外,RPPC在RealEstate10K测试集上的改进是PSNR提高了0.28 dB,FID降低了7.09。这些结果表明了我们方法的有效性。

混合训练分析。我们在图8(a)中对我们的场景-物体混合训练进行了视觉分析。为了公平比较,无论是否进行混合训练,模型都以相同的迭代次数进行训练。上行展示了对物体级生成的影响。在使用混合训练后,杯子的纹理变得更加清晰和逼真,背部的伪影也减少了。下行展示了对场景级生成的影响。当应用我们的混合训练时,DiffusionGS能够更好地捕捉3D几何形状,并生成更多结构性内容,如厨房的窗户和炉灶。

生成多样性分析。我们通过改变随机种子,以相同的正面提示视图“ikun”(如图1第二行所示)来评估DiffusionGS的生成多样性。不同生成的样本如图8(b)所示。DiffusionGS可以为3D资产生成不同的形状和纹理,如“ikun”玩偶的背面。

7. 总结

在本文中,我们提出了一种基于新颖3DGS的扩散模型DiffusionGS,用于从单个视图进行单阶段物体和场景生成。我们的DiffusionGS在每个时间步直接输出3D高斯点云,以强制视图一致性,并且仅需要2D渲染进行监督。此外,我们还开发了一种场景-物体混合训练策略,以及一种新的相机条件方法RPPC,以学习一个能够更好捕捉3D几何形状和纹理表示的一般先验。实验表明,我们的DiffusionGS在物体/场景生成上的PSNR比SOTA 3D扩散模型高出2.2/2.91 dB,FID分数低23.25/75.68,同时在单个A100 GPU上的速度超过5倍(约6秒)。用户研究和文本到3D的应用也揭示了我们的方法的实用价值。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉最前沿工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

3D视觉工坊
专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地,力争打造为国内最专业的3D视觉社区。官网:www.3dcver.com 佳v:cv3d007 或 13451707958
 最新文章