ECCV 2024 | EchoScene:通过场景图扩散生成3D室内场景

创业   2024-09-24 08:22   北京  

目前的扩散模型 (diffusion models)不能很好的处理场景图 (scene graph)这类高复杂度的数据结构。其复杂性在于图中含有任意可变的节点数量, 多种潜在的节点-节点之间边的语义组合, 节点和边的高度可操作性。因此, 本文提出将每一个节点都关联一个扩散去噪过程, 并使所有的扩散去噪过程根据边的信息进行交互, 以此实现在整体去噪过程中一致的信息传递, 保证了生成结果的可控性并保持和场景图描述信息的一致性。

上述功能是由本文所提的信息回声 (Information Echo) 机制实现的。基于此机制, 本文提出了EchoScene, 这是一种基于场景图的专注于可控性和交互性的场景生成模型。经由EchoScene生成的场景可以在推理过程中由用户操作节点和边的关系而发生相应的变化。实验证明了EchoScene在生成内容的可控性和逼真性上超越了现存方法。并且, 生成场景的质量可以保证用一个即插即得的纹理生成器直接得到不同装饰风格, 拓宽了后续的应用价值。

论文标题: 

EchoScene: Indoor Scene Generation via Information Echo over Scene Graph Diffusion 

论文链接:

https://arxiv.org/pdf/2405.00915

代码链接:

https://github.com/ymxlzgy/echoscene

项目主页:

https://sites.google.com/view/echoscene

本文前期工作 - CommonScenes:

https://arxiv.org/pdf/2305.16283

一、方法

Information Echo Scheme

针对场景图中节点数量和边的语义组合多变这一复杂结构特性, 本文提出为每一个节点都设置一个扩散去噪过程, 所有去噪过程的denoiser参数共享, 这样也避免引入过多参数。在去噪中的每一步, 所有节点都将当前去噪数据发送到一个信息交互单元 (Information exchange unit), 该单元经由图卷积过程, 依据边的信息在所有节点间进行信息传递和特征融合使得每个节点都能捕获到图中其他节点的信息, 融合后的信息被各自节点的去噪过程接收用于指导生成。这种信息的一次发送和一次接受称为一个信息回声。该机制保证了整体场景理解并使得最后生成结果具有全局一致性。

EchoScene

EchoScene 先利用基于三元组图卷积 (triplet-GCN)的编码器和操作器将场景图编码至隐式空间 (图1A), 然后 将节点所含信息发送到两个分支-layout分支(图1B。1)和shape分支(图1B。2)。在layout分支中, 待去噪信息为场景布局, 即所有物体的包围框, 信息回声也因此具象化为布局回声(layout echo, 图2A)。每一个扩散去噪过程都与其他过程利用布局回声进行交互, 这使得最后生成的场景布局与场景图描述一致。

相似地, 在shape分支中, 信息回声转化为形状回声(shape echo, 图2B), 每一个过程也都与其他过程通过形状回声进行信息交互。与CommonScenes[1] 的形状分支对比, 这使得最后生成的物体形状更加一致, 并更符合场景图中的描述。

二、结果

本文与当前SoTA方法进行了比较, 一些定性结果如下图所示:

很明显可以看到, EchoScene生成的场景整体更加规整, 例如Bedroom中, 所有物体包围盒都更加规整。并且, 由于shape echo可以充分利用场景图中边的信息并且挖掘每个物体形状之间的联系, 物体生成的会更加合理且风格更加一致, 例如Living room中, 其他方法均不能保持生成一致,而EchoScene可以保持全局风格一致。

以场景生成真实性作为评价指标, 部分定量结果如下所示:

可以看到EchoScene在大多数指标上明显优先于前作CommonScenes[1] 以及同期方法DiffuScene[2]。更多指标请参考原文。

三、下游任务

EchoScene的缺点之一是其目前只能生成无纹理场景, 而这一缺点可由串接一个纹理生成器进行避免。本文使用了可以即插即用的SceneTex[3] 作为纹理生成器, 展示了一些不同装修风格的带有纹理的室内场景, 如下图所示:

这使得EchoScene的下游任务更加广泛, 例如用于VR/AR, 3D游戏的场景设计。

Reference

[1] Zhai G, Örnek E P, Wu S C, et al. Commonscenes: Generating commonsense 3d indoor scenes with scene graph diffusion. NeurIPS 2023.

[2] Tang J, Nie Y, Markhasin L, et al. Diffuscene: Denoising diffusion models for generative indoor scene synthesis. CVPR 2024.

[3] Chen D Z, Li H, Lee H Y, et al. Scenetex: High-quality texture synthesis for indoor scenes via diffusion priors. CVPR 2024.

作者:翟光耀

来源:公众号【Cver】

llustration From IconScout By IcouScout Store

-The End-

扫码观看

本周上新!


“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //


投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励


投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。


关于我“

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com

    


点击右上角,把文章分享到朋友圈
点击“阅读原文”按钮,查看社区原文

将门创投
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器,由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
 最新文章