目前的扩散模型 (diffusion models)不能很好的处理场景图 (scene graph)这类高复杂度的数据结构。其复杂性在于图中含有任意可变的节点数量, 多种潜在的节点-节点之间边的语义组合, 节点和边的高度可操作性。因此, 本文提出将每一个节点都关联一个扩散去噪过程, 并使所有的扩散去噪过程根据边的信息进行交互, 以此实现在整体去噪过程中一致的信息传递, 保证了生成结果的可控性并保持和场景图描述信息的一致性。 上述功能是由本文所提的信息回声 (Information Echo) 机制实现的。基于此机制, 本文提出了EchoScene, 这是一种基于场景图的专注于可控性和交互性的场景生成模型。经由EchoScene生成的场景可以在推理过程中由用户操作节点和边的关系而发生相应的变化。实验证明了EchoScene在生成内容的可控性和逼真性上超越了现存方法。并且, 生成场景的质量可以保证用一个即插即得的纹理生成器直接得到不同装饰风格, 拓宽了后续的应用价值。
上述功能是由本文所提的信息回声 (Information Echo) 机制实现的。基于此机制, 本文提出了EchoScene, 这是一种基于场景图的专注于可控性和交互性的场景生成模型。经由EchoScene生成的场景可以在推理过程中由用户操作节点和边的关系而发生相应的变化。实验证明了EchoScene在生成内容的可控性和逼真性上超越了现存方法。并且, 生成场景的质量可以保证用一个即插即得的纹理生成器直接得到不同装饰风格, 拓宽了后续的应用价值。
论文标题:
EchoScene: Indoor Scene Generation via Information Echo over Scene Graph Diffusion
论文链接:
https://arxiv.org/pdf/2405.00915
代码链接:
https://github.com/ymxlzgy/echoscene
项目主页:
https://sites.google.com/view/echoscene
本文前期工作 - CommonScenes:
https://arxiv.org/pdf/2305.16283
一、方法
Information Echo Scheme
EchoScene
EchoScene 先利用基于三元组图卷积 (triplet-GCN)的编码器和操作器将场景图编码至隐式空间 (图1A), 然后 将节点所含信息发送到两个分支-layout分支(图1B。1)和shape分支(图1B。2)。在layout分支中, 待去噪信息为场景布局, 即所有物体的包围框, 信息回声也因此具象化为布局回声(layout echo, 图2A)。每一个扩散去噪过程都与其他过程利用布局回声进行交互, 这使得最后生成的场景布局与场景图描述一致。
二、结果
本文与当前SoTA方法进行了比较, 一些定性结果如下图所示:
以场景生成真实性作为评价指标, 部分定量结果如下所示:
可以看到EchoScene在大多数指标上明显优先于前作CommonScenes[1] 以及同期方法DiffuScene[2]。更多指标请参考原文。
三、下游任务
EchoScene的缺点之一是其目前只能生成无纹理场景, 而这一缺点可由串接一个纹理生成器进行避免。本文使用了可以即插即用的SceneTex[3] 作为纹理生成器, 展示了一些不同装修风格的带有纹理的室内场景, 如下图所示:
这使得EchoScene的下游任务更加广泛, 例如用于VR/AR, 3D游戏的场景设计。
Reference
[1] Zhai G, Örnek E P, Wu S C, et al. Commonscenes: Generating commonsense 3d indoor scenes with scene graph diffusion. NeurIPS 2023.
[2] Tang J, Nie Y, Markhasin L, et al. Diffuscene: Denoising diffusion models for generative indoor scene synthesis. CVPR 2024.
[3] Chen D Z, Li H, Lee H Y, et al. Scenetex: High-quality texture synthesis for indoor scenes via diffusion priors. CVPR 2024.
作者:翟光耀
来源:公众号【Cver】
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。