逼真的正向渲染、逐像素逆向渲染和生成图像合成这三个领域看起来似乎是图形和视觉领域中独立且不相关的子领域。然而,最近的研究表明,基于扩散架构的逐像素固有通道(反照率、粗糙度、金属度)的估计有所改善;论文中称之为 RGB→X 问题。该方法进一步表明给定固有通道 X→RGB,合成逼真图像的逆问题也可以在扩散框架中解决。
研究者们专注于室内场景的图像域,引入了一种改进的 RGB→X 扩散模型,该模型还可以估算光照,以及第一个能够从(全部或部分)内在通道合成逼真图像的扩散 X→RGB 模型。X→RGB 模型探索了传统渲染和生成模型之间的中间地带:可以仅指定应遵循的某些外观属性,并让模型自由地幻化其余属性的可信版本。
这种灵活性使得能够使用多种异构训练数据集,这些数据集在可用通道上有所不同。使用多个现有数据集,并用自己的合成数据和真实数据对其进行扩展,从而生成一个能够比以前的工作更好地提取场景属性并生成高度逼真的室内场景图像的模型。
什么是 RGB↔X?
RGB↔X 是一个基于扩散的统一框架,可以实现真实的图像分析(固有通道估计,表示为 RGB→X)和合成(给定固有通道的真实渲染,表示为 X→RGB)。
RGB↔X 探索了扩散模型、真实渲染和内在分解之间的联系。我们相信它可以为各种下游任务带来好处,包括材质编辑、重新照明和从简单/未指定的场景定义进行真实渲染。
它是如何工作的?
RGB↔X 由两个微调扩散模型实现:
RGB→X 模型执行内在分解:从图像(RGB)中估计每个像素的内在通道(X)。
将输入文本提示重新用作“开关”来控制输出并一次产生单个内在通道。
支持混合使用不同可用通道的异构数据集。 例如,仅具有反照率通道的数据集仍可用于训练我们的模型。X→RGB 模型从完整或部分固有通道(X)合成图像(RGB)。 通道丢失训练策略:训练期间随机删除条件通道。
再次,支持使用可用通道不同的多种异构数据集。 使用任意子集条件实现图像生成。