Google 的Magic Insert 通过拖入到目标图片实现风格感知且逼真的插入效果

文摘   2024-07-16 12:30   法国  

昨天分享了一个 Google 的研究,今天接着分享另一个。这个研究目前只有论文,还没有开源代码。该研究名为“Magic Insert: Style-Aware Drag-and-Drop”。

通过 Magic Insert,能够将一张图片中的主体以任意风格拖放到另一张具有完全不同风格的目标图片中,并实现风格感知且逼真的插入效果。

效果

在风格感知插入方面的有效性和多样性。这些示例涵盖了各种不同艺术风格的主体和目标背景,从写实场景到卡通和绘画。

LLM 引导的姿态调整

示例展示了由 LLM 引导的 Magic Insert 姿态修改,LLM 为图像区域建议合理的姿势和环境互动,Magic Insert 生成并插入相应姿态的风格化主体到图像中。

Bootstrap 域适应结果

在没有进行 Bootstrap 域适应的情况下使用预训练的主体插入模块会产生次优结果,出现如缺少阴影和反射,或者添加扭曲和伪影等故障模式。

带有属性修改的风格感知个性化

允许修改主体的关键属性,例如图中的这些属性,同时在生成过程中始终应用目标风格。这使得能够重新设计角色或添加配饰,极大地增加了创意用途的灵活性。需要注意的是,使用 ControlNet 时这种能力会消失。

可编辑性 / 保真度权衡

展示不同微调迭代的太空海军(如图所示)的生成结果,展示了可编辑性 / 保真度权衡现象,采用“绿色船只”风格并添加“坐在地上”的文本提示。当风格感知个性化模型在主体上进行更长时间的微调时,得到的主体保真度更强,但在编辑姿势或其他语义属性上的灵活性降低。这也可能影响到风格的可编辑性。

方法

为了生成既尊重目标图像风格又保留主体本质和身份的主体,Magic Insert采取以下步骤:

  1. 个性化扩散模型:在权重和嵌入空间中个性化扩散模型,通过在预训练扩散模型基础上训练 LoRA 增量,并同时使用扩散去噪损失训练两个文本标记的嵌入。
  2. 生成风格感知主体:使用个性化的扩散模型,通过嵌入目标图像的风格并在去噪过程中将适配器风格注入到模型的选择性上采样层中,生成风格感知的主体。

为了插入风格感知个性化生成的主体,我们执行以下步骤:

  1. 复制粘贴:将分割后的主体版本粘贴到目标图像上。
  2. 运行主体插入模型:在去除阴影的图像上运行我们的主体插入模型,这会创建上下文线索并将主体逼真地嵌入图像中,包括阴影和反射。

令人惊讶的是,针对现实世界数据进行主体插入/移除训练的扩散模型在有限的情况下可以推广到更广泛的风格领域。我们引入了自举域适应,即通过使用模型自身输出的子集来适应模型的有效域。具体步骤如下:

  1. 使用主体移除/插入模型首先从目标域的数据集中移除主体和阴影。
  2. 过滤有缺陷的输出,并使用过滤后的图像集重新训练主体移除/插入模型。

我们观察到,初始分布(蓝色)在训练后(紫色)发生变化,最初错误处理的图像(红色样本)随后被正确处理(绿色样本)。在进行自举域适应时,我们仅对最初正确的样本(绿色)进行训练。


对比

风格感知个性化方法与顶级基线方法 StyleAlign + ControlNet 和 InstantStyle + ControlNet 的对比。可以看出,基线方法能够生成不错的输出,但在整体质量上仍落后于Magic Insert的风格感知个性化方法。特别是 InstantStyle + ControlNet 的输出往往显得略微模糊,且未能很好地捕捉主体特征的对比度。

Renee 创业随笔
絮絮叨叨