后台回复“GAI”,免费获取最新AI相关行业报告和资料!
作者:Xiaoxiao He等
文章链接:https://arxiv.org/pdf/2410.08207
项目链接:https://hexiaoxiao-cs.github.io/DICE/
亮点直击
引入了DICE,一种用于离散扩散模型(包括多项扩散和mask生成模型)的反演算法。通过记录并注入噪声序列或mask模式,DICE能够在无需预定义mask或注意力操作的情况下,实现对离散数据的精确重构和可控编辑。 通过在图像和文本两种模态上的全面实验验证了DICE的有效性,展示了其在不同类型的离散生成模型中的通用性。 证明了该方法可以将主要用于理解任务(如RoBERTa)的模型转化为具有竞争力的文本生成和编辑生成模型,展示了扩展离散扩散模型至新应用的潜力。
总结速览
解决的问题:
离散扩散模型虽然在图像生成和mask语言建模等任务中取得了成功,但在精确控制内容编辑方面存在局限性。当前方法无法实现对离散数据的灵活编辑和准确重构。
提出的方案:
提出了DICE(可控编辑的离散反演),这是首个针对离散扩散模型(包括多项扩散和mask生成模型)的精确反演方法。DICE通过记录在反向扩散过程中的噪声序列和mask模式,实现了无需预定义mask或注意力操作的精确重构和灵活编辑。
应用的技术:
DICE 方法利用了在反向扩散过程中记录的噪声序列和mask模式,应用于离散数据的精确反演和可控编辑。其评估对象包括VQ-Diffusion、Paella和RoBERTa等模型,跨越图像和文本领域。
达到的效果:
DICE 保留了较高的数据保真度,并增强了离散空间中细粒度的内容编辑能力,展示了在图像和文本领域的有效性,提供了新的内容操控机会。
方法
可控编辑离散反演
基于非ODE的反演:基于ODE的生成模型,例如DDIM和流匹配,定义了一个ODE轨迹。由于ODE的确定性特性,可以通过使用欧拉法在正向方向上求解ODE来实现反演,确保根据ODE的固有性质进行重构。相比之下,另一类研究关注基于SDE的模型,如CycleDiffusion和DDPM Inversion。广义上讲,这些方法通过记录噪声或残差来确保重构,这些噪声或残差是重现随机轨迹所需的。CycleDiffusion 在从后验进行采样时记录高斯噪声,并通过输入真实的来注入信号信息。另一方面,DDPM Inversion通过将反演过程拟合到由独立的采样得到的人工随机轨迹中,将信息引入。对于CycleDiffusion和DDPM Inversion,两者的关键思想是利用高斯重参数化技巧,,并跟踪“噪声”,这些噪声可能是从均值生成样本的来源。对于离散扩散模型,我们使用Gumbel-Max技巧,。下图2提供了所提方法的直观解释。
多项扩散的反演:类似于Huberman-Spiegelglas et al.,首先通过从进行独立的采样,得到一个随机轨迹序列 (沿着的维度填充以下采样操作)。
请注意,在此使用了Gumbel Softmax技巧,这等同于从类别分布中采样。
请注意,此处的潜在变量。
在这个反演过程中,潜在空间与固定的离散扩散模型一起唯一地定义了相同的随机轨迹。详细算法见算法2。
反演mask生成模型:在mask生成建模中,随机轨迹是根据所使用模型的特定推理算法构建的。例如,在Paella中,mask是包含性的,这意味着随着时间步的增加,被掩盖的tokens集合会增加。相比之下,Unleashing Transformer在每一步采用随机mask,其中mask是通过采样函数独立生成的。为简便起见,定义一个去噪函数(由参数化)。该去噪函数根据噪声token 输出预测的未掩盖数据的logits。由于在这种情况下,分类采样发生在对去噪器预测的采样中,因此我们定义一个相应的潜在序列。
通过潜在空间,保证了准确的重构。然而,对于编辑任务而言,如果潜在变量主导了生成过程,这种精确度可能并不理想。详细算法见下算法1。
为了提供更多灵活性,引入超参数、和,它们允许对编辑过程进行更精细的控制。具体来说,表示编辑过程开始时(也是最大)时间步,控制从原始输入中注入的信息量,而则管理随机噪声的引入。
分析:描述一个简单但典型的DDPM示例,并计算编码潜变量与输入信号之间的互信息。
备注 3.1:给定一个简单的高斯DDPM,,潜变量通过DDPM反演获得 (Huberman-Spiegelglas et al., 2024),则与之间的互信息为:
与之间的互信息在图3中进行了说明。观察到,从编码到的信息量随着的增加而减少,这促使我们探索不同的调度策略(见下图7)。
实验
本节展示了反演方法在图像和语言扩散模型上的有效性。实验表明,这些方法能够在视觉和语言任务中保持身份,同时成功进行预期的更改。
图像扩散模型
对于图像扩散模型,主要研究吸收状态离散模型,包括一个mask生成模型Paella和一个多项式扩散模型VQ-Diffusion。我们展示了DICE在两个类别中的反演重构能力和图像编辑性能。
数据集:由Ju等提出的基于提示的图像编辑基准(PIE-Bench)是一个最近推出的数据集,旨在评估文本到图像(T2I)编辑方法。该数据集在9种不同场景中评估语言引导的图像编辑,共有700幅图像。基准的详细注释和各种编辑任务对于全面评估我们方法的能力至关重要,确保与现有方法的公平一致的比较。
反演重构
本节评估不进行编辑时的反演准确性。这是通过首先反转图像,然后使用记录的潜在编码重构原始图像来实现的。
评估指标:在此,评估DICE和掩蔽生成下原始图像与生成图像的图像相似性,指标包括PSNR、LPIPS、MSE和SSIM。
定量分析:本文的方法的重构性能,如下表1所示,远远超过了基线插补 + Paella模型的所有指标。在掩蔽插补的情况下,所有图像token都被随机抽样的token替换,意味着模型缺乏关于原始图像的任何先验信息。因此,重构图像与被反转的图像存在显著差异,导致相似性评分较低。相比之下,本文的方法展示了近乎完美的重构,正如指标所示,显著生成了一幅与原图完全相同的图像,而不会引入VQ-VAE/GAN量化过程通常带来的错误,如(†)token的结果所示。这突显了本文的方法在生成高保真重构方面的卓越准确性和一致性。
编辑性能
本节讨论本文提出的方法的编辑性能。由于不存在离散扩散反演,因此将本文的方法与原文中指出的掩蔽生成进行比较。此外,还展示了来自连续模型的指标。
评估指标:为了展示我们提出的反演方法的有效性和效率,采用了涵盖三个关键方面的八个指标:结构距离、背景保留和编辑提示与图像的一致性,如Ju等(2023)所述。利用Tumanyan等(2023)提出的结构距离指标来测量原始图像和生成图像之间的结构相似性。为了评估背景在标注的编辑掩膜之外的保留效果,我们使用峰值信噪比(PSNR)、学习感知图像块相似性(LPIPS)、均方误差(MSE)和结构相似性指数(SSIM)。还使用CLIP相似性得分来评估编辑提示与生成图像之间的一致性,该得分是在整幅图像和由编辑掩膜定义的区域内计算的。
结果:下表2展示了使用Paella和VQ-Diffusion的DICE定量结果,并与连续扩散模型以及插补进行了比较。值得注意的是,本文的方法在Paella模型下实现了最低的结构距离11.34,超越了包括连续扩散模型在内的所有其他方法。此外,虽然Stable Diffusion v1.4的DDPM反演在整体和编辑区域的CLIP相似性得分中显示出最高,但本文的方法与Paella保持了竞争力的CLIP相似性。考虑到结构距离的显著降低,本文的方法在结构保留和语义对齐的平衡上表现出色。此外,结合VQ-Diffusion后,本文的方法继续展现出强劲的性能。
表3中的结果清晰地展示了本文的方法在背景保留能力上优于DDIM+SDv1.4。所有四个指标强调了本文的方法在保留图像未编辑区域的结构一致性。这些结果展示了本文的方法在编辑过程中保持背景完整性的有效性,并提供了原始图像信息注入DICE潜在空间的证据。
图下4展示了使用DICE的Paella和VQ-Diffusion的编辑结果。两个模型都成功地根据目标提示修改了真实图像。在所有情况下,我们的结果都展现出对输入图像的高保真度和对目标提示的遵循。
语言扩散模型
研究者们在RoBERTa上评估DICE,这是一种文本离散扩散模型,用于生成对立情感的句子,同时保留结构相似性。我们从两个提示开始——一个是积极情感,另一个是消极情感。每个提示包含两个句子:第一个句子指示情感类型并设置上下文背景,第二个句子是反转和生成的目标。最初,我们使用整个提示作为上下文,反转消极情感提示的第二个句子,生成该句子的噪声标记表示。接下来,我们通过将积极情感提示的第一个句子与反转的消极句子的噪声标记拼接在一起,来对模型进行条件设置。这一设置引导模型生成一新第二句,该句反映了原始消极句的结构,但表达积极情感。
评估模型在保持原始句子结构元素的同时,反转并生成与指定情感一致的文本的能力。
反演过程
实验中,特别关注于反转第二个句子(在下表6中以红色标出),同时保持第一个句子(黑色)不变,因为它通常包含重要的上下文信息。在反演过程中,我们的目标是通过从反转阶段获得的噪声标记中恢复第二个句子,以进行重建/编辑。
数据集生成
为了评估编辑性能,设计并提出了一个新数据集,称为情感编辑(Sentiment Editing)。该数据集的目标是在保持句子结构的同时编辑句子的情感,并且遵循句子的主题。这里展示了数据集中两组句子。
反演重建
与图像生成部分类似,首先展示所提方法的反演和重建能力。该过程包括反演句子,然后使用相同的提示生成第二个句子的重建版本。
评估指标对于重建,使用命中率(Hit Rate),定义为每种方法生成与原句相同的句子的比例。此外,我们计算语义文本相似度(Semantic Textual Similarity,STS)得分,通过测量句子嵌入之间的余弦相似度,使用Reimers等人(2019)提出的模型。
定量分析下表4比较了DICE与使用RoBERTa的mask生成在两个指标上的表现:准确率和语义文本相似度。我们的方 法在这两个指标上显著超过了mask生成,证明我们的zt潜在空间有效捕捉了被反演句子的信息,并促进了其后续的重建。
句子编辑
在这一部分,我们评估所提反演方法在RoBERTa上的编辑性能。在表6中,负向提示列下以黑色显示的句子是在反演过程中输入的。被反演的句子以红色显示。对于编辑,提示随后被替换为右侧的黑色句子,并在末尾添加噪声以进行正向过程。正向过程中噪声的输出以蓝色呈现。
评估指标
对于句子编辑任务,我们根据两个标准评估生成的句子:(1) 结构保留,评估句子的结构是否得以保留,(2) 情感正确性,评估编辑后句子的情感是否与原始提示的情感一致。结构保留率和情感正确率均使用ChatGPT-4作为分类器进行计算。关于使用ChatGPT进行评估的详细信息可以在补充材料中查看。
结果下表5展示了两种文本编辑方法的比较分析,这两种方法均采用RoBERTa,重点关注在结构保留和情感正确性方面的有效性。我们的方 法在这两个指标上显著优于mask生成。这一差异突显了我们反演方法在潜在空间中编码原始文本结构的卓越能力,以及更准确地调整情感的灵活性。
前面表6展示了初始提示和编辑结果。本文的方法在保留负向提示的句子结构的同时,将其情感修改为更积极的情感。
结论
DICE(可控编辑的离散反演),一种用于离散扩散模型的反演算法,包括多项式扩散和mask生成模型。通过在逆扩散过程中利用记录的噪声序列和mask模式,DICE实现了对离散数据的准确重构和灵活编辑,而无需预定义的mask或交叉注意力操作。在多个模型和模态(如图像和文本)上的实验展示了DICE在保持数据保真度的同时增强编辑能力的有效性。此外,还展示了DICE将RoBERTa这一传统上专注于数据理解的模型转变为文本生成和编辑的生成模型的潜力。我们相信,DICE增强了离散生成模型的能力,为在离散空间中的精细内容操控提供了新的机会。
参考文献
[1] DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!