单步扩散与图像生成:随机尺度CFG+负提示词引导的增强单步扩散模型;动态对抗训练框架的动态扩散模型
SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance
2024-12-03|VinAI Research, PTIT|🔺55
http://arxiv.org/abs/2412.02687v2
https://huggingface.co/papers/2412.02687
https://snoopi-onestep.github.io/
研究背景与意义
在文本到图像的生成领域,扩散模型因其生成高质量和多样化输出的能力而受到广泛关注。近年来,研究者们致力于将多步骤的扩散模型简化为一步生成模型,以提升效率。然而,现有的高效蒸馏技术,例如SwiftBrush v2(SBv2),在处理不同扩散模型骨干时表现出不稳定性,尤其是在使用固定引导尺度的变分评分蒸馏(VSD)损失时。此外,现有的一步扩散模型缺乏对负提示引导的支持,这在实际图像生成中至关重要。因此,提出一种新框架SNOOPI,旨在通过增强一步扩散模型的引导能力来解决这些局限性,从而提升其在实际应用中的可行性和灵活性。
研究方法与创新
本研究提出了两项核心创新:
**Proper Guidance-SwiftBrush (PG-SB)**:通过在训练过程中有效地调整教师模型的引导尺度,增强训练稳定性。该方法采用随机尺度的无分类器引导方法(classifier-free guidance),从而扩展教师模型的输出分布,提升VSD损失的鲁棒性,使SB能够在多种骨干网络上有效运行。
**Negative-Away Steer Attention (NASA)**:这是第一个将负提示引导集成到一步扩散模型中的方法。它通过交叉注意机制调整中间特征空间,从而有效抑制生成图像中的不良特征。NASA的实施使得模型在生成过程中能够排除特定不希望的元素,提供更高的控制能力。
这些创新方法不仅改善了生成图像的质量,还显著提高了模型的稳定性,确保了在多种任务中的有效性。
实验设计与结果分析
实验通过在多个基准数据集上评估SNOOPI的性能,结果显示:
在MS COCO 2014基准测试中,SNOOPI的HPSv2得分达到了31.08,创下了一步扩散模型的新纪录。 通过与现有模型的对比,SNOOPI在多个指标上表现优越,尤其是在生成质量和对负提示的响应能力上。
实验还表明,PG-SB与NASA的结合能够有效提升模型在复杂场景下的表现,减少生成图像中的不希望特征,并保持图像的整体质量。
结论与展望
本研究提出的SNOOPI框架显著提升了一步扩散模型的稳定性和控制能力。尽管PG-SB在现阶段尚不支持少步模型,但其在图像生成的高效性和实用性方面展现出良好的前景。
未来的工作将致力于扩展该方法对不同架构的适应性,并进一步优化负提示引导的实现,以实现更广泛的应用。通过对现有框架的深入分析和简单有效的创新,SNOOPI为未来文本到图像生成技术的发展提供了新的思路和方向。
NitroFusion: High-Fidelity Single-Step Diffusion through Dynamic Adversarial Training
2024-12-02|U Surrey, NetMind|🔺11
http://arxiv.org/abs/2412.02030v1
https://huggingface.co/papers/2412.02030
https://chendaryen.github.io/NitroFusion.github.io
研究背景与意义
在当今的图像生成领域,单步扩散模型因其速度优势而备受关注。然而,它们在图像质量上往往无法与多步模型相媲美,导致实际应用受到限制。NitroFusion提出了一种新颖的方法,通过动态对抗训练框架来解决这一问题。该研究旨在填补单步生成与多步生成之间的质量差距,特别是在需要高保真度的实时交互系统中。
研究现状:现有的单步扩散方法,如DMD2和Hyper-SDXL,尽管在速度上具有优势,但在细节保留和全局一致性方面存在明显不足。 挑战:如何在保持生成速度的同时,提升图像的细节和质量是当前研究的核心挑战。 研究目标:通过构建一个动态的判别器池,提供多层次的反馈,从而实现高质量的单步图像生成。
研究方法与创新
NitroFusion的核心在于其动态对抗框架,该框架通过多个专门的判别器头来提升生成质量。以下是该方法的关键创新点:
动态判别器池:通过维护一个动态的判别器池,每个判别器专注于不同的噪声水平,从而提供多样化的反馈。这种方式类似于艺术评论家团队对艺术作品的综合评估,确保生成图像在多个质量方面得到提升。 策略性刷新机制:定期随机初始化一部分判别器头,以防止过拟合。这一机制保证了反馈的多样性和有效性,避免了生成过程中的信息僵化。 多尺度评估与双重训练目标:通过全局和局部判别器的结合,进行多尺度的质量评估。这种设计不仅提升了图像的细节捕捉能力,同时也保证了生成图像的整体一致性。
实验设计与结果分析
在实验部分,NitroFusion通过与现有单步和多步模型的对比,展示了其在图像生成质量上的显著提升。
实验设置:采用多种图像生成任务,评估生成图像的细节、纹理和色彩表现。实验结果表明,NitroFusion在多个评价指标上超越了现有的单步生成模型。 结果分析:通过定量和定性的评估,NitroFusion在细节保留和全局一致性方面表现优异,尤其在复杂场景中,如人脸细节和质感的保留上,展现了其独特的优势。 统计显著性:通过对比分析,NitroFusion在生成质量上显著优于SDXL和其他基准模型,尤其在用户偏好和美学评分上获得了更高的评价。
结论与展望
NitroFusion的研究不仅在技术上提供了新的思路,也在实际应用中展示了其潜力。通过动态的对抗训练框架,NitroFusion成功地将单步扩散模型的速度优势与高质量生成结合起来。
研究贡献:提出了一种新的动态对抗框架,显著提升了单步生成模型的质量,尤其是在细节和一致性方面。 局限性分析:尽管取得了显著进展,但在特定类型的复杂场景生成中仍有提升空间。 未来展望:未来的研究可以进一步探索如何优化判别器的反馈机制,以及如何将此框架应用于其他生成任务,如视频生成和3D建模。
通过这些创新,NitroFusion为图像生成领域提供了一种新的解决方案,具有广泛的应用前景。