在这篇论文中,作者讨论了无需训练的扩散加速方法,并提出AdaptiveDiffusion。这个方法可以根据给定的提示动态选择去噪路径。作者还分析了跳步策略中的误差,提出使用三阶估计器来说明计算冗余。大量实验结果表明,这种方法在保证图像质量的同时,能有效降低推理成本,达到了很好的平衡。
论文题目:
Training-Free Adaptive Diffusion with Bounded Difference Approximation Strategy
论文链接:
https://arxiv.org/abs/2410.09873
代码链接:
https://github.com/UniModal4Reasoning/AdaptiveDiffusion
项目主页:
https://jiakangyuan.github.io/AdaptiveDiffusion-project-page/
一、背景 近年来,扩散模型在高质量图像和视频合成领域崭露头角,展现出强大的生成能力。从艺术创作到数据增强,扩散模型的应用范围不断扩大。然而,传统的去噪技术需要逐步预测噪声,计算量大,导致显著的延迟。
为了解决这一瓶颈,研究者们提出了多种扩散加速方法,主要集中在减少采样步骤、优化模型架构和并行化生成等方式。然而,这些策略大多针对所有prompt采用固定的加速模式。
二、动机:提示词自适应(Prompt-adaptive)加速
图一:不同的潜变量更新策略:(a) 原始 SDXL 执行 50 步的噪声预测与对应的50步潜变量更新得到的结果。(b) AdaptiveDiffusion 根据三阶估计器跳过 25 步噪声预测,而在全部 50 步中都执行潜变量更新得到的结果。(c) SDXL 仅执行 25 步的噪声预测和对应的25步潜变量更新得到的结果。(d) SDXL 在原始 50 步中跳过其中 25 步的噪声预测和对应的潜变量更新得到的结果。
图二:不同提示词存在潜在不同的最优跳步路径。
三、方法:AdaptiveDiffusion
为了探索自适应的跳步准则,作者进一步实验发现噪声预测的冗余与潜变量的三阶差分分布显著相关。利用这一关系,作者设计了一种有效的噪声跳步策略来决定何时复用上一步中的噪声预测结果,何时进行更新噪声的计算。该方法使用三阶潜变量差分来评估每个时间步的噪声预测是否冗余,考虑了对输入prompt的依赖性,从而实现了 prompt-adaptive 的加速模式,该加速框架如图三所示。
图三:AdaptiveDiffusion整体加速框架。
3.1 跳步单元定义
3.2 跳步误差估计
图四:不同变量不同阶数差分分布与最优跳步路径的相关性分析。
3.3 跳步准则设计
3.4 有效性分析
图五:三阶估计器的有效性分析。
四、实验
4.1 实验设置
测试任务:Text-to-image, image-to-video, text-to-video, conditional / unconditional image generation; 测试模型:SD-1-5, SDXL, I2VGen-XL, ModelScopeT2V, LDM-4; 测试采样器:DDIM, DPM-Solver++, Euler; 基准数据集:COCO2017, ImageNet-256x256, AIGCBench, MSR-VTT, CIFAR10, LSUN; 评价指标:PSNR, LPIPS, FID, FVD, MACs, Memory, Latency。
4.2 实验结果
图六:COCO2017上T2I任务的加速结果比较。
图七:ImageNet-256x256上加速结果比较。
图八:视频生成数据集上I2V和T2V任务的加速效果比较。
图九:超参敏感性分析。
4.3 可视化结果
图十:左边三列为SDXL在COCO2017上的生成样本比较,右边三列为SD-1-5在COCO2017上的生成样本比较。
图十一:I2VGen-XL在AIGCBench上的视频生成样本比较。
图十二:不同跳步步数下最优跳步路径和估计得到的跳步路径比较。(a) 通过贪婪搜索算法在不同跳步目标下获得的跳步路径。(b) 通过三阶估计器在不同跳步阈值下获得的跳步路径。(c) 在COCO2017基准测试上,SDXL生成图像时噪声更新步骤的跳步次数的频率分布。
五、总结
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。