NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

创业 2024-10-25 08:22 广东

在这篇论文中，作者讨论了无需训练的扩散加速方法，并提出AdaptiveDiffusion。这个方法可以根据给定的提示动态选择去噪路径。作者还分析了跳步策略中的误差，提出使用三阶估计器来说明计算冗余。大量实验结果表明，这种方法在保证图像质量的同时，能有效降低推理成本，达到了很好的平衡。

论文题目：
Training-Free Adaptive Diffusion with Bounded Difference Approximation Strategy
论文链接：
https://arxiv.org/abs/2410.09873
代码链接：
https://github.com/UniModal4Reasoning/AdaptiveDiffusion
项目主页：
https://jiakangyuan.github.io/AdaptiveDiffusion-project-page/

一、背景
近年来，扩散模型在高质量图像和视频合成领域崭露头角，展现出强大的生成能力。从艺术创作到数据增强，扩散模型的应用范围不断扩大。然而，传统的去噪技术需要逐步预测噪声，计算量大，导致显著的延迟。

为了解决这一瓶颈，研究者们提出了多种扩散加速方法，主要集中在减少采样步骤、优化模型架构和并行化生成等方式。然而，这些策略大多针对所有prompt采用固定的加速模式。

二、动机：提示词自适应（Prompt-adaptive）加速

图一：不同的潜变量更新策略：(a) 原始 SDXL 执行 50 步的噪声预测与对应的50步潜变量更新得到的结果。(b) AdaptiveDiffusion 根据三阶估计器跳过 25 步噪声预测，而在全部 50 步中都执行潜变量更新得到的结果。(c) SDXL 仅执行 25 步的噪声预测和对应的25步潜变量更新得到的结果。(d) SDXL 在原始 50 步中跳过其中 25 步的噪声预测和对应的潜变量更新得到的结果。

在本文实验中，作者首先发现在保留原有去噪步数的情况下减少噪声预测次数仍然可以生成与原始图像非常相似的生成效果，如图一所示。在此基础上，实验发现不同的提示词可能需要不同的噪声预测路径来达到与原始去噪过程相似或相同的生成效果。图二以 SDXL 模型为例，当输入两个不同的提示词时，为了在减少噪声预测次数的情况下最大程度保留原本生成图像的生成效果，Prompt 1 和 Prompt 2 所需的噪声预测路径呈现出不同的分布。当 Prompt 2 使用与 Prompt 1 相同的噪声预测路径时，其生成效果在视觉和量化指标上（LPIPS，PSNR）均有明显的改进。

图二：不同提示词存在潜在不同的最优跳步路径。

三、方法：AdaptiveDiffusion

基于上述观察，作者提出了AdaptiveDiffusion，一种可以根据不同输入提示词自适应加速生成过程的新加速模式。其核心思想是在去噪过程中，根据输入提示词自适应地减少噪声预测的步数，同时保持最终输出的质量以及与原图的相似度。

为了探索自适应的跳步准则，作者进一步实验发现噪声预测的冗余与潜变量的三阶差分分布显著相关。利用这一关系，作者设计了一种有效的噪声跳步策略来决定何时复用上一步中的噪声预测结果，何时进行更新噪声的计算。该方法使用三阶潜变量差分来评估每个时间步的噪声预测是否冗余，考虑了对输入prompt的依赖性，从而实现了 prompt-adaptive 的加速模式，该加速框架如图三所示。

图三：AdaptiveDiffusion整体加速框架。

3.1 跳步单元定义

如图一中所示，在给定总体去噪步数的情况下，对于每个时间步中的噪声预测和潜变量更新而言，噪声预测步数的减少所带来的影响显著小于潜变量更新次数所带来的影响。因此，不同于过去的加速算法选择减少去噪步数或减少每一步噪声预测中的计算量，该工作提出新的跳步策略：对于每个时间步而言，以跳过完整的噪声预测模型为跳步单元来探索每个时间步冗余性，而每一步中的潜变量更新均保留，从而保证充分去噪。

3.2 跳步误差估计

在给定上述跳步单元定义后，一种直观的想法是根据跳步误差来判断是否可以跳过当前步的噪声预测。对此，作者从理论和实验结果分析得出下述结论：连续跳任意步数后（以步为例），得到的去噪图像（或更新后的潜变量）相较于原始不跳步所生成的图像（或潜变量）而言，其潜变量的误差上界可以近似为过去步之间时间隐变量（timestep embedding）和潜变量（latent）一阶差分的范数的等价无穷小量，即潜变量的误差近似由过去 步之间的潜变量差异和时间步差异累计而成。因此，可以推断当过去连续若干个潜变量变化较小时，可以跳过当前的噪声预测，直接通过复用上一步的噪声来更新当前时间步的潜变量。

图四：不同变量不同阶数差分分布与最优跳步路径的相关性分析。

为了定量分析跳步策略和潜变量之间变化的关系，作者首先利用贪婪算法来近似最优跳步路径。跳步路径定义为由若干 0 / 1 元素组成的序列，其中第个元素为 1 表示第步不跳步，为 0 则表示跳步并复用上一步的噪声预测。对于给定跳步的总体目标，贪婪算法首先遍历搜索出跳一步的最优路径，再基于该路径遍历搜索出跳两步的最优路径，依此类推，逐渐遍历搜索出跳步的最优路径。其评判准则为最小化跳步后最终生成的图像和原始生成的图像之间的差异。

以贪婪算法得到的跳步路径近似全局最优的跳步路径，作者探索了不同变量不同阶数的差分分布与跳步路径之间的相关性。其结果如图四所示。图四(a)探索了噪声的一阶差分分布和最优跳步路径之间的关系，可以看出无明显的相关性。类似地，图四(b)中展示了潜变量的一阶和二阶差分分布，其中一阶差分分布也无明显的相关性，而二阶差分分布的变化趋势反映了一定的相关性。即，当二阶差分值减小时，对应当前时间步的噪声预测可以复用上一步的结果，当二阶差分值增大时，当前时间步的噪声预测需要更新。

然而，由于二阶差分的增量相对于二阶差分值来说非常小，因此很难在其中抽取出有效信号作为普遍的跳步准则。为此，图四(c)进一步探索了三阶潜变量差分分布和最优跳步路径的关系，可以发现三阶差分和最优跳步路径呈相似并且显著的波动趋势，尤其在早期去噪阶段。同时，考虑到早期潜变量的一阶差分数值较大，早期的跳步路径需要准确地评估，而这可以通过三阶差分来进行估计。（跳步策略和三阶差分之间的定量关系分析见论文附录）

3.3 跳步准则设计

基于上述实验观察和定量分析，作者提出了三阶差分估计器(third-order estimator)作为跳步准则。其表达式如下式所示。

其中，是一个指示函数，它以以及过去的潜变量作为输入，用来估计是否可以跳过下一步的噪声预测。如果返回 False，那么将会重复使用上一步的噪声来更新。表示在时间步的三阶潜变量差分，

其中，定义为和之间的差分()。是对的相对尺度进行阈值处理的超参。由于实际上描述了和之间的距离，因此作者提出使用相对于的差异来表明去噪过程的稳定性。图四(c)展示了（蓝色虚线）与最优跳步路径之间的强相关性。

3.4 有效性分析

为了验证所提出的三阶估计器的有效性，作者将三阶估计器所得路径与通过贪婪算法搜索得到的最优跳步路径进行对比，如图五(a)所示。可以看出，三阶估计器估计的路径与最优跳步路径的分布大致相似。图五(b)中展示了跳步所导致的累积误差。可以发现，在连续跳过噪声预测后，误差开始迅速增加。因此，作者引入另一个超参，即连续跳步的最大步数，来控制累积误差。

此外，论文分析了估计路径与最优路径之间的统计相关性，以测试所设计的准则是否与最优跳步准则显著相关。图五(c)展示了在不同跳步步数下的统计量和值。结果表明，当跳步步数适中时，估计的跳步路径与最优跳步路径显著相关。

图五：三阶估计器的有效性分析。

四、实验

4.1 实验设置

测试任务：Text-to-image, image-to-video, text-to-video, conditional / unconditional image generation；
测试模型：SD-1-5, SDXL, I2VGen-XL, ModelScopeT2V, LDM-4；
测试采样器：DDIM, DPM-Solver++, Euler；
基准数据集：COCO2017, ImageNet-256x256, AIGCBench, MSR-VTT, CIFAR10, LSUN；
评价指标：PSNR, LPIPS, FID, FVD, MACs, Memory, Latency。

4.2 实验结果

图六：COCO2017上T2I任务的加速结果比较。

图七：ImageNet-256x256上加速结果比较。

图八：视频生成数据集上I2V和T2V任务的加速效果比较。

图九：超参敏感性分析。

4.3 可视化结果

图十：左边三列为SDXL在COCO2017上的生成样本比较，右边三列为SD-1-5在COCO2017上的生成样本比较。

图十一：I2VGen-XL在AIGCBench上的视频生成样本比较。

图十二：不同跳步步数下最优跳步路径和估计得到的跳步路径比较。(a) 通过贪婪搜索算法在不同跳步目标下获得的跳步路径。(b) 通过三阶估计器在不同跳步阈值下获得的跳步路径。(c) 在COCO2017基准测试上，SDXL生成图像时噪声更新步骤的跳步次数的频率分布。

五、总结

在这篇论文中，作者探讨了无需训练的扩散加速方法，并提出了 AdaptiveDiffusion。该方式能够根据给定的prompt动态选择去噪路径。同时，作者进行了跳步策略的误差分析，并进一步提出使用三阶估计器来表明计算冗余。大量广泛的实验结果显示该方法在保证高图像质量的同时有效降低了推理成本，达到了良好的平衡效果。

llustration From IconScout By Kawalan Studio

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650514797&idx=1&sn=a83a6b6791795b0e45f97f8329fdeefe

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

ICLR 2024 | BioBridge：通过知识图谱桥接生物医学基础模型

将门月报 | 格灵深瞳携手北京铁路局、文远知行与Uber达成战略合作、帷幄与华为云建立战略合作伙伴关系......

清华、北大等发布Self-Play强化学习最新综述

ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

Talk预告｜慕尼黑工业大学翟光耀：SG-Bot - 基于场景图生成式模型的机械臂操作和物体重排

300篇文献！大模型走向物理世界：TeleAI发布大模型驱动的具身智能综述

Talk预告｜北京航空航天大学阮受炜：探索视觉感知的3D视角鲁棒性

ECCV 2024 | EchoScene：通过场景图扩散生成3D室内场景

一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

一、背景近年来，扩散模型在高质量图像和视频合成领域崭露头角，展现出强大的生成能力。从艺术创作到数据增强，扩散模型的应用范围不断扩大。然而，传统的去噪技术需要逐步预测噪声，计算量大，导致显著的延迟。

图二：不同提示词存在潜在不同的最优跳步路径。

三、方法：AdaptiveDiffusion

图三：AdaptiveDiffusion整体加速框架。

3.1 跳步单元定义

3.2 跳步误差估计

图四：不同变量不同阶数差分分布与最优跳步路径的相关性分析。

3.3 跳步准则设计

3.4 有效性分析

图五：三阶估计器的有效性分析。

四、实验

4.1 实验设置

4.2 实验结果

图六：COCO2017上T2I任务的加速结果比较。

图七：ImageNet-256x256上加速结果比较。

图八：视频生成数据集上I2V和T2V任务的加速效果比较。

图九：超参敏感性分析。

4.3 可视化结果

图十：左边三列为SDXL在COCO2017上的生成样本比较，右边三列为SD-1-5在COCO2017上的生成样本比较。

图十一：I2VGen-XL在AIGCBench上的视频生成样本比较。

一、背景
近年来，扩散模型在高质量图像和视频合成领域崭露头角，展现出强大的生成能力。从艺术创作到数据增强，扩散模型的应用范围不断扩大。然而，传统的去噪技术需要逐步预测噪声，计算量大，导致显著的延迟。