即插即用！加速扩散Transformer！Meta提出自适应缓存新方法，视频生成加快2.6倍！

科技 2024-11-09 00:00 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

一水发自凹非寺
转载自：量子位（QbitAI）

现在，视频生成模型无需训练即可加速了？！

Meta提出了一种新方法AdaCache，能够加速DiT模型，而且是无需额外训练的那种（即插即用）。

话不多说，先来感受一波加速feel（最右）：

可以看到，与其他方法相比，AdaCache生成的视频质量几乎无异，而生成速度却提升了2.61倍。

据了解，AdaCache灵感源于“并非所有视频都同等重要”。

啥意思？？原来团队发现：

有些视频在达到合理质量时所需的去噪步骤比其他视频少

因此，团队在加速DiT时主打一个“按需分配，动态调整”，分别提出基于内容的缓存调度和运动正则化（MoReg）来控制缓存及计算分配。

目前这项技术已在GitHub开源，单个A100（80G）GPU 上就能运行，网友们直呼：

看起来速度提升了2~4倍，Meta让开源AI再次伟大！

“并非所有视频都同等重要”

下面我们具体介绍下这项研究。

先说结论，以Open-Sora是否加持AdaCache为例，使用AdaCache能将视频生成速度提升4.7倍——

质量几乎相同的情况下，前后速度从419.60s降低到89.53s。

具体如何实现的呢？？

众所周知，DiT（Diffusion Transformers）结合了扩散模型和Transformer架构的优势，通过模拟从噪声到数据的扩散过程，能够生成高质量图像和视频。

不过DiT并非完美无缺，自OpenAI发布Sora以来（DiT因被视为Sora背后的技术基础之一而广受关注），人们一直尝试改进它。

这不，Meta的这项研究就瞄准了DiT为人熟知的痛点：

依赖更大的模型和计算密集型的注意力机制，导致推理速度变慢。

展开来说——

首先，团队在研究中发现，有些视频在达到合理质量时所需的去噪步骤比其他视频少。

他们展示了基于Open-Sora的不同视频序列在不同去噪步骤下的稳定性和质量变化。

通过逐步减少去噪步骤，他们发现每个视频序列的 “中断点”（即质量开始显著下降的步骤数量）是不同的，右侧直方图也显示了在不同步骤中特征变化的幅度。

这启发了团队，“并非所有视频都同等重要”。

换句话说，针对每个视频都可以有不同的缓存和计算分配，以此节约资源。

于是针对缓存，Meta推出了一种名为AdaCache（自适应缓存）的新方法，核心是：

每次生成视频时，AdaCache会按视频的特定内容分配缓存资源，将不同视频的缓存需求动态调整到最优。

其架构如图所示，下面具体展开。

左侧部分，AdaCache将DiT的原始扩散过程分为多个步骤，并对每一步进行残差计算，以生成新的表示。

这些新的表示会在后续步骤中被重复使用，而不需要每次都重新计算，从而节省大量计算资源。

过程中，研究使用一个距离度量（ct）来判断当前表示和之前缓存的表示之间的变化幅度。

如果变化较小，就可以直接使用缓存，节省计算量；如果变化较大，则需要重新计算。

右侧部分，是DiT内部的计算过程，可以看到空间-时间注意力（STA）、交叉注意力（CA）和多层感知器（MLP）三个模块。

其中每一步生成的新表示（如f_t+k和f_t）会使用缓存中的残差进行更新，从而减少重复计算的次数。

总之一句话，这种策略使得计算资源能够根据视频内容的复杂性和变化率动态分配。

此外，为了进一步改进AdaCache，团队还引入运动正则化（MoReg）来控制计算分配。

通过考虑视频特定的运动信息来优化缓存策略

团队发现，视频中的运动内容对于确定最佳的去噪步骤数量至关重要，通常高运动内容需要更多去噪步骤来保证生成质量。

基于此，MoReg的核心思想是：

对于运动内容较多的视频，应该减少缓存的使用，从而允许在更多的步骤中进行重新计算。

由于需要在视频生成过程中实时估计运动，MoReg不能依赖于传统的、计算密集型的像素空间运动估计算法。

补充一下，这是一种用于视频编码中的技术，它通过比较相邻帧之间的像素差异来估计运动向量，从而实现视频的压缩。

因此，MoReg使用残差帧差异作为噪声潜在运动得分（noisy latent motion-score）的度量，其公式如下：

且为了进一步提高运动估计的准确性，MoReg引入了运动梯度（motion-gradient）的概念。

它可以作为一个更好的趋势估计，帮助在视频生成的早期阶段预测运动，并作为调整缓存策略的依据。

那么，采用AdaCache+MoReg的最终效果如何呢？

实验结果：优于其他免训练加速方法

最后，团队使用了VBench基准测试来评估AdaCache在不同视频生成任务中的性能。

其中VBench提供了一系列的质量指标，包括峰值信噪比（PSNR）、结构相似性（SSIM）和感知图像质量指标（LPIPS）。

同时，还测量了推理延迟（Latency）和计算复杂度（FLOPs）。

测试对象包括了AdaCache的多个变体，包括慢速（slow）、快速（fast）和带有MoReg的版本。

结果显示，fast变体提供了更高的加速比，而slow变体则提供了更高的生成质量。

与此同时，与其他无训练加速方法（如∆-DiT、T-GATE和PAB）相比，在生成质量相当或更高的情况下，AdaCache都提供了显著的加速效果。

另外，随着GPU的数量增加，AdaCache的加速比也相应增加，这表明它能够有效地利用并行计算资源，并减少GPU之间的通信开销。

更多实验细节欢迎查阅原论文。

论文：
https://arxiv.org/abs/2411.02397
项目主页：
https://adacache-dit.github.io/
GitHub：
https://github.com/AdaCache-DiT/AdaCache

参考链接：
[1]https://x.com/Marktechpost/status/1854229192650698897
[2]https://x.com/Meta/status/1842207712224157812

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247610704&idx=2&sn=b147908e9360ba15167d95569f9347f0

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

又一篇AI顶会！这个idea“简直杀疯了 ” ...

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

哈佛大学 & MIT 招收实习生

ICASSP 2025 投稿交流群成立！

最大ReID和目标跟踪微信群来了！

巨星陨落！北京大学发讣告

超越YOLOv8还不够！这些目标检测开源项目又上新了

顶刊TPAMI 2024！清华黄高团队提出：高效图像识别的统一动态网络

重磅！CVPR 2025、ICLR 2025和AAAI 2025投稿微信群成立！

快加入！最大的目标检测和图像分割微信群来了！

打破纪录！中国科学家让薛定谔的猫活了23分钟

这6个岗位，大厂抢疯了！！

NeurIPS 2024 | CMU提出RLT：加速视频Transformer新方法

中国团队斩获EMNLP 2024最佳论文奖！主办方：明年苏州见！

ICLR 2025 开始Rebuttal！AAAI 2025和CVPR 2025投稿微信群成立！

多模态和扩散模型微信群来了！

“16岁中学生获正高职称”，后续来了

月薪49k！字节跳动校招开奖！

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

CVPR 2025 正式截稿！ICLR 2025和AAAI 2025投稿微信群成立！

遥感和Mamba微信群成立！

已注销！985新校区，不建了

校长书记双院士！教育部副部长，任C9党委书记！

NeurIPS 2024 | 免训练！VL-SAM：开放式目标检测和实例分割

马斯克新官上任，再起诉OpenAI！称Ilya七年前就不放心奥特曼了

CVPR 2025 截稿！ICLR 2025和AAAI 2025投稿微信群成立！

长时间迟到、多次离席关闭摄像头…19位评审专家被处理！

导师放养，一个人偷偷发了顶会。。。

李飞飞团队新作：具身智能决策性能评价基准，o1-preview登顶！NeurIPS 2024

北大新作：让大模型来做peer-review结果会怎样？

CVPR 2025 即将截稿！ICLR 2025和CVPR 2025投稿微信群成立！

扩散模型和多模态微信群来了！

突发！中科院一区期刊eLife将被剥夺影响因子

残酷！中科院博士应聘某普通二本惨遭拒，开始思考人生。。。

周志华团队新作！打造更强的世界模型！WHALE来了！

NeurIPS'24 | Pcb-Merging：无需训练的多任务模型合并方案

ICLR 2025 分数出炉！ICLR 2025和CVPR 2025投稿微信群成立！

谷歌2024博士奖学金公布！KAN作者刘子鸣等数十位年轻华人学者入选

多校通知：大学教师，实行“坐班制”！

喜提 TPAMI 顶刊！

NeurIPS 2024 Oral | 量化和提升思维链的推理能力边界

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

ICLR 2025 出分了！ICLR 2025和CVPR 2025投稿微信群成立！

最大ReID和目标跟踪微信群来了！

211大学教授、博导，落马！

CV全新范式！LSTM在CV领域杀出一条血路！

GPT-5被曝不及预期！OpenAI员工：没什么科学突破了，接下来只需要工程

ECCV 2024 | VL4AD：让语义分割认识未知类别，无需额外数据和训练的OOD语义分割

CVPR 2025 和 ICLR 2025投稿微信群来了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

即插即用！加速扩散Transformer！Meta提出自适应缓存新方法，视频生成加快2.6倍！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

一水 发自 凹非寺转载自：量子位（QbitAI）