中信建投 | 免训练加速DiT,Meta提出自适应缓存新方法

财富   2024-11-11 12:34   北京  



重要提示:通过本订阅号发布的观点和信息仅供中信建投证券股份有限公司(下称“中信建投”)客户中符合《证券期货投资者适当性管理办法》规定的机构类专业投资者参考。因本订阅号暂时无法设置访问限制,若您并非中信建投客户中的机构类专业投资者,为控制投资风险,请您请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。对由此给您造成的不便表示诚挚歉意,感谢您的理解与配合!

|于芳博 辛侠平

AdaCache是Meta针对DiT模型提出的一种高效加速技术,它通过动态分配缓存资源,根据视频内容的差异优化计算需求,无需额外训练即可显著提升图像和视频生成的效率。该方法将DiT的扩散过程细分为多个步骤,利用残差计算和距离度量智能判断当前表示与缓存的差异,决定是否复用缓存以节省计算资源。同时,引入的运动正则化(MoReg)还能根据视频中的运动内容智能调整计算分配。实验证明,AdaCache在保持高质量生成的同时,实现了显著的加速效果,为图像和视频生成应用提供了有力支持。

Meta提出了一种新方法AdaCache,能够加速DiT模型,而且无需额外训练。DiT(Diffusion Transformers)结合了扩散模型和Transformer架构的优势,通过模拟从噪声到数据的扩散过程,能够生成高质量图像和视频。不过DiT并非完美无缺,自OpenAI发布Sora以来(DiT因被视为Sora背后的技术基础之一而广受关注),人们一直尝试改进它。
Meta团队在研究中发现,有些视频在达到合理质量时所需的去噪步骤比其他视频少。他们展示了基于Open-Sora的不同视频序列在不同去噪步骤下的稳定性和质量变化。通过逐步减少去噪步骤,他们发现每个视频序列的 “中断点”(即质量开始显著下降的步骤数量)是不同的,右侧直方图也显示了在不同步骤中特征变化的幅度。这启发了团队,“并非所有视频都同等重要”。换句话说,针对每个视频都可以有不同的缓存和计算分配,以此节约资源。
于是针对缓存,Meta推出了一种名为AdaCache(自适应缓存)的新方法,核心是:每次生成视频时,AdaCache会按视频的特定内容分配缓存资源,将不同视频的缓存需求动态调整到最优。
左侧部分,AdaCache将DiT的原始扩散过程分为多个步骤,并对每一步进行残差计算,以生成新的表示。这些新的表示会在后续步骤中被重复使用,而不需要每次都重新计算,从而节省大量计算资源。过程中,研究使用一个距离度量(ct)来判断当前表示和之前缓存的表示之间的变化幅度。如果变化较小,就可以直接使用缓存,节省计算量;如果变化较大,则需要重新计算。
右侧部分,是DiT内部的计算过程,可以看到空间-时间注意力(STA)、交叉注意力(CA)和多层感知器(MLP)三个模块。其中每一步生成的新表示(如ft+k和ft)会使用缓存中的残差进行更新,从而减少重复计算的次数。总之一句话,这种策略使得计算资源能够根据视频内容的复杂性和变化率动态分配。
此外,为了进一步改进AdaCache,团队还引入运动正则化(MoReg)来控制计算分配。团队发现,视频中的运动内容对于确定最佳的去噪步骤数量至关重要,通常高运动内容需要更多去噪步骤来保证生成质量。
基于此,MoReg的核心思想是:对于运动内容较多的视频,应该减少缓存的使用,从而允许在更多的步骤中进行重新计算。由于需要在视频生成过程中实时估计运动,MoReg不能依赖于传统的、计算密集型的像素空间运动估计算法。
最后,团队使用了VBench基准测试来评估AdaCache在不同视频生成任务中的性能。其中VBench提供了一系列的质量指标,包括峰值信噪比(PSNR)、结构相似性(SSIM)和感知图像质量指标(LPIPS)。同时,还测量了推理延迟(Latency)和计算复杂度(FLOPs)。测试对象包括了AdaCache的多个变体,包括慢速(slow)、快速(fast)和带有MoReg的版本。结果显示,fast变体提供了更高的加速比,而slow变体则提供了更高的生成质量。与此同时,与其他无训练加速方法(如∆-DiT、T-GATE和PAB)相比,在生成质量相当或更高的情况下,AdaCache都提供了显著的加速效果。另外,随着GPU的数量增加,AdaCache的加速比也相应增加,这表明它能够有效地利用并行计算资源,并减少GPU之间的通信开销。
北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;公司生产和交付延期,导致收入及增速不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;人工智能技术进步不及预期;汽车与工业智能化进展不及预期。

于芳博:中信建投人工智能组首席分析师,北京大学空间物理学学士、硕士,2019年7月加入中信建投,主要覆盖人工智能等方向,下游重点包括智能汽车、CPU/GPU/FPGA/ASIC、EDA和工业软件等方向。

辛侠平:中信建投证券人工智能行业分析师,中央财经大学硕士,曾从事通信行业研究工作,2022年加入中信建投人工智能团队,重点覆盖人工智能、AI芯片、智能驾驶等领域。

证券研究报告名称:《免训练加速DiT,Meta提出自适应缓存新方法

对外发布时间:2024年11月10日 

报告发布机构:中信建投证券股份有限公司 

本报告分析师:

于芳博 SAC 编号:S1440522030001
辛侠平 SAC 编号:S1440524070006



近期热门视频


更多精彩视频,尽在中信建投证券研究视频号,欢迎关注~

免责声明

本订阅号(微信号:中信建投证券研究)为中信建投证券股份有限公司(下称“中信建投”)研究发展部依法设立、独立运营的唯一官方订阅号。

本订阅号所载内容仅面向符合《证券期货投资者适当性管理办法》规定的机构类专业投资者。中信建投不因任何订阅或接收本订阅号内容的行为而将订阅人视为中信建投的客户。

本订阅号不是中信建投研究报告的发布平台,所载内容均来自于中信建投已正式发布的研究报告或对报告进行的跟踪与解读,订阅者若使用所载资料,有可能会因缺乏对完整报告的了解而对其中关键假设、评级、目标价等内容产生误解。提请订阅者参阅中信建投已发布的完整证券研究报告,仔细阅读其所附各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。

中信建投对本订阅号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。本订阅号中资料、意见等仅代表来源证券研究报告发布当日的判断,相关研究观点可依据中信建投后续发布的证券研究报告在不发布通知的情形下作出更改。中信建投的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本订阅号中资料意见不一致的市场评论和/或观点。

本订阅号发布的内容并非投资决策服务,在任何情形下都不构成对接收本订阅号内容受众的任何投资建议。订阅者应当充分了解各类投资风险,根据自身情况自主做出投资决策并自行承担投资风险。订阅者根据本订阅号内容做出的任何决策与中信建投或相关作者无关。

本订阅号发布的内容仅为中信建投所有。未经中信建投事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本订阅号发布的全部或部分内容,亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本订阅号发布的全部或部分内容。版权所有,违者必究。

中信建投证券研究
发布中信建投证券研究发展部研究成果,沟通证券研究信息
 最新文章