2B参数搞定高质量视频!北大&快手携手打造Pyramid Flow

2024-10-12 13:48   北京  


前沿科技速递🚀


近日,北京大学、快手和北京邮电大学联合推出了Pyramid Flow,一个全新的开源视频生成模型,为视频创作者带来了高效生成高质量短视频的革命性工具。作为一种基于流匹配算法的自回归视频生成模型,Pyramid Flow不仅在性能上表现出色,还大幅降低了训练成本,推动了AI视频生成技术的进一步民用化。


来源:传神社区
01 模型简介
Pyramid Flow的设计注重简洁与高效,它通过金字塔流匹配算法与自回归生成机制,减少了传统视频生成模型中的计算冗余,核心特点包括:
  • 仅2B参数:模型采用极简参数配置,仅需2B(20亿)参数即可生成高质量的10秒视频。
  • 单一Diffusion Transformer:不同于传统多模型架构,Pyramid Flow使用单一的Diffusion Transformer(DiT)进行统一的端到端训练,避免了多阶段模型的独立优化问题。
  • 空间与时间金字塔结合:通过将视频生成过程划分为空间和时间金字塔,模型在低分辨率上处理早期步骤,并在最后阶段生成高分辨率的结果,大幅提高训练效率。
这一设计保证了模型的简洁性和扩展性,不仅减少了训练时间,还能生成分辨率高达768p的流畅视频,完美平衡了模型性能与计算资源的需求。

02 技术亮点
  • 高效的自回归生成:Pyramid Flow采用了自回归生成方式,即基于前一帧生成后一帧。这种方式能够保证视频内容的时间一致性,使生成的视频流畅自然,并且支持灵活长度的视频生成。
  • 金字塔流匹配算法:该模型的核心创新在于通过金字塔式的流匹配算法来减少冗余计算。视频生成的早期步骤在较低分辨率上进行,而只有最后阶段才使用全分辨率。这种方法显著减少了训练过程中需要处理的数据量和计算量。
  • 多功能性:Pyramid Flow不仅支持从文本到视频的生成,还能够将静态图像转换为动态视频(图像到视频)。这一功能为创作者提供了更多创作自由,能够通过简单的文本提示实现复杂的视觉创意。
  • 训练效率的提升:与传统的视频生成模型相比,Pyramid Flow的训练效率有了显著提高。其统一的流匹配目标将不同分辨率的金字塔阶段整合到一个模型中,实现了更快的训练速度和更优的生成效果。


03 卓越性能

在实验中,Pyramid Flow不仅在生成质量上表现出色,还大大提高了训练效率。通过在VBenchEvalCrafter等基准测试中进行评估,Pyramid Flow的表现优于多种基于公共数据训练的视频生成模型,尤其在视频的流畅度和质量评分上处于领先地位。例如,Pyramid Flow在VBench的质量评分为84.74,超过了许多商业竞争对手

04 实例展示

Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls

Extreme close-up of chicken and green pepper kebabs grilling on a barbeque with flames. Shallow focus and light smoke. vivid colours

A drone camera circles around a beautiful historic church built on a rocky outcropping along the Amalfi Coast, the view showcases historic and magnificent architectural details and tiered pathways and patios

05 模型下载

传神社区:
https://opencsg.com/models/rain1011/pyramid-flow-sd3
huggingface:
https://huggingface.co/rain1011/pyramid-flow-sd3





欢迎加入传神社区



•贡献代码,与我们一同共建更好的OpenCSG


•Github主页

欢迎🌟:https://github.com/OpenCSGs


•Huggingface主页

欢迎下载:https://huggingface.co/opencsg


•加入我们的用户交流群,分享经验



扫描上方二维码添加传神小助手






“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。


关注OpenCSG

加入传神社区



传神社区
该账号是开放传神(OpenCSG)分享大模型的技术、见解、传神开放社区等方面的内容!
 最新文章