前沿科技速递🚀
近日,北京大学、快手和北京邮电大学联合推出了Pyramid Flow,一个全新的开源视频生成模型,为视频创作者带来了高效生成高质量短视频的革命性工具。作为一种基于流匹配算法的自回归视频生成模型,Pyramid Flow不仅在性能上表现出色,还大幅降低了训练成本,推动了AI视频生成技术的进一步民用化。
仅2B参数:模型采用极简参数配置,仅需2B(20亿)参数即可生成高质量的10秒视频。 单一Diffusion Transformer:不同于传统多模型架构,Pyramid Flow使用单一的Diffusion Transformer(DiT)进行统一的端到端训练,避免了多阶段模型的独立优化问题。 空间与时间金字塔结合:通过将视频生成过程划分为空间和时间金字塔,模型在低分辨率上处理早期步骤,并在最后阶段生成高分辨率的结果,大幅提高训练效率。
高效的自回归生成:Pyramid Flow采用了自回归生成方式,即基于前一帧生成后一帧。这种方式能够保证视频内容的时间一致性,使生成的视频流畅自然,并且支持灵活长度的视频生成。 金字塔流匹配算法:该模型的核心创新在于通过金字塔式的流匹配算法来减少冗余计算。视频生成的早期步骤在较低分辨率上进行,而只有最后阶段才使用全分辨率。这种方法显著减少了训练过程中需要处理的数据量和计算量。 多功能性:Pyramid Flow不仅支持从文本到视频的生成,还能够将静态图像转换为动态视频(图像到视频)。这一功能为创作者提供了更多创作自由,能够通过简单的文本提示实现复杂的视觉创意。 训练效率的提升:与传统的视频生成模型相比,Pyramid Flow的训练效率有了显著提高。其统一的流匹配目标将不同分辨率的金字塔阶段整合到一个模型中,实现了更快的训练速度和更优的生成效果。
03 卓越性能
在实验中,Pyramid Flow不仅在生成质量上表现出色,还大大提高了训练效率。通过在VBench和EvalCrafter等基准测试中进行评估,Pyramid Flow的表现优于多种基于公共数据训练的视频生成模型,尤其在视频的流畅度和质量评分上处于领先地位。例如,Pyramid Flow在VBench的质量评分为84.74,超过了许多商业竞争对手。
04 实例展示
Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls
Extreme close-up of chicken and green pepper kebabs grilling on a barbeque with flames. Shallow focus and light smoke. vivid colours
A drone camera circles around a beautiful historic church built on a rocky outcropping along the Amalfi Coast, the view showcases historic and magnificent architectural details and tiered pathways and patios
05 模型下载
欢迎加入传神社区
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https://github.com/OpenCSGs
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
扫描上方二维码添加传神小助手
“ 关于OpenCSG
关注OpenCSG
加入传神社区