前沿科技速递🚀
近年来,随着数字媒体中视频内容的需求急剧增加,自动化视频生成技术迎来了快速发展。Allegro作为一种高质量、时间一致性强的商用视频生成模型,在众多开源模型和商用系统中表现优异。今天,让我们一起走进Allegro的世界,探究其核心技术与创新之处。
时长和分辨率筛选:确保视频片段符合基本的清晰度要求,筛选掉低于360p分辨率的图像或短于2秒的视频,以保持视觉质量和足够的训练内容。 场景分割:利用PySceneDetect等工具,将视频划分为单一场景的片段,保留适当时长的视频片段以减少不连续性。 低层次视觉指标筛选:评估视频的亮度、清晰度、语义一致性和运动幅度,确保每个片段在视觉质量和动态表现上都具备较高标准。 美学筛选:应用LAION Aesthetic Predictor工具,剔除低美感分数的数据,进一步提升训练样本的视觉吸引力。 内容无关元素过滤:检测并去除视频中的水印、黑边和文字等干扰因素,优化视频生成的内容一致性。 粗粒度标注:对剩余数据进行初步标注,为图像和视频提供全局语义信息,并为后续步骤提供输入。 CLIP相似度筛选:通过计算CLIP模型中视觉数据和文本描述的余弦相似度,确保样本与描述语义高度一致,进一步提升标注的准确性。
VideoVAE:Allegro的VideoVAE基于现有图像VAE架构,并在空间维度上增加了1D时序卷积层和多个3D卷积层,增强了模型的时间压缩能力。编码器通过对视频帧进行空间和时间压缩,将高分辨率的视频编码为低维表示,从而提升了模型的处理效率和视觉效果。 VideoDiT:VideoDiT的设计在VideoVAE编码后的潜在空间内进行视频生成。其架构包括文本编码器、视频变换网络和多个扩散Transformer模块。文本编码器采用T5架构生成文本嵌入,引导视频生成的语义。视频变换网络则通过扩散Transformer块,在空间和时间维度上建模视频片段,确保生成的视频具有高质量的视觉一致性和动态表现。
多阶段训练策略
文本到图像预训练:首先利用大规模图像数据进行预训练,建立文本与图像之间的映射关系,使模型学习基础的视觉特征。 低分辨率视频预训练:在低分辨率的视频数据上进一步训练,提升模型的动态生成能力,通过构建视觉的连续性让模型逐渐适应视频生成。 高分辨率视频微调训练:在最终阶段,使用高分辨率视频数据对模型进行微调,使其在处理复杂场景时仍能生成高质量的视觉效果。该阶段不仅关注图像质量,还重点关注运动自然度、细节保留和一致性。
03 卓越性能
Allegro的性能在视频生成评测平台VBench上进行了全面的量化评估,评测覆盖了946个文本提示,以确保结果的代表性和可靠性。Allegro在视频-文本相关性、视觉质量、主体一致性和背景一致性等关键指标上均表现优异。具体结果显示,Allegro的总得分在所有开源模型中排名最高,仅次于顶尖的商用模型Kling和Hailuo。这些结果证明了Allegro在生成与输入文本高度匹配且视觉连贯的视频方面的卓越能力。
为了全面评估视频生成的实际视觉体验,Allegro团队进行了主观用户研究,选取了涵盖多种场景(包括人物、动物、自然景观等)的46个文本输入。用户在视频-文本相关性、视觉美学、运动自然度和动态幅度等六个维度上对生成视频进行评分。结果显示,Allegro在所有六个维度上均优于现有的开源模型,尤其在视频-文本相关性和画面美学方面获得了用户的高度评价。
04 模型下载
欢迎加入传神社区
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https://github.com/OpenCSGs
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
扫描上方二维码添加传神小助手
“ 关于OpenCSG
关注OpenCSG
加入传神社区