从文本到动态视频:Allegro模型让创意更轻松

2024-11-06 16:17   上海  


前沿科技速递🚀


近年来,随着数字媒体中视频内容的需求急剧增加,自动化视频生成技术迎来了快速发展。Allegro作为一种高质量、时间一致性强的商用视频生成模型,在众多开源模型和商用系统中表现优异。今天,让我们一起走进Allegro的世界,探究其核心技术与创新之处。


来源:传神社区
01 模型简介
Allegro是一款商用级视频生成模型,由Rhymes AI团队开发,专为高质量、时空一致性的视频生成而设计。该模型基于先进的扩展型变分自编码器(VAE)和扩散Transformer(DiT)架构,能够从简单的文本描述生成丰富多样、动态连贯的视频内容。与传统的开源模型不同,Allegro在数据处理、架构设计和多阶段训练上进行了全面优化,确保了视频生成的高质量和高精度。
Allegro具备极高的视频-文本相关性和出色的细节表现,特别在用户研究和主观评价中获得了广泛的认可。模型不仅在开源模型中表现突出,且在多个维度上超越了大部分商用系统。Allegro以其卓越的生成效果,为数字内容创作者带来了灵活且高效的视频生成新工具。
02 核心创新
数据筛选与标注
在视频生成领域,高质量和多样化的数据是生成优质视频的关键。Allegro的数据处理流程严谨且复杂,包含多达七个步骤的过滤流程,以确保训练数据的高标准。整个流程从数据源筛选开始,通过一系列步骤提取和标注高质量的视频片段。具体流程包括:
  • 时长和分辨率筛选:确保视频片段符合基本的清晰度要求,筛选掉低于360p分辨率的图像或短于2秒的视频,以保持视觉质量和足够的训练内容。
  • 场景分割:利用PySceneDetect等工具,将视频划分为单一场景的片段,保留适当时长的视频片段以减少不连续性。
  • 低层次视觉指标筛选:评估视频的亮度、清晰度、语义一致性和运动幅度,确保每个片段在视觉质量和动态表现上都具备较高标准。
  • 美学筛选:应用LAION Aesthetic Predictor工具,剔除低美感分数的数据,进一步提升训练样本的视觉吸引力。
  • 内容无关元素过滤:检测并去除视频中的水印、黑边和文字等干扰因素,优化视频生成的内容一致性。
  • 粗粒度标注:对剩余数据进行初步标注,为图像和视频提供全局语义信息,并为后续步骤提供输入。
  • CLIP相似度筛选:通过计算CLIP模型中视觉数据和文本描述的余弦相似度,确保样本与描述语义高度一致,进一步提升标注的准确性。
最终生成的数据集包含1.06亿图像和4800万视频,具有高度相关的文本标签,为Allegro模型提供了丰富而可靠的训练数据。

模型架构与改进
Allegro的核心架构基于扩展的变分自编码器(VideoVAE)和扩散Transformer(VideoDiT)。这种架构不仅提升了视频生成的时空一致性,还显著提高了生成效率和分辨率:
  • VideoVAE:Allegro的VideoVAE基于现有图像VAE架构,并在空间维度上增加了1D时序卷积层和多个3D卷积层,增强了模型的时间压缩能力。编码器通过对视频帧进行空间和时间压缩,将高分辨率的视频编码为低维表示,从而提升了模型的处理效率和视觉效果。
  • VideoDiT:VideoDiT的设计在VideoVAE编码后的潜在空间内进行视频生成。其架构包括文本编码器、视频变换网络和多个扩散Transformer模块。文本编码器采用T5架构生成文本嵌入,引导视频生成的语义。视频变换网络则通过扩散Transformer块,在空间和时间维度上建模视频片段,确保生成的视频具有高质量的视觉一致性和动态表现。

多阶段训练策略

为了最大化模型的生成效果,Allegro采用了渐进式的三阶段训练策略,使得模型在逐步掌握从图像到视频的动态生成能力的同时,能够在复杂场景中保持高质量的输出:
  • 文本到图像预训练:首先利用大规模图像数据进行预训练,建立文本与图像之间的映射关系,使模型学习基础的视觉特征。
  • 低分辨率视频预训练:在低分辨率的视频数据上进一步训练,提升模型的动态生成能力,通过构建视觉的连续性让模型逐渐适应视频生成。
  • 高分辨率视频微调训练:在最终阶段,使用高分辨率视频数据对模型进行微调,使其在处理复杂场景时仍能生成高质量的视觉效果。该阶段不仅关注图像质量,还重点关注运动自然度、细节保留和一致性。

03 卓越性能

Allegro模型在多维度的性能测试中展现了出色的表现,超越了多数开源模型,并在多个关键维度上接近或超过顶级商用模型。这些评测结果不仅表明Allegro在技术上的领先地位,还显示出其在实际应用中的可靠性和灵活性。
量化评估
Allegro的性能在视频生成评测平台VBench上进行了全面的量化评估,评测覆盖了946个文本提示,以确保结果的代表性和可靠性。Allegro在视频-文本相关性、视觉质量、主体一致性和背景一致性等关键指标上均表现优异。具体结果显示,Allegro的总得分在所有开源模型中排名最高,仅次于顶尖的商用模型Kling和Hailuo。这些结果证明了Allegro在生成与输入文本高度匹配且视觉连贯的视频方面的卓越能力。

主观用户研究
为了全面评估视频生成的实际视觉体验,Allegro团队进行了主观用户研究,选取了涵盖多种场景(包括人物、动物、自然景观等)的46个文本输入。用户在视频-文本相关性、视觉美学、运动自然度和动态幅度等六个维度上对生成视频进行评分。结果显示,Allegro在所有六个维度上均优于现有的开源模型,尤其在视频-文本相关性和画面美学方面获得了用户的高度评价。

在用户主观评价的对比中,Allegro在视频生成的整体质量上与商用模型如Gen-3、Kling和Hailuo相媲美,尤其在视频-文本相关性、运动自然度等方面表现优越。在实际应用中,这意味着Allegro不仅能够在视觉质量上满足高标准需求,还能通过精准的文本对齐和高度的视觉一致性满足各种内容创作的需求,尤其适合需要高水准生成效果的商业场景应用。
总的来说,Allegro在多维度的评测中表现出强大的生成能力,展现了其作为商用级视频生成模型的卓越性能和广泛应用潜力。

04 模型下载

传神社区:
https://opencsg.com/models/rhymes-ai/Allegro
huggingface:
https://huggingface.co/rhymes-ai/Allegro





欢迎加入传神社区



•贡献代码,与我们一同共建更好的OpenCSG


•Github主页

欢迎🌟:https://github.com/OpenCSGs


•Huggingface主页

欢迎下载:https://huggingface.co/opencsg


•加入我们的用户交流群,分享经验



扫描上方二维码添加传神小助手






“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。


关注OpenCSG

加入传神社区



传神社区
该账号是开放传神(OpenCSG)分享大模型的技术、见解、传神开放社区等方面的内容!
 最新文章