Ruyi:7B图生视频模型
🌹大家好!欢迎来到破狼公众号。感谢大家的支持与鼓励。在AIGC探索道路上,我将与你一路同行。喜欢就星标关注破狼公众号或文末扫码加入交流群 !
Ruyi视频模型简介
今天文章主题介绍一款名为Ruyi的AI视频模型框架。这是一家智能驾驶车企:图森未来发布的一款图生视频的开源大模型,具有中国风名字,叫 Ruyi(如意)。该框架是一款由CreateAI开发的开源图生视频模型,能够生成从360p到720p不同分辨率的视频帧,支持多种宽高比,并最长可达5秒。增强的运动和相机控制功能,并且支持首尾帧控制,为视频生成提供了更大的灵活性和创造力。在消费级显卡RTX 3090 或 RTX 4090上可以无精度损失地生成 512 分辨率、120 帧(768分辨率、~72帧)的视频。并且Ruyi视频模型以宽松的 Apache 2.0 许可证 发布该模型,意味着可商用。
• Github:https://github.com/IamCreateAI/Ruyi-Models/tree/main
• huggface:https://huggingface.co/IamCreateAI/Ruyi-Mini-7B/tree/main
Ruyi模型架构
Ruyi-Mini-7B是一个约有7.1亿参数的先进图像到视频模型。模型架构修改自EasyAnimate V4模型,其transformer模块继承自HunyuanDiT。它包含三个关键组件:
• Casual VAE模块:处理视频压缩和解压缩。它将空间分辨率降低到1/8,时间分辨率降低到1/4,每个潜在像素在压缩后以16通道BF16表示。 • Diffusion Transformer模块:使用3D全注意力生成压缩视频数据,包括: • 2D Normalized-RoPE用于空间维度; • Sin-cos位置嵌入用于时间维度; • DDPM(Denoising Diffusion Probabilistic Models,去噪扩散概率模型)用于模型训练。 • Ruyi还利用CLIP模型从输入图像中提取语义特征,以指导整个视频生成过程。CLIP特征通过交叉注意力引入transformer。
训练过程分为四个阶段:
1. 第一阶段:从零开始预训练,使用约2亿视频剪辑和约3000万图像,分辨率为256,批量大小为4096,迭代350,000次以实现完全收敛。 2. 第二阶段:使用约6000万视频剪辑进行多尺度分辨率(384-512)的微调,批量大小为1024,迭代60,000次。 3. 第三阶段:使用约2000万视频剪辑和约800万图像进行高质量微调,分辨率为384-1024,动态批量大小基于内存,迭代10,000次。 4. 第四阶段:使用约1000万精选高质量视频剪辑进行最终视频训练,批量大小为1024,迭代约10,000次。
Ruyi硬件要求
Ruyi的VRAM成本取决于视频的分辨率和时长。以下是官方给出的一些典型视频大小的成本。在单个A100上测试。
另外,对于24GB VRAM显卡,如RTX4090提供了low_gpu_memory_mode
,在该模式下模型可以生成更长时间的720x1280x120视频。
案例演示
更多演示案例参见主页:https://github.com/IamCreateAI/Ruyi-Models/blob/main/README_CN.md
图生视频
镜头控制
运动幅度
Ruyi图生视频ComfyUI体验
社区已有ComfyUI-Ruyi支持Ruyi在ComfyUI中的体验。仅需通过插件管理器搜索Ruyi并安装该插件即可。
• ComfyUI-Ruyi插件:https://github.com/IamCreateAI/Ruyi-Models
• ComfyUI-VideoHelperSuite插件:同时还需安装ComfyUI-VideoHelperSuite插件。下载地址:https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite
• Ruyi-Mini-7B模型:首次运行会自动下载模型并放置 /ComfyUI/models/Ruyi目录下(文末可网盘获取)。下载地址:https://huggingface.co/IamCreateAI/Ruyi-Mini-7B/tree/main
Flux文生图工作流
• F.1-绮梦流光-水湄凝香:
https://www.liblib.art/modelinfo/134c6dd95aef48e98a22b24e003e026b
• 工作流-Flux文|图生图+LORA+提示反推一键切换工作流:
https://www.liblib.art/modelinfo/782aacd70f604da39e83368c696a02a8
Ruyi图生视频工作流
Ruyi图生视频工作流已上传LIBLIB平台:
https://www.liblib.art/modelinfo/226c3696679540c6b25a8a3873284816?versionUuid=fc434721a3764b93aed3b1f812f09f9b
注意:
• 对于输入图需要注意避免3:4和4:5分辨率图,否则容易出现边缘竖线条样式。具体参见问题:https://github.com/IamCreateAI/Ruyi-Models/issues/1
• 对于512基础分辨率,120帧5秒视频24G显存大约耗时需要26分钟。
• 核心节点为Sampler for Image to Video。详细参数参见:https://github.com/IamCreateAI/Ruyi-Models/blob/main/comfyui/README_CN.md#sampler-for-image-to-video
• start_img: 首帧图片。end_img: 尾帧图片,可选输入。 • video_length: 视频长度,必须能被 8 整除,最大支持 120 帧。 • base_resolution: 视频分辨率,模型将根据输入图片的长宽比自动选择最接近的输出视频长宽。512 表示生成的视频像素数接近 512 * 512。768 表示生成的视频像素数接近 768 * 768。 • motion: 控制视频主体的运动幅度。 1 基本不运动,适用于静态场景。 2 正常运动幅度,适用于谈话、转头等常见场合。3 运动幅度较大,可能出现转身、走动等情况。4 运动幅度非常大,可能出现视频主体离开画面的情况。Auto 表示模型自动判断运动幅度大小。 • camera_direction: 镜头运动。Static 表示静止镜头。 Left 表示镜头向左移动。Right 表示镜头向右移动。Up 表示镜头向上移动。Down 表示镜头向下移动。Auto 表示模型自动判断镜头运动方向。 • GPU_memory_mode: normal_mode 是默认模式,使用显存较多,生成速度较快。low_memory_mode 是低显存模式,能大幅降低显存用量,但严重影响生成速度。 • GPU_offload_steps: 用于优化显存占用,通过将部分临时变量从显存移动到内存而实现,会增加内存的占用并降低生成速度。0 表示不优化。1 - 10,1 显存占用最小,生成速度最慢;10 显存占用最多(少于不优化情况),生成速度最快。通常情况下,24G 显存可以使用 7 生成 512 分辨率,120 帧视频。
01. 正常运动幅度+左边镜头
02.大运动幅度+向上镜头
背后未知名的穿帮镜头物体掠过。缺少提示引导内容可控性。
03.首尾帧+向上镜头
首尾帧的可控性明显增强。
04.首尾帧+向右镜头
有相对明显的右镜头视角。
05.向右镜头
如果觉得文章不错,就请赞、在看与转发三连