[ComfyUI]如意:智驾企业下场搞开源视频模型!7B图生视频&首尾帧&任意宽高比&增强运动与相机控制

科技   2024-12-18 18:05   浙江  

Ruyi:7B图生视频模型

🌹大家好!欢迎来到破狼公众号。感谢大家的支持与鼓励。在AIGC探索道路上,我将与你一路同行。喜欢就星标关注破狼公众号或文末扫码加入交流群 !

Ruyi视频模型简介

今天文章主题介绍一款名为Ruyi的AI视频模型框架。这是一家智能驾驶车企:图森未来发布的一款图生视频的开源大模型,具有中国风名字,叫 Ruyi(如意)。该框架是一款由CreateAI开发的开源图生视频模型,能够生成从360p到720p不同分辨率的视频帧,支持多种宽高比,并最长可达5秒。增强的运动和相机控制功能,并且支持首尾帧控制,为视频生成提供了更大的灵活性和创造力。在消费级显卡RTX 3090 或 RTX 4090上可以无精度损失地生成 512 分辨率、120 帧(768分辨率、~72帧)的视频。并且Ruyi视频模型以宽松的 Apache 2.0 许可证 发布该模型,意味着可商用。

  • • Github:https://github.com/IamCreateAI/Ruyi-Models/tree/main

  • • huggface:https://huggingface.co/IamCreateAI/Ruyi-Mini-7B/tree/main

Ruyi模型架构

Ruyi-Mini-7B是一个约有7.1亿参数的先进图像到视频模型。模型架构修改自EasyAnimate V4模型,其transformer模块继承自HunyuanDiT。它包含三个关键组件:

  • • Casual VAE模块:处理视频压缩和解压缩。它将空间分辨率降低到1/8,时间分辨率降低到1/4,每个潜在像素在压缩后以16通道BF16表示。
  • • Diffusion Transformer模块:使用3D全注意力生成压缩视频数据,包括:
    • • 2D Normalized-RoPE用于空间维度;
    • • Sin-cos位置嵌入用于时间维度;
    • • DDPM(Denoising Diffusion Probabilistic Models,去噪扩散概率模型)用于模型训练。
  • • Ruyi还利用CLIP模型从输入图像中提取语义特征,以指导整个视频生成过程。CLIP特征通过交叉注意力引入transformer。

训练过程分为四个阶段:

  1. 1. 第一阶段:从零开始预训练,使用约2亿视频剪辑和约3000万图像,分辨率为256,批量大小为4096,迭代350,000次以实现完全收敛。
  2. 2. 第二阶段:使用约6000万视频剪辑进行多尺度分辨率(384-512)的微调,批量大小为1024,迭代60,000次。
  3. 3. 第三阶段:使用约2000万视频剪辑和约800万图像进行高质量微调,分辨率为384-1024,动态批量大小基于内存,迭代10,000次。
  4. 4. 第四阶段:使用约1000万精选高质量视频剪辑进行最终视频训练,批量大小为1024,迭代约10,000次。

Ruyi硬件要求

Ruyi的VRAM成本取决于视频的分辨率和时长。以下是官方给出的一些典型视频大小的成本。在单个A100上测试。

另外,对于24GB VRAM显卡,如RTX4090提供了low_gpu_memory_mode,在该模式下模型可以生成更长时间的720x1280x120视频

案例演示

更多演示案例参见主页:https://github.com/IamCreateAI/Ruyi-Models/blob/main/README_CN.md

图生视频

镜头控制

运动幅度

Ruyi图生视频ComfyUI体验

社区已有ComfyUI-Ruyi支持Ruyi在ComfyUI中的体验。仅需通过插件管理器搜索Ruyi并安装该插件即可。

  • • ComfyUI-Ruyi插件:https://github.com/IamCreateAI/Ruyi-Models

  • • ComfyUI-VideoHelperSuite插件:同时还需安装ComfyUI-VideoHelperSuite插件。下载地址:https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite

  • • Ruyi-Mini-7B模型:首次运行会自动下载模型并放置 /ComfyUI/models/Ruyi目录下(文末可网盘获取)。下载地址:https://huggingface.co/IamCreateAI/Ruyi-Mini-7B/tree/main

Flux文生图工作流

Flux文生图感兴趣的同学可参考LIBLIB在线运行工作流:FLUX[续篇]:12B参数23G最大开源文生图模型,Dev版直出惊艳美图欣赏
本文涉及ComfyUI工作流和模型均可在LIBLIBAI上下载或在线运行体验:

• F.1-绮梦流光-水湄凝香

https://www.liblib.art/modelinfo/134c6dd95aef48e98a22b24e003e026b

• 工作流-Flux文|图生图+LORA+提示反推一键切换工作流

https://www.liblib.art/modelinfo/782aacd70f604da39e83368c696a02a8


Ruyi图生视频工作流

Ruyi图生视频工作流已上传LIBLIB平台

https://www.liblib.art/modelinfo/226c3696679540c6b25a8a3873284816?versionUuid=fc434721a3764b93aed3b1f812f09f9b

注意

  • • 对于输入图需要注意避免3:4和4:5分辨率图否则容易出现边缘竖线条样式。具体参见问题:https://github.com/IamCreateAI/Ruyi-Models/issues/1

  • • 对于512基础分辨率120帧5秒视频24G显存大约耗时需要26分钟

  • • 核心节点为Sampler for Image to Video。详细参数参见:https://github.com/IamCreateAI/Ruyi-Models/blob/main/comfyui/README_CN.md#sampler-for-image-to-video


  • • start_img: 首帧图片。end_img: 尾帧图片,可选输入。
  • • video_length: 视频长度,必须能被 8 整除最大支持 120 帧
  • • base_resolution: 视频分辨率,模型将根据输入图片的长宽比自动选择最接近的输出视频长宽512 表示生成的视频像素数接近 512 * 512。768 表示生成的视频像素数接近 768 * 768。
  • • motion: 控制视频主体的运动幅度。 1 基本不运动,适用于静态场景。 2 正常运动幅度,适用于谈话、转头等常见场合。3 运动幅度较大,可能出现转身、走动等情况。4 运动幅度非常大,可能出现视频主体离开画面的情况。Auto 表示模型自动判断运动幅度大小。
  • • camera_direction: 镜头运动。Static 表示静止镜头。 Left 表示镜头向左移动。Right 表示镜头向右移动。Up 表示镜头向上移动。Down 表示镜头向下移动。Auto 表示模型自动判断镜头运动方向。
  • • GPU_memory_modenormal_mode 是默认模式,使用显存较多,生成速度较快low_memory_mode 是低显存模式,能大幅降低显存用量,但严重影响生成速度
  • • GPU_offload_steps: 用于优化显存占用,通过将部分临时变量从显存移动到内存而实现,会增加内存的占用并降低生成速度0 表示不优化。1 - 10,1 显存占用最小,生成速度最慢;10 显存占用最多(少于不优化情况),生成速度最快。通常情况下,24G 显存可以使用 7 生成 512 分辨率,120 帧视频

01. 正常运动幅度+左边镜头

02.大运动幅度+向上镜头

背后未知名的穿帮镜头物体掠过。缺少提示引导内容可控性。

03.首尾帧+向上镜头

首尾帧的可控性明显增强。

04.首尾帧+向右镜头

有相对明显的右镜头视角。

05.向右镜头

Ruyi视频模型优势在于有首尾帧、明确的运动幅度和镜头方向控制,能够更有效的控制视频生成。但是当前版本没有提示词的控制,导致整体视频内容的可控性降低。期待Ruyi视频模型后续的持续改善。研发团队称提示词引导待安全审查完成开放。
Ruyi-Mini-7B模型下载:关注公众号口令【ComfyUI插件】获取Ruyi-Mini-7B文件
更多推荐文章:
• [ComfyUI]腾讯混元视频:运动镜头控制!行走动画LORA,最强开源视频可控性里程碑
• [ComfyUI]腾讯混元视频:开源LORA生态来啦!视频人物一致性&运镜可控性里程碑
• [ComfyUI]OminiControl:Flux全能P图神器!乾坤大挪移&重绘&CN控制,极简全能控制器
• [ComfyUI]Flux:国潮经典!敦煌古韵与现代极简国潮插画,敦煌风十二生肖和邮票集锦
• [ComfyUI]Flux:MJ艺术风!基于黑森林F1的Midjourney风,光效&写实&建模&演示&特写镜头
感兴趣加入[AGI技术交流群]+V

    如果觉得文章不错,就请在看转发三连

破狼
关注AIGC、LLM、绘图作品、软件工程、技术学习。交流+V:shunshizhiwu。
 最新文章