视频创作迎来“智变”时刻,图森未来发布“Ruyi”大模型!

2024-12-25 17:20   上海  

模型简介

近日,图森未来正式发布了旗下首款图生视频大模型——“Ruyi”,并将其 Ruyi-Mini-7B 版本开源。用户现在可以通过 OpenCSG平台免费下载和体验。这一全新大模型,凭借其高效、灵活、创造力丰富的特性,正在为视频创作行业带来前所未有的变革。
“Ruyi”大模型究竟有什么特别之处?让我们一探究竟!

从图到生,创新技术驱动“智变”

“Ruyi” 是一个基于 DiT(Diffusion Transformer)架构 构建的开创性图生视频模型,核心包括两个关键模块:
  1. Casual VAE 模块
  • 负责视频数据的压缩与解压,将空间分辨率压缩至 1/8,时间分辨率压缩至 1/4。
  • 使用 bf16 表示每个像素点,确保数据处理的高效性和精度。
  • Diffusion Transformer 模块
    • 采用 3D 全注意力 技术,结合 2D RoPE(归一化相对位置编码)和 sin_cos(正余弦位置编码)进行空间与时间的精准建模。
    • 训练过程中应用 DDPM(去噪扩散概率模型),实现从图像到视频的高质量生成。
    这套架构的总参数量高达 7.1B,为复杂的视频生成任务提供了充足的算力支持。

    一键生成创意视频

    分辨率与时长灵活调整

    支持从 384x384 到 1024x1024 的多分辨率,任意长宽比,生成最长 120 帧(约 5 秒)的视频。

    首帧/首尾帧控制
    支持最多 5 个起始帧和 5 个结束帧,结合循环叠加,可生成任意长度的视频内容。
    运动幅度与镜头控制
    提供 4 档运动幅度调节,以及上、下、左、右、静止 5 种镜头控制方式,为创作提供更多灵感与可能性。
    消费级显卡优化
    专为 RTX 4090 等消费级显卡设计,结合详细部署说明和 ComfyUI 工作流,降低技术门槛,即使非专业用户也能快速上手。




    模型下载

    OpenCSG社区:https://opencsg.com/models/IamCreateAI/Ruyi-Mini-7B




    欢迎加入OpenCSG社区



    •贡献代码,与我们一同共建更好的OpenCSG


    •Github主页

    欢迎🌟:https://github.com/OpenCSGs


    •Huggingface主页

    欢迎下载:https://huggingface.co/opencsg


    •加入我们的用户交流群,分享经验



    扫描上方二维码添加小助手






    “      关于OpenCSG

    开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。


    OpenCSG社区
    该账号是开放传神(OpenCSG)分享大模型的技术、见解、传神开放社区等方面的内容!
     最新文章