开源项目 | Mochi:最强开源视频生成模型

2024-11-10 22:40   北京  

点击下方卡片,关注「魔方AI空间」公众号

简 介

Mochi 1 preview 是一个开放的、最先进的视频生成模型,具有高保真运动和初步评估中的强烈提示依从性。此模型极大地缩小了封闭和开放视频生成系统之间的差距。

官方运行版本硬件要求需要 4 个 H100 GPU 才能运行。

在线体验地址:https://www.genmo.ai/play

3060显卡12G低显存运行方案:https://t.zsxq.com/q0hVZ

模型架构

Mochi 1 代表了开源视频生成的重大进步,具有基于新颖的非对称扩散变压器 (AsymmDiT) 架构构建的 100 亿个参数扩散模型。它完全从头开始训练,是有史以来公开发布的最大视频生成模型。最重要的是,它是一个简单、可破解的架构。

除了Mochi,Genmo还将视频VAE开源。我们的VAE将视频因果压缩到128倍的较小尺寸,将8x8的空间和6倍的时间压缩到12个通道的潜在空间。

AsymmDiT 通过简化文本处理并将神经网络能力集中在视觉推理上,有效地处理用户提示和压缩的视频令牌。AsymmDiT 通过多模态自我注意共同关注文本和视觉标记,并为每种模态学习单独的 MLP 层,类似于 Stable Diffusion 3。但是,视觉流通过更大的隐藏维度拥有几乎是文本流的 4 倍的参数。为了统一自我注意的模态,Mochi使用非方形 QKV 和输出投影层,这种非对称设计降低了推理内存要求。

效果评估

当前,视频生成模型与现实之间存在巨大差距。运动质量和及时依从是视频生成模型中仍然缺少的两个最关键的功能。

Mochi 1 为开源视频生成设定了新的一流标准。它还与领先的封闭模型相比表现非常有竞争力。具体来说,我们的 480p 预览具有很强的:

  • 及时依从:展示与文本提示的出色一致性,确保生成的视频准确反映给定的说明。这允许用户对字符、设置和操作进行详细控制。我们使用视觉语言模型作为遵循 OpenAI DALL-E 3 协议的判断,使用自动指标对提示依从性进行基准测试。使用 Gemini-1.5-Pro-002 评估生成的视频。
  • 运动质量:Mochi 1 以每秒 30 帧的速度生成流畅的视频,持续时间长达 5.4 秒,具有高度的时间连贯性和逼真的运动动态。Mochi 模拟流体动力学、毛皮和头发模拟等物理特性,并表达开始穿越恐怖谷的一致、流畅的人类动作。评分者被指示专注于运动而不是帧级美学(标准包括运动的趣味性、物理合理性和流动性)。Elo 分数是按照 LMSYS Chatbot Arena 协议计算的。

部署安装

1.克隆存储库并以可编辑模式安装

git clone https://github.com/genmoai/models
cd models
pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .

2.下载权重

模型权重地址:https://huggingface.co/genmo/mochi-1-preview/tree/main

3.运行

使用 gradio UI 启动

python3 -m mochi_preview.gradio_ui --model_dir "<path_to_model_directory>"

使用 CLI 直接从 CLI 生成视频

python3 -m mochi_preview.infer --prompt "A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere." --seed 1710977262 --cfg_scale 4.5 --model_dir "<path_to_model_directory>"

视频效果演示

技术交流

加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!

更多精彩内容,尽在「魔方AI空间」,关注了解全栈式 AIGC 内容!!

从零走向AGI

https://github.com/AI-mzq/From-Zero-to-AGI.git

AIGCmagic社区飞书知识库:

https://a1qjvipthnf.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd

面试面经

https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer.git

推荐阅读

AIGCmagic社区共建邀请函!

开源实操 | DiffIR2VR-Zero:模糊视频8K高清修复技术

太强了!快手的LivePortrait:肖像动画框架 | 可精准控制眼睛和嘴唇动作

商汤重磅推出Vimi——亮相WAIC,成为“镇馆之宝” | 2024世界人工智能大会

FoleyCrafter:自动为视频配音 | 开源AI配音技术 | AI视频有声时代真的来了

AI视频进入有声时代 | 谷歌 DeepMind 发布V2A:轻松给AI视频配音

变天啦!?| Luma 发布视频生成模型 Dream Machine,直逼电影级效果!

UniAnimate:可控人体视频生成新框架,跳舞视频生成技术再添一员

MOFA-Video:图像到视频的可控生成框架,可本地一键部署

AIGC |「视频生成」系列之Hunyuan-DiT:基于DiT架构的最佳中文实践

「文生一切」大模型Lumina-T2X:一个框架整合图像、视频、音频和3D生成(附体验地址)

AIGC |「视频生成」系列之Vidu:国内首个可媲美Sora的视频生成模型

AIGC |「视频生成」系列之ID-Animator:可保持角色一致生成视频动画


魔方AI空间
AI技术从业者与爱好者,专注于计算机视觉、深度学习、行为识别、多模态、边缘智能等前沿科技成果的研究和技术分享!
 最新文章