视频制作界再掀风云,Genmo这家新兴初创企业携其开源视频模型Mochi 1的预览版强势登场。他们自豪地宣称,Mochi 1在性能上超越了可灵、Runway等知名闭源模型,而且遵循Apache 2.0开源许可证。让我们一起看看,这位AI视频领域的黑马究竟有何过人之处!
Genmo公司成立于2022年底,专注于AI视频生成技术,创始人阵容强大,包括来自伯克利大学的博士Paras Jain和Google的研究员Ajay Jain。
这款神器致力于打造一个无所不能的世界模拟器,让我们的想象无限放大。而且,就在最近,Genmo成功完成了A轮融资,筹得了2840万美元!咱们先来一睹为快,看看Mochi 1的强大之处吧!
官方Demo展示了其高保真运动和强大的提示词遵循性,无论是对比开源还是闭源商业视频模型,Mochi 1都让人眼前一亮。
Genmo最新力作——AsymmVAE VAE模型,这个模型可是用了独门秘籍——非对称编码器-解码器结构,对视频数据进行极致压缩。它把视频缩水到128倍小尺寸,不仅空间缩小到8x8,而且时间压缩到原来的六分之一,神奇吧?12通道的潜在空间,简直太强大了!
Mochi 1采用的是独门秘籍——单个T5-XXL文本编码器,和稳如老狗的Stable Diffusion 3有异曲同工之妙,但它的视觉流可是放大了4倍,参数更是强大得不行!
而且,它还能在44,520个视频标记的大家庭里,利用3D注意力全速前进,用RoPE技术定位每个小宝贝,简直太智能了。
更让人惊喜的是,Mochi 1还能在空间和时间轴上学习混合频率,结合DiT架构和高效推理,视频质量和依从性都杠杠的!不过,要运行它,至少得有4个H100 GPU的强大阵容呢!
Mochi 1这个神器,简直太给力了,它能精准地匹配视频和文本提示,让你对角色、场景和动作了如指掌,完全掌控全局!
亲们,快来了解一下这款神奇的视频生成工具!它如何精准地根据你的文字描述,生成出高度贴合你意图的视频内容?而这款工具的用法和限制,以及如何免费试用,我都为你一一揭晓啦!
官方已经开放了网页试用,注册用户每天可以免费生成两条视频哦!此外,Mochi 1的模型也大放异彩,虽然文件体积有点大,但40GB的Mochi 1模型和超过1G的VAE模型,可不是谁都能轻松驾驭的。
而且,想要运行它,你得有4个H100 GPU,这可不是小数目啊!目前预览版的Mochi 1只支持480p分辨率,处理复杂动作时可能会有点不给力,画面也可能出现失真。
不过别担心,官方承诺今年晚些时候会推出720p分辨率的Mochi 1 HD版本,让视频效果更上一层楼!想要了解更多,赶紧访问项目页面:
github.com/genmoai/models
下载模型:
huggingface.co/genmo/mochi-1-preview
或者直接在网页上试用:
genmo.ai/play