OpenAI难产的Sora也不是一点用没有,至少是给很多团队提供了思路。
AI视频相继出了很多效果不错的商业模型,比如Gen-3、可灵、海螺。。。
但是没有一个开源的AI视频模型有一战之力。
Genmo融了2840万美金,然后开发开源了效果这么好的 Mochi 1,这可能是AI视频开源领域的里程碑了。
Jain 和他的联合创始人创办 Genmo 的使命是让每个人都能使用人工智能技术。Jain 说 “我们从根本上相信,让这项技术普及并让尽可能多的人都能使用非常重要。这就是我们将其开源的原因之一。”
先生大义!开源才会抢占先机!
扫码加入AI交流群
获得更多技术支持和交流
(请注明自己的职业)
项目简介
Mochi 1是一个由Genmo团队开发、突破性的开源AI视频生成模型。这是迄今为止最大的开源AI视频模型,拥有100亿参数,采用创新的非对称扩散变压器(AsymmDiT)架构。该模型能够生成高质量、动作流畅的视频内容,在保持提示词准确性方面表现出色。核心特色在于将视频压缩率提升至128倍,并创新性地将文本和视觉信息处理整合到同一框架中。
目前模型支持480p视频生成,需要至少4张H100 GPU才能运行。这也就是我说的“开源才会抢占先机”,开源社区的很多大佬都会
Genmo声称在内部测试中,Mochi 1在提示词准确性和动作质量方面都优于大多数其他视频AI模型,包括竞品Runway和Luna。
DEMO
视频里的角色一致性、稳定性都非常好。
我挑了几个demo,真的有大片的感觉!
所以说,Mochi 1真的是AI视频开源领域的里程碑,他已经比大多数商用的AI视频模型效果要好很多了。
技术特点
1.非对称架构创新
采用独特的AsymmDiT(非对称扩散变压器)架构
通过非对称编码器-解码器结构实现高效视频压缩
视觉流的参数量是文本流的4倍,优化视觉处理能力
2.高效压缩技术
实现视频128倍的压缩率
8x8空间压缩和6倍时间压缩
12通道潜在空间表示
因果压缩方式保证视频质量
3.多模态处理优化
创新的文本-视觉联合注意力机制
采用非方形QKV和输出投影层统一不同模态
单一T5-XXL语言模型处理提示词,简化文本编码流程
4.模型规格
总参数量达100亿
48层结构设计
24个注意力头
3072维视觉维度
1536维文本维度
支持44520个视觉标记和256个文本标记
项目链接
https://www.dongaigc.com/p/genmoai/models?a=mochi1
结语
以往不习惯写结语的,但Mochi 1的效果确实是太惊艳了。Genmo的选择是对的,在没有一个完美的效果之前,开源是能快速推动行业和公司发展的。
也说一下Mochi 1现在的问题,当前版本仅支持 480p 分辨率,在涉及复杂运动的极端情况下可能会出现轻微的视觉失真;消耗算力太大,大部分人都没有4台H100;训练数据应该不会公开了,因为里面有很多的版权作品。
更高清版本Mochi 1 HD也会在过段时间发布。
最后用Genmo创始人的一段话来结束这篇文章
“Open models are like crude oil. They need to be refined and fine-tuned. That’s what we want to enable for the community—so they can build incredible new things on top of it”
“开放模型就像原油。它们需要被提炼和微调。我们希望为社区提供这样的能力——让他们能够在其基础上构建出令人难以置信的新事物。”
拥抱开源,感谢开源,支持开源!
关注「开源AI项目落地」公众号
与AI时代更靠近一点
关注「向量光年」公众号
加速全行业向AI转变
关注「AGI光年」公众号
获取每日最新资讯