本月最强开源发布!Genmo开源AI视频模型,100亿参数,效果秒杀RunWay和Luna!

科技   2024-10-23 16:01   山东  


OpenAI难产的Sora也不是一点用没有,至少是给很多团队提供了思路。


AI视频相继出了很多效果不错的商业模型,比如Gen-3、可灵、海螺。。。


但是没有一个开源的AI视频模型有一战之力。


Genmo融了2840万美金,然后开发开源了效果这么好的 Mochi 1,这可能是AI视频开源领域的里程碑了。


Jain 和他的联合创始人创办 Genmo 的使命是让每个人都能使用人工智能技术。Jain 说 “我们从根本上相信,让这项技术普及并让尽可能多的人都能使用非常重要。这就是我们将其开源的原因之一。”


先生大义!开源才会抢占先机!


扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)


项目简介


Mochi 1是一个由Genmo团队开发、突破性的开源AI视频生成模型。这是迄今为止最大的开源AI视频模型,拥有100亿参数,采用创新的非对称扩散变压器(AsymmDiT)架构。该模型能够生成高质量、动作流畅的视频内容,在保持提示词准确性方面表现出色。核心特色在于将视频压缩率提升至128倍,并创新性地将文本和视觉信息处理整合到同一框架中。


目前模型支持480p视频生成需要至少4张H100 GPU才能运行。这也就是我说的“开源才会抢占先机”,开源社区的很多大佬都会


Genmo声称在内部测试中,Mochi 1在提示词准确性和动作质量方面都优于大多数其他视频AI模型,包括竞品Runway和Luna。



DEMO


视频里的角色一致性、稳定性都非常好。


我挑了几个demo,真的有大片的感觉!


所以说,Mochi 1真的是AI视频开源领域的里程碑,他已经比大多数商用的AI视频模型效果要好很多了。



技术特点


1.非对称架构创新


  • 采用独特的AsymmDiT(非对称扩散变压器)架构

  • 通过非对称编码器-解码器结构实现高效视频压缩

  • 视觉流的参数量是文本流的4倍,优化视觉处理能力


2.高效压缩技术


  • 实现视频128倍的压缩率

  • 8x8空间压缩和6倍时间压缩

  • 12通道潜在空间表示

  • 因果压缩方式保证视频质量


3.多模态处理优化


  • 创新的文本-视觉联合注意力机制

  • 采用非方形QKV和输出投影层统一不同模态

  • 单一T5-XXL语言模型处理提示词,简化文本编码流程


4.模型规格


  • 总参数量达100亿

  • 48层结构设计

  • 24个注意力头

  • 3072维视觉维度

  • 1536维文本维度

  • 支持44520个视觉标记和256个文本标记


项目链接


https://www.dongaigc.com/p/genmoai/models?a=mochi1


结语


以往不习惯写结语的,但Mochi 1的效果确实是太惊艳了。Genmo的选择是对的,在没有一个完美的效果之前,开源是能快速推动行业和公司发展的。


也说一下Mochi 1现在的问题,当前版本仅支持 480p 分辨率,在涉及复杂运动的极端情况下可能会出现轻微的视觉失真;消耗算力太大,大部分人都没有4台H100;训练数据应该不会公开了,因为里面有很多的版权作品。


更高清版本Mochi 1 HD也会在过段时间发布。


最后用Genmo创始人的一段话来结束这篇文章


“Open models are like crude oil. They need to be refined and fine-tuned. That’s what we want to enable for the community—so they can build incredible new things on top of it”

“开放模型就像原油。它们需要被提炼和微调。我们希望为社区提供这样的能力——让他们能够在其基础上构建出令人难以置信的新事物。”


拥抱开源,感谢开源,支持开源!


 关注「开源AI项目落地」公众号

与AI时代更靠近一点

 关注「向量光年」公众号

加速全行业向AI转变

 关注「AGI光年」公众号

获取每日最新资讯


开源AI项目落地
分享有价值的开源项目,并且致力于Ai项目的落地。
 最新文章