前沿科技速递🚀
近日,AI公司Genmo发布了最新的开源视频生成模型Mochi 1。Mochi 1在动作质量和提示词遵循能力方面有显著提升,并且与市面上许多闭源商业模型相媲美。作为一款支持个人和商业用途的开源工具,Mochi 1不仅展示了开源技术的力量,也为开发者提供了一个强大的视频生成工具。
Mochi 1 是Genmo推出的一款全新视频生成模型,它在多项技术指标上超越了市场上的一些主流模型,如Runway的Gen-3 Alpha、Luma AI的Dream Machine、快手的Kling等。最重要的是,它以开源形式发布,并且在Apache 2.0许可下可供个人和商业使用。与市面上高昂定价的闭源模型相比,Mochi 1的开源性质将大大降低视频生成的门槛,给创作者和开发者带来新的可能性。
通过提供在线体验和开源代码,任何人都可以亲身测试Mochi 1的强大功能,体验从文本生成高质量视频的便捷。
Mochi 1 在技术上取得了一些突破,尤其是在架构设计和视频生成质量方面。以下是Mochi 1的几个技术亮点:
AsymmDiT:非对称扩散变换器架构
高效视频压缩:视频VAE技术
精确提示词遵循
动作流畅性与物理模拟
局限性
分辨率限制:目前Mochi 1的预览版仅支持480p分辨率的视频生成,虽然已经能够满足一些基本需求,但对于希望获得更高质量视频的用户来说,可能还有提升空间。值得期待的是,Genmo团队已经在积极开发高清版本,未来将支持更高的分辨率如720p甚至更高。
极端动作处理:在涉及一些非常复杂或极端动作的生成时,Mochi 1偶尔会出现轻微的视觉失真或形变。这种情况主要发生在动作变化较大的场景中,虽然不太常见,但仍有待进一步优化。随着模型的不断更新,这一问题可能会得到解决。
资源需求:尽管Mochi 1通过各种优化极大提升了生成效率,但目前推理仍需要较高的计算资源支持,推荐配置是4张H100 GPU。对于部分开发者和用户而言,这可能会稍微增加使用门槛。不过,随着硬件性能的不断提升和模型的持续优化,未来的资源要求可能会有所降低。
03 样例展示
示例指令:"Make a video of a blonde long haired dachshund winning a race"
示例指令:"A timelapse from the year 0 BC to the year 2000"
示例指令:"A middle eastern man with tan skin, a white keffiyeh, and a flowing beige robe stands beside a camel in the vast, golden dunes of the Saudi Arabian desert, staring solemnly at the camera. High resolution 4k."
04 模型下载
传神社区:
https://opencsg.com/models/genmo/mochi-1-preview
huggingface:
https://huggingface.co/genmo/mochi-1-preview
欢迎加入传神社区
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https://github.com/OpenCSGs
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
扫描上方二维码添加传神小助手
“ 关于OpenCSG
关注OpenCSG
加入传神社区