Mochi 1视频生成模型亮相:动作流畅,开放源代码

2024-10-23 15:28   中国香港  


前沿科技速递🚀


近日,AI公司Genmo发布了最新的开源视频生成模型Mochi 1。Mochi 1在动作质量和提示词遵循能力方面有显著提升,并且与市面上许多闭源商业模型相媲美。作为一款支持个人和商业用途的开源工具,Mochi 1不仅展示了开源技术的力量,也为开发者提供了一个强大的视频生成工具。

来源:传神社区
01 模型简介

Mochi 1 是Genmo推出的一款全新视频生成模型,它在多项技术指标上超越了市场上的一些主流模型,如Runway的Gen-3 Alpha、Luma AI的Dream Machine、快手的Kling等。最重要的是,它以开源形式发布,并且在Apache 2.0许可下可供个人和商业使用。与市面上高昂定价的闭源模型相比,Mochi 1的开源性质将大大降低视频生成的门槛,给创作者和开发者带来新的可能性。

通过提供在线体验和开源代码,任何人都可以亲身测试Mochi 1的强大功能,体验从文本生成高质量视频的便捷。

02 技术亮点

Mochi 1 在技术上取得了一些突破,尤其是在架构设计和视频生成质量方面。以下是Mochi 1的几个技术亮点:

AsymmDiT:非对称扩散变换器架构

Mochi 1采用了Genmo自主研发的AsymmDiT架构,具备100亿参数,是目前开源视频生成领域最大的一款模型。该架构在处理视觉信息时特别注重效率,使视频生成的推理过程更加平滑和流畅。视觉部分的参数量是文本部分的四倍,使得它能够捕捉到更为丰富的视觉细节。

高效视频压缩:视频VAE技术

Mochi 1引入了视频VAE(变分自编码器)技术,将原始视频数据压缩至1/128的大小,大幅减少了生成过程中的内存需求。这种高效的压缩技术降低了用户设备的资源要求,使得开发者能够在较低配置下生成高质量视频。

精确提示词遵循

该模型对提示词的遵循能力非常出色,能够根据用户输入的文本提示生成高度符合指令的视频。无论是复杂的场景、动作还是角色,Mochi 1都能准确生成符合用户预期的内容。这是通过结合多模态自注意力机制来实现的,模型能够同时关注文本和视觉tokens,并对其进行独立处理,从而达到精确控制生成视频的效果。

动作流畅性与物理模拟

Mochi 1能够生成每秒30帧的视频,视频的动作流畅且连贯,特别是在模拟复杂物理现象时表现尤为突出。例如,流体动力学和毛发的模拟在Mochi 1生成的视频中显得自然且真实。此外,Mochi 1能够跨越“恐怖谷”,在生成接近现实的人类动作时表现优异。

局限性

分辨率限制:目前Mochi 1的预览版仅支持480p分辨率的视频生成,虽然已经能够满足一些基本需求,但对于希望获得更高质量视频的用户来说,可能还有提升空间。值得期待的是,Genmo团队已经在积极开发高清版本,未来将支持更高的分辨率如720p甚至更高。

极端动作处理:在涉及一些非常复杂或极端动作的生成时,Mochi 1偶尔会出现轻微的视觉失真或形变。这种情况主要发生在动作变化较大的场景中,虽然不太常见,但仍有待进一步优化。随着模型的不断更新,这一问题可能会得到解决。

资源需求:尽管Mochi 1通过各种优化极大提升了生成效率,但目前推理仍需要较高的计算资源支持,推荐配置是4张H100 GPU。对于部分开发者和用户而言,这可能会稍微增加使用门槛。不过,随着硬件性能的不断提升和模型的持续优化,未来的资源要求可能会有所降低。

03 样例展示

示例指令:"Make a video of a blonde long haired dachshund winning a race"

示例指令:"A timelapse from the year 0 BC to the year 2000"

示例指令:"A middle eastern man with tan skin, a white keffiyeh, and a flowing beige robe stands beside a camel in the vast, golden dunes of the Saudi Arabian desert, staring solemnly at the camera. High resolution 4k."


04 模型下载

传神社区:

https://opencsg.com/models/genmo/mochi-1-preview

huggingface:

https://huggingface.co/genmo/mochi-1-preview






    欢迎加入传神社区



    •贡献代码,与我们一同共建更好的OpenCSG


    •Github主页

    欢迎🌟:https://github.com/OpenCSGs


    •Huggingface主页

    欢迎下载:https://huggingface.co/opencsg


    •加入我们的用户交流群,分享经验



    扫描上方二维码添加传神小助手






    “      关于OpenCSG

    开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。


    关注OpenCSG

    加入传神社区



传神社区
该账号是开放传神(OpenCSG)分享大模型的技术、见解、传神开放社区等方面的内容!
 最新文章