Mochi 1视频生成模型亮相：动作流畅，开放源代码

2024-10-23 15:28 中国香港

前沿科技速递🚀

近日，AI公司Genmo发布了最新的开源视频生成模型Mochi 1。Mochi 1在动作质量和提示词遵循能力方面有显著提升，并且与市面上许多闭源商业模型相媲美。作为一款支持个人和商业用途的开源工具，Mochi 1不仅展示了开源技术的力量，也为开发者提供了一个强大的视频生成工具。

来源：传神社区

01 模型简介

Mochi 1 是Genmo推出的一款全新视频生成模型，它在多项技术指标上超越了市场上的一些主流模型，如Runway的Gen-3 Alpha、Luma AI的Dream Machine、快手的Kling等。最重要的是，它以开源形式发布，并且在Apache 2.0许可下可供个人和商业使用。与市面上高昂定价的闭源模型相比，Mochi 1的开源性质将大大降低视频生成的门槛，给创作者和开发者带来新的可能性。

通过提供在线体验和开源代码，任何人都可以亲身测试Mochi 1的强大功能，体验从文本生成高质量视频的便捷。

02 技术亮点

Mochi 1 在技术上取得了一些突破，尤其是在架构设计和视频生成质量方面。以下是Mochi 1的几个技术亮点：

AsymmDiT：非对称扩散变换器架构

Mochi 1采用了Genmo自主研发的AsymmDiT架构，具备100亿参数，是目前开源视频生成领域最大的一款模型。该架构在处理视觉信息时特别注重效率，使视频生成的推理过程更加平滑和流畅。视觉部分的参数量是文本部分的四倍，使得它能够捕捉到更为丰富的视觉细节。

高效视频压缩：视频VAE技术

Mochi 1引入了视频VAE（变分自编码器）技术，将原始视频数据压缩至1/128的大小，大幅减少了生成过程中的内存需求。这种高效的压缩技术降低了用户设备的资源要求，使得开发者能够在较低配置下生成高质量视频。

精确提示词遵循

该模型对提示词的遵循能力非常出色，能够根据用户输入的文本提示生成高度符合指令的视频。无论是复杂的场景、动作还是角色，Mochi 1都能准确生成符合用户预期的内容。这是通过结合多模态自注意力机制来实现的，模型能够同时关注文本和视觉tokens，并对其进行独立处理，从而达到精确控制生成视频的效果。

动作流畅性与物理模拟

Mochi 1能够生成每秒30帧的视频，视频的动作流畅且连贯，特别是在模拟复杂物理现象时表现尤为突出。例如，流体动力学和毛发的模拟在Mochi 1生成的视频中显得自然且真实。此外，Mochi 1能够跨越“恐怖谷”，在生成接近现实的人类动作时表现优异。

局限性

分辨率限制：目前Mochi 1的预览版仅支持480p分辨率的视频生成，虽然已经能够满足一些基本需求，但对于希望获得更高质量视频的用户来说，可能还有提升空间。值得期待的是，Genmo团队已经在积极开发高清版本，未来将支持更高的分辨率如720p甚至更高。

极端动作处理：在涉及一些非常复杂或极端动作的生成时，Mochi 1偶尔会出现轻微的视觉失真或形变。这种情况主要发生在动作变化较大的场景中，虽然不太常见，但仍有待进一步优化。随着模型的不断更新，这一问题可能会得到解决。

资源需求：尽管Mochi 1通过各种优化极大提升了生成效率，但目前推理仍需要较高的计算资源支持，推荐配置是4张H100 GPU。对于部分开发者和用户而言，这可能会稍微增加使用门槛。不过，随着硬件性能的不断提升和模型的持续优化，未来的资源要求可能会有所降低。

03 样例展示

示例指令："Make a video of a blonde long haired dachshund winning a race"

示例指令："A timelapse from the year 0 BC to the year 2000"

示例指令："A middle eastern man with tan skin, a white keffiyeh, and a flowing beige robe stands beside a camel in the vast, golden dunes of the Saudi Arabian desert, staring solemnly at the camera. High resolution 4k."

04 模型下载

传神社区：

https://opencsg.com/models/genmo/mochi-1-preview

huggingface：

https://huggingface.co/genmo/mochi-1-preview

欢迎加入传神社区

•贡献代码，与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟：https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群，分享经验

扫描上方二维码添加传神小助手

“ 关于OpenCSG

开放传神（OpenCSG）成立于2023年，是一家致力于大模型生态社区建设，汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

加入传神社区

http://mp.weixin.qq.com/s?__biz=MzkxNTYxMjU1Mw==&mid=2247487053&idx=1&sn=7ad7a521bfc5c6de5b4da3701d83d397

传神社区

该账号是开放传神（OpenCSG）分享大模型的技术、见解、传神开放社区等方面的内容！

最新文章

OpenCoder：开源代码大模型，推动编程AI的未来

CodeSouler v1.11.0 版本更新

倒计时2天！大模型全生命周期管理与AI应用的全栈可观测性圆桌议题公布

CSGHub All-in-One Docker 快速部署

重磅揭秘！Auto CSGHub内测视频曝光 | 国产版 HuggingFace+ 引领智能化升级

算力补贴累计超亿元！模速空间“浓缩”上海大模型产业链

报名开始｜《大模型全生命周期管理与AI应用的全栈可观测性》上海站

微软OmniParser：一切皆文档，OCR驱动智能操作

从文本到动态视频：Allegro模型让创意更轻松

传神论文中心｜第30期人工智能领域论文推荐

超快速，高性能！Meta发布移动端MobileLLM

DataFlow v202410 版本更新一站式数据处理平台

OpenCSG与传神社区的创新瞬间

OpenCSG传神社区月度功能更新

突破语言壁垒：Cohere 发布多语言大模型 Aya Expanse

Stable Diffusion 3.5震撼发布：三大版本满足多层次AI图像生成需求

OpenCSG携手书生·浦语：InternLM2.5-20B-Chat 正式上线，共建AI未来新生态

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

无需依赖闭源模型！司南CompassJudger为AI评测带来新选择

CSGHub SaaS快速入门指南

Mochi 1视频生成模型亮相：动作流畅，开放源代码

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

传神论文中心｜第29期人工智能领域论文推荐

重磅升级 | OpenCSG开源中文版fineweb edu v2数据集

英伟达推出Nemotron-70B：强大开源语言模型，基准测试中全面领先！

直播预告｜未来视界：多模态AI的创新与挑战

苹果开源Depth Pro：0.3秒实现从2D图像到3D深度图的革命性突破

传神论文中心｜第28期人工智能领域论文推荐

2B参数搞定高质量视频！北大&快手携手打造Pyramid Flow

直播预告｜当A股疯涨挑战经典金额理论，大模型能否作为一个“理性投资人”？

CodeSouler v1.0.8 版本更新

传神论文中心｜第27期人工智能领域论文推荐

OpenCSG传神社区月度功能更新

OpenCSG开源数据集再次登顶HF数据榜

OpenCSG DataFlow：锻造大模型智慧的炼金术，开启数据集Agentic新范式

微软推出GRIN-MoE：开创专家路由新范式

Llama 3.2：轻量级设计与多模态能力

英伟达发布NVLM 1.0：屠榜多模态任务，纯文本性能逆势提升

高效、精准、智能：GOT-OCR2.0引领OCR 2.0时代

传神论文中心｜第26期人工智能领域论文推荐

超越极限！Qwen2.5 助力多领域智能应用

年度巨献 | OpenCSG开源最大中文合成数据集Chinese Cosmopedia

CSGHub开源版本v0.9.0更新

传神论文中心｜第25期人工智能领域论文推荐

Mistral AI再创新高，Pixtral 12B多模态模型强势来袭

CodeSouler v1.0.7 版本更新

重磅发布！DeepSeek-V2.5：融合通用与代码能力的全新开源模型

小而强大！零一万物 Yi-Coder 模型震撼发布！

国产“小钢炮”MiniCPM3-4B：小参数，大能量！

国内独家首发 | OpenCSG开源中文版fineweb edu数据集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉