MEMO:记忆引导扩散技术,开创表达性对话视频生成新纪元
🌹大家好!欢迎来到破狼公众号。感谢大家的支持与鼓励。在AIGC探索道路上,我将与你一路同行。喜欢就星标关注破狼公众号或文末扫码加入交流群 !
MEMO简介
今天文章主题介绍一款开创表达性对话视频模型框架:MEMO(Memory-Guided Diffusion for Expressive Talking Video Generation)。这是由Skywork AI、南洋理工大学和新加坡国立大学联合开发的一项先进的开放权重模型。MEMO 专注于音频驱动的对话视频生成技术。通过记忆引导和情感感知,生成具有身份一致性和丰富表情的对话视频。
• 项目主页:https://memoavatar.github.io/
• Github:https://github.com/memoavatar/memo
• huggface:https://huggingface.co/memoavatar/memo
MEMO模型以其独特的两个核心模块脱颖而出:记忆引导时间模块和情感感知音频模块。这两个模块协同工作,提升了音视频同步、身份一致性和自然表情生成的效果。
具体特点如下:
• 多样化的图像风格:能够处理包括肖像、雕塑、数字艺术和动画在内的多种图像风格,并与相应的音频完美匹配。无论是威廉·莎士比亚的肖像、《戴珍珠耳环的少女》的经典形象,还是米开朗基罗的雕塑作品《大卫》,MEMO都能让这些静止的艺术作品“活”起来。 • 多样化的音频类型:MEMO支持包括演讲、歌唱和说唱在内的多种音频类型,从史蒂夫·乔布斯的斯坦福演讲到肯德里克·拉马尔的说唱,再到《爱乐之城》中的旋律,MEMO都能将它们转化为生动的对话视频。 • 多语言支持:MEMO支持英语、普通话、西班牙语、日语、韩语和粤语等多种语言,具有广泛的多语言应用场景。 • 表达性对话视频生成:MEMO不仅能生成表达性对话视频,还能在视频中传递情感,使视频内容更加生动和真实。 • 多样化的头部姿态:MEMO能够处理各种头部姿态,生成自然流畅的对话视频。 • 长视频生成:MEMO还能生成长时间对话视频,减少了错误累积,提升了视频的整体质量。 • 性能评估:与最新技术基线相比,MEMO在生成更自然、更生动的动作和表情方面表现更优,同时在音频-唇形同步和错误累积方面也展现出了更好的性能。
MEMO ComfyUI体验
社区已有ComfyUI-IF_MemoAvatar支持Memo在ComfyUI中的体验。仅需通过插件管理器搜索安装该插件即可。 ComfyUI-IF_MemoAvatar插件支持以下特点:
• 表情丰富的视频生成:能够根据一张静态图片生成表情丰富的对话视频。
• 音频驱动的面部动画:通过音频输入驱动,实现面部动画的效果。
• 情感表达转移:能够将情感表达从音频转移到视频中的头像上。
• 高质量视频输出:输出的视频质量高,细节丰富。
MEMO插件安装指南
• ComfyUI-IF_MemoAvatar插件:https://github.com/if-ai/ComfyUI-IF_MemoAvatar
• Memo:首次运行会自动下载模型并放置 /ComfyUI/models/checkpoints/memo/目录下。下载地址:https://huggingface.co/memoavatar/memo/tree/main
• wav2vec:首次运行会自动下载模型并放置 /ComfyUI/models/wav2vec/目录下。下载地址:https://huggingface.co/facebook/wav2vec2-large-960h/tree/main
• sd-vae-ft-mse:首次运行会自动下载模型并放置 /ComfyUI/models/vae/sd-vae-ft-mse/目录下。下载地址:https://huggingface.co/stabilityai/sd-vae-ft-mse/tree/main
• emotion2vec_plus_large:首次运行会自动下载模型并放置 /ComfyUI/models/emotion2vec/emotion2vec_plus_large/目录下。下载地址:https://huggingface.co/emotion2vec/emotion2vec_plus_large/tree/main
• 注意:Linux系统可以直接通过pip install xformers安装。Windows环境没有xformers的,则可以参考:https://ko-fi.com/post/Installing-Triton-and-Sage-Attention-Flash-Attenti-P5P8175434。
• 另外,当本地目录不存在models.json 文件时候,程序将会每次运行自动下载对应模型。因此如果手动下载请确保该文件存在,并且内容正确。同时还需要保证目录/ComfyUI/models/checkpoints/memo/misc/face_analysis下包含version.txt,并且包含0.7.3的内容。模型已按照对应目录打包放置网盘文末可下载。
{
"detection":[
"scrfd_10g_bnkps"
],
"recognition":[
"glintr100"
],
"analysis":[
"genderage",
"2d106det",
"1k3d68"
]
}
Flux文生图工作流
• F.1-绮梦流光-水湄凝香:
https://www.liblib.art/modelinfo/134c6dd95aef48e98a22b24e003e026b
• 工作流-Flux文|图生图+LORA+提示反推一键切换工作流:
https://www.liblib.art/modelinfo/782aacd70f604da39e83368c696a02a8
MEMO工作流
MEMO工作流已上传LIBLIB平台:
https://www.liblib.art/modelinfo/c4d41ff8bfb84e9ba0c04e99a9177dc2?versionUuid=b31820df5f1d49eca6d43f64b6057c34
注意:
• 工作流中的select_audio按钮并不工作(报错405),直接在audio参数输入路径path即可。 • 该工作流默认生成后视频保存在ComfyUI/output目录下,后续路径加载视频预览未工作,后续改进。
01
02
输入音频 | |
输出视频 |
03
如果觉得文章不错,就请赞、在看与转发三连