[ComfyUI]MEMO：让静止图片活起来！音唇同步&丰富且自然表情的对话视频生成技术

科技 2024-12-17 18:15 浙江

MEMO：记忆引导扩散技术，开创表达性对话视频生成新纪元

🌹大家好！欢迎来到破狼公众号。感谢大家的支持与鼓励。在AIGC探索道路上，我将与你一路同行。喜欢就星标关注破狼公众号或文末扫码加入交流群！

MEMO简介

今天文章主题介绍一款开创表达性对话视频模型框架：MEMO（Memory-Guided Diffusion for Expressive Talking Video Generation）。这是由Skywork AI、南洋理工大学和新加坡国立大学联合开发的一项先进的开放权重模型。MEMO 专注于音频驱动的对话视频生成技术。通过记忆引导和情感感知，生成具有身份一致性和丰富表情的对话视频。

• 项目主页：https://memoavatar.github.io/
• Github：https://github.com/memoavatar/memo
• huggface：https://huggingface.co/memoavatar/memo

MEMO模型以其独特的两个核心模块脱颖而出：记忆引导时间模块和情感感知音频模块。这两个模块协同工作，提升了音视频同步、身份一致性和自然表情生成的效果。

具体特点如下：

• 多样化的图像风格：能够处理包括肖像、雕塑、数字艺术和动画在内的多种图像风格，并与相应的音频完美匹配。无论是威廉·莎士比亚的肖像、《戴珍珠耳环的少女》的经典形象，还是米开朗基罗的雕塑作品《大卫》，MEMO都能让这些静止的艺术作品“活”起来。
• 多样化的音频类型：MEMO支持包括演讲、歌唱和说唱在内的多种音频类型，从史蒂夫·乔布斯的斯坦福演讲到肯德里克·拉马尔的说唱，再到《爱乐之城》中的旋律，MEMO都能将它们转化为生动的对话视频。
• 多语言支持：MEMO支持英语、普通话、西班牙语、日语、韩语和粤语等多种语言，具有广泛的多语言应用场景。
• 表达性对话视频生成：MEMO不仅能生成表达性对话视频，还能在视频中传递情感，使视频内容更加生动和真实。
• 多样化的头部姿态：MEMO能够处理各种头部姿态，生成自然流畅的对话视频。
• 长视频生成：MEMO还能生成长时间对话视频，减少了错误累积，提升了视频的整体质量。
• 性能评估：与最新技术基线相比，MEMO在生成更自然、更生动的动作和表情方面表现更优，同时在音频-唇形同步和错误累积方面也展现出了更好的性能。

MEMO ComfyUI体验

社区已有ComfyUI-IF_MemoAvatar支持Memo在ComfyUI中的体验。仅需通过插件管理器搜索安装该插件即可。 ComfyUI-IF_MemoAvatar插件支持以下特点：

• 表情丰富的视频生成：能够根据一张静态图片生成表情丰富的对话视频。
• 音频驱动的面部动画：通过音频输入驱动，实现面部动画的效果。
• 情感表达转移：能够将情感表达从音频转移到视频中的头像上。
• 高质量视频输出：输出的视频质量高，细节丰富。

MEMO插件安装指南

• ComfyUI-IF_MemoAvatar插件：https://github.com/if-ai/ComfyUI-IF_MemoAvatar
• Memo：首次运行会自动下载模型并放置 /ComfyUI/models/checkpoints/memo/目录下。下载地址：https://huggingface.co/memoavatar/memo/tree/main
• wav2vec：首次运行会自动下载模型并放置 /ComfyUI/models/wav2vec/目录下。下载地址：https://huggingface.co/facebook/wav2vec2-large-960h/tree/main
• sd-vae-ft-mse：首次运行会自动下载模型并放置 /ComfyUI/models/vae/sd-vae-ft-mse/目录下。下载地址：https://huggingface.co/stabilityai/sd-vae-ft-mse/tree/main
• emotion2vec_plus_large：首次运行会自动下载模型并放置 /ComfyUI/models/emotion2vec/emotion2vec_plus_large/目录下。下载地址：https://huggingface.co/emotion2vec/emotion2vec_plus_large/tree/main
• 注意：Linux系统可以直接通过pip install xformers安装。Windows环境没有xformers的，则可以参考：https://ko-fi.com/post/Installing-Triton-and-Sage-Attention-Flash-Attenti-P5P8175434。
• 另外，当本地目录不存在models.json 文件时候，程序将会每次运行自动下载对应模型。因此如果手动下载请确保该文件存在，并且内容正确。同时还需要保证目录/ComfyUI/models/checkpoints/memo/misc/face_analysis下包含version.txt，并且包含0.7.3的内容。模型已按照对应目录打包放置网盘文末可下载。

{
  "detection":[
"scrfd_10g_bnkps"
],
"recognition":[
"glintr100"
],
"analysis":[
"genderage",
"2d106det",
"1k3d68"
]
}

Flux文生图工作流

Flux文生图感兴趣的同学可参考LIBLIB在线运行工作流：FLUX[续篇]：12B参数23G最大开源文生图模型，Dev版直出惊艳美图欣赏

本文涉及ComfyUI工作流和模型均可在LIBLIBAI上下载或在线运行体验：

• F.1-绮梦流光-水湄凝香：

https://www.liblib.art/modelinfo/134c6dd95aef48e98a22b24e003e026b

• 工作流-Flux文|图生图+LORA+提示反推一键切换工作流：

https://www.liblib.art/modelinfo/782aacd70f604da39e83368c696a02a8

MEMO工作流

MEMO工作流已上传LIBLIB平台：

https://www.liblib.art/modelinfo/c4d41ff8bfb84e9ba0c04e99a9177dc2?versionUuid=b31820df5f1d49eca6d43f64b6057c34

注意：

• 工作流中的select_audio按钮并不工作（报错405），直接在audio参数输入路径path即可。
• 该工作流默认生成后视频保存在ComfyUI/output目录下，后续路径加载视频预览未工作，后续改进。

01

输入音频
输出视频

02

输入音频
输出视频

03

输入音频
输出视频

MEMO模型下载:关注公众号口令【ComfyUI插件】获取memo-models文件

• [ComfyUI]腾讯混元视频：开源LORA生态来啦！视频人物一致性&运镜可控性里程碑，支持NSFW

• [ComfyUI]OminiControl：Flux全能P图神器！乾坤大挪移&重绘&CN控制，极简全能控制器

• [ComfyUI]Flux：国潮经典！敦煌古韵与现代极简国潮插画，敦煌风十二生肖和邮票集锦

• [ComfyUI]Flux：MJ艺术风！基于黑森林F1的Midjourney风，光效&写实&建模&演示&特写镜头

感兴趣加入[AGI技术交流群]+V

如果觉得文章不错，就请赞、在看与转发三连

破狼

关注AIGC、LLM、绘图作品、软件工程、技术学习。交流+V：shunshizhiwu。

最新文章

[ComfyUI]Flux：圣诞主题皮肤！小红书照片最强网感时尚穿搭

[ComfyUI]FastVideo：混元官方点赞，6步8倍轻量级加速模型！腾讯混元视频模型一致性蒸馏技术

腾讯混元视频：ComfyUI官方原生支持！GGUF量化低显存福音！开源生态高速发展

[ComfyUI]MagicQuill：无需PS全功能P图编辑工具！8G可运行，最全避坑指南

[ComfyUI]如意：智驾企业下场搞开源视频模型！7B图生视频&首尾帧&任意宽高比&增强运动与相机控制

[ComfyUI]MEMO：让静止图片活起来！音唇同步&丰富且自然表情的对话视频生成技术

[ComfyUI]腾讯混元视频：运动镜头控制！行走动画LORA，最强开源视频可控性里程碑

[ComfyUI]OminiControl：Flux全能P图神器！乾坤大挪移&重绘&CN控制，极简全能控制器

[ComfyUI]腾讯混元视频：开源LORA生态来啦！视频人物一致性&运镜可控性里程碑，支持NSFW

[ComfyUI]ZenID：面部融合神器！揭秘基因遗传，提前预测你和她的下一代基因

ComfyUI原生精确多区域控制！官方最新LoRA和模型权重的遮罩和调度方法

腾讯混元视频:视频写真换脸,请合理使用！工作流一键视频写真,最强导演级&虚拟与现实完美融合开源视频模型

[ComfyUI]Flux：极致光影！F1复古胶片摄影写实，模拟胶片极致色彩&光影&颗粒感

[ComfyUI]Flux：MJ艺术风！基于黑森林F1的Midjourney风，光效&写实&建模&演示&特写镜头

Shuttle 3.1 Aesthetic：低显存福音！S3D升级写实提升，4步秒级出图可商用，ComfyUI体验

[ComfyUI]腾讯混元视频：v2v视频驱动，最强开源视频模型，影视级画质与导演级运镜，本地16G可体验

[ComfyUI]AWPortraitCN：更真实质感细腻！专门针对国人外貌和审美优化F1模型

[ComfyUI]腾讯混元视频：虚实完美融合创意无极限！130亿大杯&影视级画质&导演级运镜&原生切镜&遵循物理运动&连续动作

DistyFlow：与众不同的工作流体验！降低入门难度，快捷高效全新体验，不容错过高效利器

[ComfyUI]Flux：国潮经典！敦煌古韵与现代极简国潮插画，敦煌风十二生肖和邮票集锦

[ComfyUI]CATVTON-Flux:电商虚拟换衣！基于黑森林F1重绘和阿里In Context LORA电商服装一致性

写实效果炸裂！疑似AI概率最低仅1%，轻松通过AI检测适用小红书日常写实模型，无缝接入ComfyUI自动化设计流程

[ComfyUI]RecraftAI：霸榜&比F1更真实的小红书写实风格模型！小熊猫无缝接入工作流自动化设计流程

IC-Light V2-Vary：打光模型重大升级，具有更强的光照变化，适用商用产品&摄影打光

ComfyUI桌面发布和开源，汉化共享等技巧，逐步完善win&mac多平台体验

[ComfyUI]SD3.5：ControlNet重磅发布！激烈竞争能否夺回黑森林Flux高地？

Lumiere：细节真实！专注更真实保持无损原生提示遵循和构图模型

[ComfyUI]Flux-IPA：效果惊艳！IPA基于10M数据F1专属风格迁移！补齐黑森林遗憾和空缺

[ComfyUI]LTXV：超高效视频模型！仅需4秒生成5秒24帧高质量视频，运动一致性且消除物体变形

[ComfyUI]FluxCN：精确控制！F1可控性组件最全剖析，线稿上色和转绘实战，黑森林官方下场亲手打造F1生态

[ComfyUI]FluxFill：先进与高效重绘和扩图神器，超越阿里等同类模型，黑森林官方下场亲手打造F1生态

[ComfyUI]FluxRedux：超好玩创意灵感，一丝小遗憾！F1风格化溶图组件，黑森林官方下场亲手打造F1生态

FLUX.1-Tools：黑森林官方重磅出手构建F1完善生态，补齐CN&IPA！加速生态里程碑进程

智谱CogVideoX1.5：重大升级，可商用开源模型！10秒&增强质量&任意分辨率，ComfyUI无缝体验

[ComfyUI]Flux：Lovely网红写真，极致细节写实，小红书网红人物写真风格

太酷啦！实时人物表情编辑神器，ComfyUI玩转视频表情无限创意

[ComfyUI]Flux：国漫经典《诛仙》之陆雪琪

PixelWave：更真实细节|动漫|摄影多种艺术风格显著提升，基于黑森林F.1D超5周精调模型

腾讯Hunyuan3D：仅需10秒生成3D视图，首个同时支持文字和图像生成3D开源模型，3D游戏|影视|电商|虚拟现实

PromptGenV2：仅1G低显存福音！更适合F1的CLIP和T5双通道反推！接近Joy性能与速率平衡反推模型

15秒F.1D直出，极限无损加速方案，环境大升级敢不敢来试？

Shuttle-3-Diffusion：可商用F.1去蒸馏模型！仅4步约3秒出图，性能质量显著提升

Mochi1：更简单和可商用，ComfyUI内核支持，社区生态推动4张H100到消费级显卡可用

CogVideo:重磅升级！图生视频完美镜头控制和3D环绕,商用级开源AI视频曙光

阿里InContextLoRA：更强ID一致性！基于黑森林F1身份一致性连贯视频分镜图集，10组风格无限创意

Flux-NewReality:栩栩如生摄影级解禁模型,追求真实细节&风景&神话高品质艺术

[ComfyUI]InstantIR：来自小红书团队模糊图像修复技术，效果是否惊艳？

更像了！5个百分点提升，字节写真换脸PuLID-F1再升级，小红书流量密码

[ComfyUI]F.1服装生成器，20.5K数据LORA助力服装电商设计

OmniGen：统一图像生成和多任务集成模型，任意人物自由合影，8位量化7G可体验

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉