Paper Reading | MEMO:记忆引导扩散模型实现生动的Talking Head生成

文摘   2025-01-09 21:57   浙江  

项目主页:

https://memoavatar.github.io/


论文链接:

https://arxiv.org/abs/2412.04448


代码链接:

https://github.com/memoavatar/memo


模型链接:

https://www.modelscope.cn/models/ltzheng/memo


近期,来自Skywork AI、南洋理工大学、新加坡国立大学的研究团队发布了最新的视频生成模型MEMO,一经推出便在学术界和技术社区引起了广泛关注。MEMO能够仅通过一张图片和一段音频,生成逼真且富有表现力的人像视频,不仅在音频与口型同步方面表现出色,还能生成自然流畅的面部表情和动作,使得生成的视频栩栩如生,仿佛真人在表演。


MEMO模型采用了先进的扩散模型框架,不仅能够实现精准的音频与口型同步,还能够保持长时间的人物身份一致性,并生成与音频情感相匹配的自然表情动作。例如,人物在讲话时能够根据情绪节奏做出抬眉、皱眉、叹气等细微动作;在唱歌时,表情和动作更加生动自然,适应不同的音乐风格。


MEMO能够生成多种图像风格的输入,例如人像、雕塑、AI艺术、动画等


雕塑

画像

AI艺术

MEMO还支持不同音频类型的输入,包括演讲、唱歌、说唱等


演讲

唱歌

说唱

MEMO还具备多语言支持:例如英语、普通话、西班牙语、日语、韩语、粤语等


普通话

西班牙语

韩语

更多丰富风格的展示,可移步 项目主页:https://memoavatar.github.io


MEMO技术方案



具体来说,MEMO是如何通过记忆引导和情感感知,实现如此生动的效果呢?


MEMO框架中,外观信息和音频信息分别通过专门设计的模块进行处理。在外观信息处理方面,MEMO引入了记忆引导的时序模块,通过存储长期的上下文信息,提升视频生成的身份一致性和动作流畅性。这一模块利用线性注意力机制,有效捕捉跨时间片段的时序信息,从而更好地建模人物的运动信息。



为了进一步提升效果,MEMO设计了情感感知的音频模块,取代了传统的交叉注意力机制,采用多模态注意力机制增强音频与视频的互动。同时,该模块能够从音频中检测情感,利用情感自适应层归一化技术,细化面部表情,使生成的视频不仅在技术上先进,在情感表达上也更加贴近真实。



MEMO使用起来也很方便,克隆仓库(https://github.com/memoavatar/memo)并按照README配好环境后,只需一行代码即可自动下载模型和生成视频。


点击阅读原文,即可跳转模型链接~




👇点击关注ModelScope公众号获取
更多技术信息~

魔搭ModelScope社区
模型开源社区魔搭社区ModelScope官方账号
 最新文章