点击下方卡片,关注「魔方AI空间」公众号
在上周,快手发布LivePortrait,一种用于生成逼真肖像动画的框架,只需一张静态肖像图像就能生成动态视频。详细内容可参考:《太强了!快手的LivePortrait:肖像动画框架 | 可精准控制眼睛和嘴唇动作》
与LivePortrait不同,EchoMimic 不仅能通过参考表情生成视频,还能够通过音频匹配对应口型,还支持将两者混用,即通过音频控制口型,通过 landmarks 来控制姿势和表情。
简介
肖像图像动画领域在生成逼真和动态的肖像方面取得了显著进展。传统方法仅限于使用音频或面部关键点来驱动图像转换为视频,但存在一些局限性,如音频驱动的方法可能不稳定,而关键点驱动的方法可能导致不自然的结果。
EchoMimic能够通过音频、面部关键点或两者的组合来生成肖像视频。在多个公共数据集和收集的数据集上与替代算法进行了全面比较,展示了在定量和定性评估中的优越性能。
项目主页:https://badtobest.github.io/echomimic.html
方法概述
EchoMimic 框架的基础组件是Denoising U-Net 架构,如图 2 所示。为了增强网络吸收不同输入的能力,EchoMimic 集成了三个专用模块:用于编码参考图像的 Reference U-Net、Landmark用于使用面部标志引导网络的编码器,以及用于对音频输入进行编码的音频编码器。
Denoising U-Net:定制的网络,用于加强多帧图像在不同噪声条件下的表现,灵感来自 SDv1.5,集成了三种注意力层以优化空间和时间的关联。 Reference U-Net:专用模块,与 Denoising U-Net 并行工作,用于编码参考图像,保持面部和背景一致性,通过自注意力机制提取特征,防止噪声干扰。 Audio Encoder:通过 Wav2Vec 模型提取音频特征,驱动角色动画,考虑过去和未来的音频片段,通过交叉注意机制整合语音特征,提升动画真实感。 Landmark Encoder:将面部关键点图像编码为特征,与潜在表示结合,通过元素级添加,确保生成过程中的解剖结构和运动准确性。 Temporal Attention Layer:通过自注意力机制沿时间轴捕捉帧间依赖,确保视频序列的时间连贯性,提升自然流畅度。 Spatial Loss:提出时间步感知的空间损失函数,直接在像素空间学习面部结构,结合 MSE 和 LPIPS 损失细化图像细节,调整权重以优化大时间步的模型收敛。
主要解决的问题
仅由音频驱动的不稳定性:
传统方法仅使用音频信号来驱动图像生成视频,然而音频信号相对较弱,容易导致生成的视频不稳定。 EchoMimic 通过结合音频和面部标志的输入,提高视频生成的稳定性,使得输出更加平滑和一致。
仅由面部关键点驱动的不自然性:
另一种传统方法是仅使用面部关键点来驱动图像生成视频,这虽然在驱动上更稳定,但由于过多依赖关键点信息,生成的结果往往显得不够自然。 EchoMimic 通过平衡音频和面部标志的输入,使生成的视频更符合实际的面部运动和表情变化,从而提高了自然度。
效果演示
EchoMimic 可以仅通过音频输入生成肖像动画视频。这种方法通过分析音频信号中的语调、节奏和其他特征,生成与音频同步的面部动画。
EchoMimic 可以仅通过面部关键点(如眼睛、嘴巴等位置的标志)来生成肖像视频。这种方法通过跟踪和使用面部标志的位置变化来生成动画。
EchoMimic 的核心功能是将音频和面部标志结合在一起进行训练和生成。这种方法通过同时考虑音频信号和面部标志的位置变化,生成更自然、更逼真的肖像动画。
EchoMimic 支持不同语言的音频输入,并能够根据不同语言的特点生成相应的肖像动画,此外,它还可以处理不同风格的音频,如普通话、英语和歌唱等。
技术交流
加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!
加入知识星球,学习系统性AIGC知识!!!
往期文章
• 太强了!快手的LivePortrait:肖像动画框架 | 可精准控制眼睛和嘴唇动作
• 商汤重磅推出Vimi——亮相WAIC,成为“镇馆之宝” | 2024世界人工智能大会
• FoleyCrafter:自动为视频配音 | 开源AI配音技术 | AI视频有声时代真的来了
• AI视频进入有声时代 | 谷歌 DeepMind 发布V2A:轻松给AI视频配音
• 变天啦!?| Luma 发布视频生成模型 Dream Machine,直逼电影级效果!
• UniAnimate:可控人体视频生成新框架,跳舞视频生成技术再添一员
• MOFA-Video:图像到视频的可控生成框架,可本地一键部署
• AIGC |「视频生成」系列之Hunyuan-DiT:基于DiT架构的最佳中文实践
• 「文生一切」大模型Lumina-T2X:一个框架整合图像、视频、音频和3D生成(附体验地址)