阿里开源EchoMimic: 又一数字人头技术 | 肖像动画框架

2024-07-14 19:52   北京  

点击下方卡片,关注「魔方AI空间」公众号

在上周,快手发布LivePortrait,一种用于生成逼真肖像动画的框架,只需一张静态肖像图像就能生成动态视频。详细内容可参考:《太强了!快手的LivePortrait:肖像动画框架 | 可精准控制眼睛和嘴唇动作

与LivePortrait不同,EchoMimic 不仅能通过参考表情生成视频,还能够通过音频匹配对应口型,还支持将两者混用,即通过音频控制口型,通过 landmarks 来控制姿势和表情。

简介

肖像图像动画领域在生成逼真和动态的肖像方面取得了显著进展。传统方法仅限于使用音频或面部关键点来驱动图像转换为视频,但存在一些局限性,如音频驱动的方法可能不稳定,而关键点驱动的方法可能导致不自然的结果。

EchoMimic能够通过音频、面部关键点或两者的组合来生成肖像视频。在多个公共数据集和收集的数据集上与替代算法进行了全面比较,展示了在定量和定性评估中的优越性能。

项目主页:https://badtobest.github.io/echomimic.html

图 1:EchoMimic 能够通过音频、面部标志以及音频和选定面部标志的组合生成肖像视频。

方法概述

EchoMimic 框架的基础组件是Denoising U-Net 架构,如图 2 所示。为了增强网络吸收不同输入的能力,EchoMimic 集成了三个专用模块:用于编码参考图像的 Reference U-Net、Landmark用于使用面部标志引导网络的编码器,以及用于对音频输入进行编码的音频编码器。

图2 EchoMimic 框架整体流程
  • Denoising U-Net:定制的网络,用于加强多帧图像在不同噪声条件下的表现,灵感来自 SDv1.5,集成了三种注意力层以优化空间和时间的关联。
  • Reference U-Net:专用模块,与 Denoising U-Net 并行工作,用于编码参考图像,保持面部和背景一致性,通过自注意力机制提取特征,防止噪声干扰。
  • Audio Encoder:通过 Wav2Vec 模型提取音频特征,驱动角色动画,考虑过去和未来的音频片段,通过交叉注意机制整合语音特征,提升动画真实感。
  • Landmark Encoder:将面部关键点图像编码为特征,与潜在表示结合,通过元素级添加,确保生成过程中的解剖结构和运动准确性。
  • Temporal Attention Layer:通过自注意力机制沿时间轴捕捉帧间依赖,确保视频序列的时间连贯性,提升自然流畅度。
  • Spatial Loss:提出时间步感知的空间损失函数,直接在像素空间学习面部结构,结合 MSE 和 LPIPS 损失细化图像细节,调整权重以优化大时间步的模型收敛。

主要解决的问题

  1. 仅由音频驱动的不稳定性:
  • 传统方法仅使用音频信号来驱动图像生成视频,然而音频信号相对较弱,容易导致生成的视频不稳定。
  • EchoMimic 通过结合音频和面部标志的输入,提高视频生成的稳定性,使得输出更加平滑和一致。
  1. 仅由面部关键点驱动的不自然性:
  • 另一种传统方法是仅使用面部关键点来驱动图像生成视频,这虽然在驱动上更稳定,但由于过多依赖关键点信息,生成的结果往往显得不够自然。
  • EchoMimic 通过平衡音频和面部标志的输入,使生成的视频更符合实际的面部运动和表情变化,从而提高了自然度。

效果演示

1.单独通过音频生成肖像视频

EchoMimic 可以仅通过音频输入生成肖像动画视频。这种方法通过分析音频信号中的语调、节奏和其他特征,生成与音频同步的面部动画。

2.单独通过面部标志生成肖像视频

EchoMimic 可以仅通过面部关键点(如眼睛、嘴巴等位置的标志)来生成肖像视频。这种方法通过跟踪和使用面部标志的位置变化来生成动画。

3.结合音频和选定的面部标志生成肖像视频

EchoMimic 的核心功能是将音频和面部标志结合在一起进行训练和生成。这种方法通过同时考虑音频信号和面部标志的位置变化,生成更自然、更逼真的肖像动画。

4.多语言和多风格支持

EchoMimic 支持不同语言的音频输入,并能够根据不同语言的特点生成相应的肖像动画,此外,它还可以处理不同风格的音频,如普通话、英语和歌唱等。

技术交流

加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!

加入知识星球,学习系统性AIGC知识

往期文章

AIGCmagic社区共建邀请函!

太强了!快手的LivePortrait:肖像动画框架 | 可精准控制眼睛和嘴唇动作

商汤重磅推出Vimi——亮相WAIC,成为“镇馆之宝” | 2024世界人工智能大会

FoleyCrafter:自动为视频配音 | 开源AI配音技术 | AI视频有声时代真的来了

AI视频进入有声时代 | 谷歌 DeepMind 发布V2A:轻松给AI视频配音

变天啦!?| Luma 发布视频生成模型 Dream Machine,直逼电影级效果!

UniAnimate:可控人体视频生成新框架,跳舞视频生成技术再添一员

MOFA-Video:图像到视频的可控生成框架,可本地一键部署

AIGC |「视频生成」系列之Hunyuan-DiT:基于DiT架构的最佳中文实践

「文生一切」大模型Lumina-T2X:一个框架整合图像、视频、音频和3D生成(附体验地址)

AIGC |「视频生成」系列之Vidu:国内首个可媲美Sora的视频生成模型

AIGC |「视频生成」系列之ID-Animator:可保持角色一致生成视频动画

魔方AI空间
AI技术从业者与爱好者,专注于计算机视觉、深度学习、行为识别、多模态、边缘智能等前沿科技成果的研究和技术分享!
 最新文章