首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

阿里开源EchoMimic: 又一数字人头技术 | 肖像动画框架

2024-07-14 19:52 北京

点击下方卡片，关注「魔方AI空间」公众号

在上周，快手发布LivePortrait，一种用于生成逼真肖像动画的框架，只需一张静态肖像图像就能生成动态视频。详细内容可参考：《太强了！快手的LivePortrait：肖像动画框架 | 可精准控制眼睛和嘴唇动作》

与LivePortrait不同，EchoMimic 不仅能通过参考表情生成视频，还能够通过音频匹配对应口型，还支持将两者混用，即通过音频控制口型，通过 landmarks 来控制姿势和表情。

简介

肖像图像动画领域在生成逼真和动态的肖像方面取得了显著进展。传统方法仅限于使用音频或面部关键点来驱动图像转换为视频，但存在一些局限性，如音频驱动的方法可能不稳定，而关键点驱动的方法可能导致不自然的结果。

EchoMimic能够通过音频、面部关键点或两者的组合来生成肖像视频。在多个公共数据集和收集的数据集上与替代算法进行了全面比较，展示了在定量和定性评估中的优越性能。

项目主页：https://badtobest.github.io/echomimic.html

图 1：EchoMimic 能够通过音频、面部标志以及音频和选定面部标志的组合生成肖像视频。

方法概述

EchoMimic 框架的基础组件是Denoising U-Net 架构，如图 2 所示。为了增强网络吸收不同输入的能力，EchoMimic 集成了三个专用模块：用于编码参考图像的 Reference U-Net、Landmark用于使用面部标志引导网络的编码器，以及用于对音频输入进行编码的音频编码器。

图2 EchoMimic 框架整体流程

Denoising U-Net：定制的网络，用于加强多帧图像在不同噪声条件下的表现，灵感来自 SDv1.5，集成了三种注意力层以优化空间和时间的关联。
Reference U-Net：专用模块，与 Denoising U-Net 并行工作，用于编码参考图像，保持面部和背景一致性，通过自注意力机制提取特征，防止噪声干扰。
Audio Encoder：通过 Wav2Vec 模型提取音频特征，驱动角色动画，考虑过去和未来的音频片段，通过交叉注意机制整合语音特征，提升动画真实感。
Landmark Encoder：将面部关键点图像编码为特征，与潜在表示结合，通过元素级添加，确保生成过程中的解剖结构和运动准确性。
Temporal Attention Layer：通过自注意力机制沿时间轴捕捉帧间依赖，确保视频序列的时间连贯性，提升自然流畅度。
Spatial Loss：提出时间步感知的空间损失函数，直接在像素空间学习面部结构，结合 MSE 和 LPIPS 损失细化图像细节，调整权重以优化大时间步的模型收敛。

主要解决的问题

仅由音频驱动的不稳定性：

传统方法仅使用音频信号来驱动图像生成视频，然而音频信号相对较弱，容易导致生成的视频不稳定。
EchoMimic 通过结合音频和面部标志的输入，提高视频生成的稳定性，使得输出更加平滑和一致。

仅由面部关键点驱动的不自然性：

另一种传统方法是仅使用面部关键点来驱动图像生成视频，这虽然在驱动上更稳定，但由于过多依赖关键点信息，生成的结果往往显得不够自然。
EchoMimic 通过平衡音频和面部标志的输入，使生成的视频更符合实际的面部运动和表情变化，从而提高了自然度。

效果演示

1.单独通过音频生成肖像视频

EchoMimic 可以仅通过音频输入生成肖像动画视频。这种方法通过分析音频信号中的语调、节奏和其他特征，生成与音频同步的面部动画。

2.单独通过面部标志生成肖像视频

EchoMimic 可以仅通过面部关键点（如眼睛、嘴巴等位置的标志）来生成肖像视频。这种方法通过跟踪和使用面部标志的位置变化来生成动画。

3.结合音频和选定的面部标志生成肖像视频

EchoMimic 的核心功能是将音频和面部标志结合在一起进行训练和生成。这种方法通过同时考虑音频信号和面部标志的位置变化，生成更自然、更逼真的肖像动画。

4.多语言和多风格支持

EchoMimic 支持不同语言的音频输入，并能够根据不同语言的特点生成相应的肖像动画，此外，它还可以处理不同风格的音频，如普通话、英语和歌唱等。

技术交流

加入「AIGCmagic社区」群聊，一起交流讨论，涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向，可私信或添加微信号：【m_aigc2022】，备注不同方向邀请入群！！

加入知识星球，学习系统性AIGC知识！！！

往期文章

• AIGCmagic社区共建邀请函！

• 太强了！快手的LivePortrait：肖像动画框架 | 可精准控制眼睛和嘴唇动作

• 商汤重磅推出Vimi——亮相WAIC，成为“镇馆之宝” | 2024世界人工智能大会

• FoleyCrafter：自动为视频配音 | 开源AI配音技术 | AI视频有声时代真的来了

• AI视频进入有声时代 | 谷歌 DeepMind 发布V2A：轻松给AI视频配音

• 变天啦！？| Luma 发布视频生成模型 Dream Machine，直逼电影级效果！

• UniAnimate：可控人体视频生成新框架，跳舞视频生成技术再添一员

• MOFA-Video：图像到视频的可控生成框架，可本地一键部署

• AIGC |「视频生成」系列之Hunyuan-DiT：基于DiT架构的最佳中文实践

• 「文生一切」大模型Lumina-T2X：一个框架整合图像、视频、音频和3D生成（附体验地址）

• AIGC |「视频生成」系列之Vidu：国内首个可媲美Sora的视频生成模型

• AIGC |「视频生成」系列之ID-Animator：可保持角色一致生成视频动画

AI技术从业者与爱好者，专注于计算机视觉、深度学习、行为识别、多模态、边缘智能等前沿科技成果的研究和技术分享！

最新文章

2025年开篇｜AI Agent与多模态大模型：智能革命的新纪元

AIGC月刊 | 再见2024，迎接2025（2024.12月第八期）【魔方AI新视界】

导师放养，拿下SCI论文

开源项目 | BrushEdit 新型交互式图像编辑框架

《一书解决几乎所有机器学习问题》.PDF下载

LLaVA系列｜LLaVA-CoT：让视觉语言模型逐步推理

多模态大模型，杀疯了！

综述｜多模态学习是否为医疗保健领域提供了通用智能？

AIGC月刊 | 坚持技术长期主义（2024.11月第七期）【魔方AI新视界】

大模型经典著作《大语言模型基础与前沿》

一文读懂多模态大模型：LLaVA系列 | 从图像到视频内容理解的进化之路

GPT-o1深度揭秘！突破LLM极限，能力超越人类博士生？

一文读懂多模态大模型（MLLM）

开源项目 | SG-I2V：超强图生视频技术，精确控制运动轨迹

开源项目 | Mochi：最强开源视频生成模型

AIGC月刊 | 技术可及，顺势而为（2024.10月第六期）【魔方AI新视界】

2w字综述 | 一文掌握Video Diffusion Model视频扩散模型

开源项目 | 多模态大模型VILA：强大的视频理解和多图理解能力

太有意思了 | PhysGen：引入「物理知识」的视频生成模型

开源项目 | 多模态大模型 VideoCLIP-XL：一种新的视频 CLIP 模型

从零走向AGI系列｜从头构建一个小型文本到视频生成模型（T2V）

AIGC月刊 | 多模态爆发，迅速迈向 AGI（2024.9月第五期）【魔方AI新视界】

开源项目 | 多模态大模型Oryx：专注于图像、视频和多视角3D场景的时空理解

AIGC时代算法工程师的面试秘籍（第二十三式2024.9.16-9.29） |【三年面试五年模拟】

开源项目 | 多模态大模型VideoGPT+：集成图像和视频编码器以增强视频理解

国产视频生成大模型 | 书生·筑梦2.0：开启视觉梦幻之旅

开源项目 | 多模态大模型VITA：同时处理视频、图像、文本和音频

Yolo-World | 检测一切模型：高效实时开放词汇目标检测

开源项目 | 多模态大模型VideoLLaMB：长上下文视频理解新框架

开源项目｜多模态大模型：Show-o 统一多模态理解和生成

AIGC月刊 | 大模型/多模态/文生图/AI视频最新技术进展（2024.8月第四期）【魔方AI新视界】

新手必看 | 极简入门「AI文生视频提示词」创作指南

多模态大模型：Video-LLaVA2 视频和图像的智能理解系统

ComfyUI最佳实践 | 免费白嫖「黑神话·悟空」生图实战（人人都能玩）

多模态大模型：LLaVA-OneVision 轻松实现视觉任务迁移 | 单图、多图和视频理解

AI短片创作 | 利用MJ+即梦+Suno快速创作七夕MV视频（全流程复盘，小白也能上手）

开源实操 | 腾讯VTA-LDM：让你的视频自动生成完美音效

半年耕耘，《AIGCmagic社区知识星球》重磅升级！限量活动中！

AIGC 月刊 | 技术革新与应用案例（2024.7月第三期）【魔方AI新视界】

综述 | 一文系统性全面了解“人体视频生成”技术：挑战、方法和见解

开源实操 | DiffIR2VR-Zero：模糊视频8K高清修复技术

新手必看｜一文理解LLM中的Tokens 和 Embeddings

国内有哪些好用的AI视频生成及创作工具

阿里开源EchoMimic: 又一数字人头技术 | 肖像动画框架

Odyssey：好莱坞级的AI视频生成和编辑工具

太强了！快手的LivePortrait：肖像动画框架 | 可精准控制眼睛和嘴唇动作

新手必看 | 44张图带您极简学习Transformer | 分步数学示例（建议收藏）

最新消息 | 快手「可灵AI」Web端平台上线及全新功能限时免费 | 可灵赛事启动

商汤重磅推出Vimi——亮相WAIC，成为“镇馆之宝” | 2024世界人工智能大会

2万字长文｜YOLOv10的起源：YOLO系列的十年全面综述【YOLOv1-YOLOv10】(建议收藏)

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉