阿里的EchoMimic - 生成肖像视频

文摘   2024-07-20 20:02   新加坡  

昨天介绍了阿里的语音模型,今天介绍阿里的视频模型——EchoMimic,能够生成肖像视频,不仅可以单独使用音频和面部标志,还可以结合音频和选定的面部标志来生成。上周刚刚发布。

简介

EchoMimic能够生成肖像视频,不仅可以单独使用音频和面部标志,还可以结合音频和选定的面部标志来生成。

肖像图像动画领域通过音频输入的推动,已经在生成逼真且动态的肖像方面取得了显著进展。传统方法通常仅使用音频或面部关键点来驱动图像生成视频,尽管这些方法能产生令人满意的结果,但仍存在一些问题。例如,单纯依靠音频驱动的方法有时会因为音频信号较弱而不稳定,而单纯依靠面部关键点的方法尽管驱动更稳定,但由于过度控制关键点信息,结果可能显得不自然。EchoMimic通过一种新颖的训练策略,同时利用音频和面部标志进行训练。通过这种方法,EchoMimic不仅可以单独使用音频和面部标志生成肖像视频,还可以结合音频和选定的面部标志进行生成。

场景

音频驱动(中文)

音频驱动(英文)

音频驱动(唱歌)

面部标志驱动

音频 + 选定面部标志驱动

ComfyUI中使用

ComfyUI中也可以支持EchoMimic。

对比

Renee 创业随笔
絮絮叨叨