昨天介绍了阿里的语音模型,今天介绍阿里的视频模型——EchoMimic,能够生成肖像视频,不仅可以单独使用音频和面部标志,还可以结合音频和选定的面部标志来生成。上周刚刚发布。
简介
EchoMimic能够生成肖像视频,不仅可以单独使用音频和面部标志,还可以结合音频和选定的面部标志来生成。
肖像图像动画领域通过音频输入的推动,已经在生成逼真且动态的肖像方面取得了显著进展。传统方法通常仅使用音频或面部关键点来驱动图像生成视频,尽管这些方法能产生令人满意的结果,但仍存在一些问题。例如,单纯依靠音频驱动的方法有时会因为音频信号较弱而不稳定,而单纯依靠面部关键点的方法尽管驱动更稳定,但由于过度控制关键点信息,结果可能显得不自然。EchoMimic通过一种新颖的训练策略,同时利用音频和面部标志进行训练。通过这种方法,EchoMimic不仅可以单独使用音频和面部标志生成肖像视频,还可以结合音频和选定的面部标志进行生成。
场景
音频驱动(中文)
音频驱动(英文)
音频驱动(唱歌)
面部标志驱动
音频 + 选定面部标志驱动
ComfyUI中使用
ComfyUI中也可以支持EchoMimic。