EchoMimic全面升级!从数字脸到数字人,输入图+音频+手势即可!

文摘   2024-11-27 09:21   湖北  

项目简介

蚂蚁集团支付宝开源了数字人技术:EchoMimic,可用于虚拟主播、视频编辑等

效果比SadTalker、MuseTalk好,表情更丰富动作更顺畅

EchoMimic是一个基于音频驱动的肖像动画生成工具,通过可编辑的特征点条件生成逼真、自然的动画,用户可以根据自己的需求调整动画细节

功能

1、音频驱动动画,可以根据音频生成人物肖像的动画,比如唱歌、说话视频等

2、姿势驱动动画,可以根据姿势数据生成人物肖像的动画

3、音频和姿势混合驱动动画,可以同时使用音频和姿势数据来生成动画

4、WebUI 和 GradioUI,提供图形界面,易于使用

安装

下载代码

  git clone https://github.com/antgroup/echomimic_v2  cd echomimic_v2

Python环境设置

  • 测试的系统环境:Centos 7.2/Ubuntu 22.04,Cuda >= 11.7

  • 测试的GPU:A100(80G) / RTX4090D (24G) / V100(16G)

  • 测试的Python版本:3.8 / 3.10 / 3.11


创建conda环境(推荐):

  conda create -n echomimic python=3.10  conda activate echomimic

使用pip安装软件包

  pip install pip -U  pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124  pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124  pip install -r requirements.txt  pip install --no-deps facenet_pytorch==2.6.0


下载 ffmpeg-static

下载并解压ffmpeg-static ,然后

export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static


下载预训练权重

git lfs installgit clone https://huggingface.co/BadToBest/EchoMimicV2 pretrained_weights

pretrained_weights的组织方式如下。

./pretrained_weights/├── denoising_unet.pth├── reference_unet.pth├── motion_module.pth├── pose_encoder.pth├── sd-vae-ft-mse│   └── ...├── sd-image-variations-diffusers│   └── ...└── audio_processor    └── tiny.pt

其中enoising_unet.pth /reference_unet.pth /motion_module.pth /pose_encoder.pthEchoMimic的主要检查点。该中心的其他模型也可以从其原始中心下载,这要归功于他们的精彩作品:


演示推理

运行gradio

python app.py

切片数据集:

bash ./EMTD_dataset/slice.sh

处理数据集:

python ./EMTD_dataset/preprocess.py

项目链接

https://github.com/antgroup/echomimic_v2

扫码加入技术交流群,备注开发语言-城市-昵称

合作请注明


 

关注「GitHubStore」公众号


GitHubStore
分享有意思的开源项目
 最新文章