项目简介
蚂蚁集团支付宝开源了数字人技术:EchoMimic,可用于虚拟主播、视频编辑等
效果比SadTalker、MuseTalk好,表情更丰富动作更顺畅
EchoMimic是一个基于音频驱动的肖像动画生成工具,通过可编辑的特征点条件生成逼真、自然的动画,用户可以根据自己的需求调整动画细节
功能
1、音频驱动动画,可以根据音频生成人物肖像的动画,比如唱歌、说话视频等
2、姿势驱动动画,可以根据姿势数据生成人物肖像的动画
3、音频和姿势混合驱动动画,可以同时使用音频和姿势数据来生成动画
4、WebUI 和 GradioUI,提供图形界面,易于使用
安装
下载代码
git clone https://github.com/antgroup/echomimic_v2
cd echomimic_v2
Python环境设置
测试的系统环境:Centos 7.2/Ubuntu 22.04,Cuda >= 11.7
测试的GPU:A100(80G) / RTX4090D (24G) / V100(16G)
测试的Python版本:3.8 / 3.10 / 3.11
创建conda环境(推荐):
conda create -n echomimic python=3.10
conda activate echomimic
使用pip
安装软件包
pip install pip -U
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124
pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124
pip install -r requirements.txt
pip install --no-deps facenet_pytorch==2.6.0
下载 ffmpeg-static
下载并解压ffmpeg-static ,然后
export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static
下载预训练权重
git lfs install
git clone https://huggingface.co/BadToBest/EchoMimicV2 pretrained_weights
pretrained_weights的组织方式如下。
./pretrained_weights/
├── denoising_unet.pth
├── reference_unet.pth
├── motion_module.pth
├── pose_encoder.pth
├── sd-vae-ft-mse
│ └── ...
├── sd-image-variations-diffusers
│ └── ...
└── audio_processor
└── tiny.pt
其中enoising_unet.pth /reference_unet.pth /motion_module.pth /pose_encoder.pth是EchoMimic的主要检查点。该中心的其他模型也可以从其原始中心下载,这要归功于他们的精彩作品:
演示推理
运行gradio:
python app.py
切片数据集:
bash ./EMTD_dataset/slice.sh
处理数据集:
python ./EMTD_dataset/preprocess.py
项目链接
https://github.com/antgroup/echomimic_v2
扫码加入技术交流群,备注「开发语言-城市-昵称」
合作请注明
关注「GitHubStore」公众号