EchoMimic全面升级！从数字脸到数字人，输入图+音频+手势即可！

文摘 2024-11-27 09:21 湖北

项目简介

蚂蚁集团支付宝开源了数字人技术：EchoMimic，可用于虚拟主播、视频编辑等

效果比SadTalker、MuseTalk好，表情更丰富动作更顺畅

EchoMimic是一个基于音频驱动的肖像动画生成工具，通过可编辑的特征点条件生成逼真、自然的动画，用户可以根据自己的需求调整动画细节

功能

1、音频驱动动画，可以根据音频生成人物肖像的动画，比如唱歌、说话视频等

2、姿势驱动动画，可以根据姿势数据生成人物肖像的动画

3、音频和姿势混合驱动动画，可以同时使用音频和姿势数据来生成动画

4、WebUI 和 GradioUI，提供图形界面，易于使用

安装

下载代码

  git clone https://github.com/antgroup/echomimic_v2  cd echomimic_v2

Python环境设置

测试的系统环境：Centos 7.2/Ubuntu 22.04，Cuda >= 11.7
测试的GPU：A100(80G) / RTX4090D (24G) / V100(16G)
测试的Python版本：3.8 / 3.10 / 3.11

创建conda环境（推荐）：

  conda create -n echomimic python=3.10  conda activate echomimic

使用pip安装软件包

  pip install pip -U  pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124  pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124  pip install -r requirements.txt  pip install --no-deps facenet_pytorch==2.6.0

下载 ffmpeg-static

下载并解压ffmpeg-static ，然后

export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

下载预训练权重

git lfs installgit clone https://huggingface.co/BadToBest/EchoMimicV2 pretrained_weights

pretrained_weights的组织方式如下。

./pretrained_weights/├── denoising_unet.pth├── reference_unet.pth├── motion_module.pth├── pose_encoder.pth├── sd-vae-ft-mse│   └── ...├── sd-image-variations-diffusers│   └── ...└── audio_processor    └── tiny.pt

其中enoising_unet.pth /reference_unet.pth /motion_module.pth /pose_encoder.pth是EchoMimic的主要检查点。该中心的其他模型也可以从其原始中心下载，这要归功于他们的精彩作品：

演示推理

运行gradio：

python app.py

切片数据集：

bash ./EMTD_dataset/slice.sh

处理数据集：

python ./EMTD_dataset/preprocess.py

项目链接

https://github.com/antgroup/echomimic_v2

扫码加入技术交流群，备注「开发语言-城市-昵称」

合作请注明

关注「GitHubStore」公众号

http://mp.weixin.qq.com/s?__biz=MzkxNjQ4MzMyOA==&mid=2247491709&idx=1&sn=193c6ad0d9fa01e56e2d56e35d1b0f8e

GitHubStore

分享有意思的开源项目

最新文章

EchoMimic全面升级！从数字脸到数字人，输入图+音频+手势即可！

统一的生成式AI接口工具aisuite

微软推出RAG的新方法：LazyGraphRAG

亚马逊推出AI多智能体协调器

本地AI助手Perplexideez

下一代AI Agent框架TEN Framework

PostgreSQL的PDF数据类型扩展pgpdf

从文档中提取结构化数据Documind

将Markdown转换为精美海报图片

AI旅行助手

实时语音交互数字人平台VideoChat

图像不适宜内容检测工具NSFW Detector

Logo 生成器

开源机器人自动化项目SimpleAutomation

从构思到成文帮你组织和撰写文档的多智能体系统Kiroku

无所不能先进的混合型人脸识别工具包DeepFace！

保留原排版的PDF文档翻译工具：PDFMathTranslate

自适应的网页抓取工具Scrapling

智能会议记录与分析工具Offmute

超高精度将图像或 PDF 转换为 Markdown 或 JSON

开源向量数据库性能对比: Milvus, Chroma, Qdrant

基于openai破解验证码

基于苹果MLX框架的视频字幕生成工具：MLX-Auto-Subtitled-Video-Generator

浏览器智能助手cerebellum

群控软件LinkAndroid

E2B桌面沙箱：为大型语言模型提供图形桌面环境的沙盒服务

AI会议助手MeetingMind

视频生成神器：genmoai-smol

序列建模利器：Google开源序列建模库

构建可扩展的智能Agent应用框架Bee Agent Framework

KAG：基于 OpenSPG 引擎的知识增强生成框架

能在手机上实时运行的超轻量级虚拟人

AMT-APC自动钢琴伴奏

优雅阅读实时热门新闻的工具NewsNow

超快速的语音转文字工具whisper-turbo-mlx

wechat-article-exporter：微信文章批量下载

开源的飞书文档下载 Chrome 插件：Cloud Document Converter

功能颇为丰富的开源工具：eSearch

微型赛车Racer：开源的微型遥控赛车项目

实时AI图像生成器BlinkShot

上海交通大学开源的非常牛音生成模型 F5-TTS

微软推出的用于1bit大型语言模型推理的官方框架BitNet

一款虚拟试衣应用Virtual Try-On App

文档布局分析工具DocLayout-YOLO

可视化爬虫平台kspider

语义查询引擎LOTUS

Semantic Cache：基于语义相似性而非字面相等的模糊键值存储工具

基于知识图谱的智能问答系统：fact-finder

一款AI agent和RAG应用的监控分析工具：Laminar

Knowledge Table：简化从非结构化文档中提取和探索结构化数据

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉