阿里的EchoMimic - 生成肖像视频

文摘 2024-07-20 20:02 新加坡

昨天介绍了阿里的语音模型，今天介绍阿里的视频模型——EchoMimic，能够生成肖像视频，不仅可以单独使用音频和面部标志，还可以结合音频和选定的面部标志来生成。上周刚刚发布。

简介

EchoMimic能够生成肖像视频，不仅可以单独使用音频和面部标志，还可以结合音频和选定的面部标志来生成。

肖像图像动画领域通过音频输入的推动，已经在生成逼真且动态的肖像方面取得了显著进展。传统方法通常仅使用音频或面部关键点来驱动图像生成视频，尽管这些方法能产生令人满意的结果，但仍存在一些问题。例如，单纯依靠音频驱动的方法有时会因为音频信号较弱而不稳定，而单纯依靠面部关键点的方法尽管驱动更稳定，但由于过度控制关键点信息，结果可能显得不自然。EchoMimic通过一种新颖的训练策略，同时利用音频和面部标志进行训练。通过这种方法，EchoMimic不仅可以单独使用音频和面部标志生成肖像视频，还可以结合音频和选定的面部标志进行生成。

场景

音频驱动（中文）

音频驱动（英文）

音频驱动（唱歌）

面部标志驱动

音频 + 选定面部标志驱动

ComfyUI中使用

ComfyUI中也可以支持EchoMimic。

对比

http://mp.weixin.qq.com/s?__biz=MzkwOTMzMzk0MQ==&mid=2247489695&idx=1&sn=12de386d3049794aecefc18cf4c01776

Renee 创业随笔

絮絮叨叨

最新文章

【Google 的最新 Paper】生命有可能是由智能生物创造的？！

IMAGDressing

SMooDi - AI 生成逼真且风格化的人物动作

阿里的EchoMimic - 生成肖像视频

阿里的语义识别模型SenseVoice和语音生成模型CosyVoice

Google的Still-Moving：通过少量的静态参考图像生成个性化的视频内容

Google 内部工具 Smart Paste - 通过自动调整粘贴的代码来简化代码编写工作流程

Google 的Magic Insert 通过拖入到目标图片实现风格感知且逼真的插入效果

Google DeepMind 的Video-to-audio research - 为视频配音

Dify - LLM 应用开发平台

Scenario 游戏素材 GAI 试用

threestudio 3D 模型生成试用

Google Search Labs 试用

创业中的爬山（Hill Climbing）算法

Chat.ALL 使用笔记

使用 SadTalker 生成数字人视频

The Meta-Prompts: Guiding GPT to Generate its own Prompts

训练自己的声音：SoftVC VITS Singing Voice Conversion Fork

【AIGC 学习】Bark Text-To-Speech(2) 生产长音频

Shap-E 3D 生成

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉