阿里终于开源数字人技术！！

科技 2024-07-29 08:18 北京

▼最近直播超级多，预约保你有收获

—1—

数字人技术的难点

数字人技术目前在很多场景都已经落地，包括：虚拟数字人直播，大幅提升了直播效率并降低了公司成本。

但是在数字人行业解决方案的研发过程中，关键的技术挑战主要涵盖以下几点：确保人物模型动作的流畅性与自然度，并结合灵活多变的直播语言表达技巧，以达成栩栩如生的数字人主播效果。

尽管市面上已有众多商业平台推出了一系列解决方案，但此次，蚂蚁集团的支付宝开源了其数字人技术：EchoMimic。该技术使得人物表情生动多样，动作流畅自然，适用于虚拟主播和人物视频的生成。现在，无需任何费用，用户即可构建一套属于自己的数字人系统！

—2—

阿里开源 EchoMimic 数字人技术

EchoMimic 能够通过音频和面部标志单独生成人像视频，也可以通过音频和选定的面部标志的组合来生成，技术架构如下所示。

在音频输入推动下的人像图像动画领域，已经取得了在生成逼真动态人像方面的显著进步。传统方法局限于使用音频或面部关键点将图像转化为视频，虽然它们可以产生满意的结果，但某些问题仍然存在。比如：仅由音频驱动的方法有时可能因为相对较弱的音频信号而不稳定，而仅由面部关键点驱动的方法虽然在驱动上更为稳定，但由于关键点信息的过度控制，可能导致结果不自然。为了解决上述挑战，阿里采用了 EchoMimic 的新方法。EchoMimic 同时使用音频和面部标志进行训练。通过实施一种新颖的训练策略，EchoMimic 不仅能通过音频和面部标志单独生成人像视频，还可以通过音频和选定的面部标志的组合来生成。EchoMimic 已经在各种公共数据集和我们收集的数据集上与其它算法进行了全面比较，无论是在定量还是定性评估中都展示了卓越的性能。额外的可视化效果和源代码可以在 EchoMimic 项目页面上找到。

Github 地址：https://github.com/BadToBest/EchoMimic

官方地址：https://badtobest.github.io/echomimic.html

—3—

阿里数字人功能介绍

EchoMimic 模型的核心是一款以音频为驱动的肖像动画制作工具，它利用可编辑的特征点来生成栩栩如生且自然的动画效果。如果用户对人物动作的表现不满意，完全可以借助编辑图像的特征点来精细化调整动画的细节。

全部操作都提供了 Web 可视化操作平台，不用写任何代码，只需要简单调整按钮参数即可完成。

EchoMimic 功能特点如下所示：

动画可通过用户上传的音频来驱动，能够根据音频内容创建人物肖像的动画，例如制作唱歌或说话的视频。
同时该技术支持通过姿势数据来驱动动画，可以根据不同的姿势生成人物肖像的动画效果。
此外还支持音频与姿势的混合驱动方式，可以结合音频和姿势数据共同生成动画。
系统还提供了 WebUI 界面，使得操作更加简便易用。

为了帮助同学们彻底掌握大模型的应用开发、LangChain、RAG、Agent、Fine-tuning 微调、预训练、Prompt Engineering、向量数据库、部署、生产化，请同学们点击以下预约按钮免费预约。

—4—

加我微信

有很多企业级落地实战案例，不方便公开发公众号，我会直接分享在朋友圈，欢迎你扫码加我个人微信来看👇

⬇戳”阅读原文“，立即预约！

END

http://mp.weixin.qq.com/s?__biz=MzIzODIzNzE0NQ==&mid=2654451481&idx=1&sn=8c6142212e34b3107e9776333ac6e6b4

玄姐聊AGI

5年连续创业者，融资超亿元｜ AI 大模型资深应用专家｜前58集团技术委员主席｜前百度资深工程师｜大厂 MVP｜毕业浙江大学

最新文章

中秋限时特供！独家资源大放送，错过再等一年！

通俗易懂理解知识图谱+大模型

知识图谱与大模型的深度结合策略剖析

15种先进的检索增强生成（RAG）技术

2024，裁员根本停不下来！

GPT-5 训练失败的4点思考

阿里P8们全面溃败。。。

15年过去了，TA依旧还是这样？

如何利用RAG+Agent轻松解决企业复杂问题？

一台MacBook搭建商用级RAG知识库

形势越来越严峻了，到处都在降薪或延发工资...

一文剖析AI大模型技术架构的全景视图：从基础实施层、云原生层、模型层、应用技术层、能力层、到应用层

9.6K Stars！这款超实用的 AI 知识库问答系统：MaxKB

比裁员更侮辱人的事发生了。。。

一文搞懂大模型、RAG、函数调用、Agent、知识库、向量数据库、知识图谱、AGI的区别和联系！！

一台MacBook搭建商用级RAG知识库

RAG 架构设计三阶段演进之路

一个人，一年 300W 美元...

57K Stars！这款轻量级Web服务器成为Nginx的理想替代者，实现自动HTTPS功能。

许多公司，已经发不出工资了！尽早做好准备吧

提升 RAG 系统的回答质量：构建高效的 Prompt

大厂今年的薪资。。。

一台MacBook搭建商用级知识库

GraphRAG + Ollama 本地部署全攻略：避坑实战指南

IntelliJ IDEA 2024.2 正式发布，内置 AI，新款默认 UI 太震撼了！

揭秘AI大模型独家福利！你绝不能错过的宝藏资源！

又是删库跑路？传疯了，知名 App 最新回应

一个更小、更快、更干净的 GraphRAG！！

大模型RAG架构落地的十大挑战

全新GPT-4o mini发布！大模型杀疯了！

基于Llama 3.1和一台MacBook搭建商用级知识库

GraphRAG 项目升级！现已支持 Ollama 本地模型接入，打造交互式 UI 体验

一个好朋友的经历，大家也做好准备吧。。。

记我的百万年薪：一竿子到底，相信时间的复利！

Transformer 动画揭秘：数据处理的四大关键技术

大佬吴恩达，yyds！！

腾讯宣布全员调薪了。。。

一文彻底理解大模型 Agent 智能体原理和案例

裁员了，很严重，大家做好准备吧。。。

7K Stars！这款文本转语音（TTS）的效果太震撼，网络上的声音评价真是不能轻信啊！！

聊聊蚂蚁开源多 Agent 框架 muAgent 的架构设计

重磅！LangChain 官方发布 Agent IDE！！

4.5K Stars！为 RAG 而生的数据工程神器！！

赔偿金额高达2N+12！裁员赔偿的新纪录再次被刷新？

RAG 的尽头是 Agent？

RAG 开发四大痛点及解决方案

基于Llama 3.1和一台MacBook搭建商用级知识库

阿里终于开源数字人技术！！

大厂今年的薪资。。。

公司裁员为何总是先从技术人员下手？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉