阿里终于开源数字人技术!!

科技   2024-07-29 08:18   北京  
最近直播超级多,预约保你有收获

1

数字人技术的难点

数字人技术目前在很多场景都已经落地,包括:虚拟数字人直播,大幅提升了直播效率并降低了公司成本。
但是在数字人行业解决方案的研发过程中,关键的技术挑战主要涵盖以下几点:确保人物模型动作的流畅性与自然度,并结合灵活多变的直播语言表达技巧,以达成栩栩如生的数字人主播效果。

尽管市面上已有众多商业平台推出了一系列解决方案,但此次,蚂蚁集团的支付宝开源了其数字人技术:EchoMimic该技术使得人物表情生动多样,动作流畅自然,适用于虚拟主播和人物视频的生成。现在,无需任何费用,用户即可构建一套属于自己的数字人系统!

 2

阿里开源 EchoMimic 数字人技术

EchoMimic 能够通过音频和面部标志单独生成人像视频,也可以通过音频和选定的面部标志的组合来生成,技术架构如下所示。

在音频输入推动下的人像图像动画领域,已经取得了在生成逼真动态人像方面的显著进步。传统方法局限于使用音频或面部关键点将图像转化为视频,虽然它们可以产生满意的结果,但某些问题仍然存在。比如:仅由音频驱动的方法有时可能因为相对较弱的音频信号而不稳定,而仅由面部关键点驱动的方法虽然在驱动上更为稳定,但由于关键点信息的过度控制,可能导致结果不自然。为了解决上述挑战,阿里采用了 EchoMimic 的新方法。EchoMimic 同时使用音频和面部标志进行训练。通过实施一种新颖的训练策略,EchoMimic 不仅能通过音频和面部标志单独生成人像视频,还可以通过音频和选定的面部标志的组合来生成。EchoMimic 已经在各种公共数据集和我们收集的数据集上与其它算法进行了全面比较,无论是在定量还是定性评估中都展示了卓越的性能。额外的可视化效果和源代码可以在 EchoMimic 项目页面上找到。

Github 地址https://github.com/BadToBest/EchoMimic

官方地址https://badtobest.github.io/echomimic.html


 3

阿里数字人功能介绍

EchoMimic 模型的核心是一款以音频为驱动的肖像动画制作工具,它利用可编辑的特征点来生成栩栩如生且自然的动画效果。如果用户对人物动作的表现不满意,完全可以借助编辑图像的特征点来精细化调整动画的细节。
全部操作都提供了 Web 可视化操作平台,不用写任何代码,只需要简单调整按钮参数即可完成。
EchoMimic 功能特点如下所示:
  • 动画可通过用户上传的音频来驱动,能够根据音频内容创建人物肖像的动画,例如制作唱歌或说话的视频。

  • 同时该技术支持通过姿势数据来驱动动画,可以根据不同的姿势生成人物肖像的动画效果。

  • 此外还支持音频与姿势的混合驱动方式,可以结合音频和姿势数据共同生成动画。

  • 系统还提供了 WebUI 界面,使得操作更加简便易用。

为了帮助同学们彻底掌握大模型的应用开发、LangChain、RAG、Agent、Fine-tuning 微调、预训练、Prompt Engineering、向量数据库、部署、生产化,请同学们点击以下预约按钮免费预约。


4

加我微信

有很多企业级落地实战案例,不方便公开发公众号,我会直接分享在朋友圈欢迎你扫码加我个人微信来看👇

⬇戳”阅读原文“,立即预约!

END


玄姐聊AGI
5年连续创业者,融资超亿元 | AI 大模型资深应用专家 |前58集团技术委员主席|前百度资深工程师|大厂 MVP| 毕业浙江大学
 最新文章