蚂蚁集团开源首个音频驱动图片半身数字人项目,肢体动作和手型优化太强了!

科技   2024-11-27 18:55  


今天的这个项目牛!


现在市面上有很多克隆数字人,也就是用音频驱动图片、视频。


但实际上只是驱动了口型,并不是完全意义上的数字人。至少开源的类似项目没有见到过对动作优化的很好的,如果有的话你也可以在评论区告诉大家。


蚂蚁集团把EchoMimic项目升级了,EchoMimic是一个音频驱动图片的项目。这几天开源了EchoMimicV2,做了一个很大的升级,现在可以驱动半身的照片了,而且有了肢体动作,还有一点很重要,它对生成的手做了特殊优化!如果参考图中没有手或者手部变形,就会重新生成一个高质量的手。



扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)



项目简介


EchoMimicV2是蚂蚁集团开源的音频驱动半身人体动画生成技术,它通过简化的条件来实现高质量的动画效果。该项目利用音频姿态动态协调策略(APDH),通过音频和姿态的精细调节,显著降低了姿态条件的冗余,同时增强了动画的表现力和细节质量。EchoMimicV2还引入了头部偏注意力机制来强化半身数据的面部表情,无需额外模块即可提升动画的自然性和表达力。


DEMO


先看下EchoMimicV1版本的效果,只是驱动了口型,类似项目很多。



V2版本实在是太给力了!


对中文也做了特殊的优化。



技术特点


1.音频姿态动态协调(APDH):EchoMimicV2核心的APDH策略,通过动态调整音频和姿态输入,优化了条件复杂性。这一策略包括姿态采样和音频扩散两个主要环节,使得音频不仅控制口部动作,还能扩展到整个半身的动画表现,实现更加和谐的视听一致性。



2.用于数据增强的头部偏注意力(HPA)机制:为了解决半身动画数据稀缺的问题,EchoMimicV2采用了头部偏注意力机制。通过这一机制,可以在不增加额外计算负担的情况下,将面部表情的细节加以强化,提高动画的真实感和表现力。EchoMimicV2能够无缝地利用已有的头像数据增强训练集,增强模型对半身图像中面部表情的学习和再现能力,无需依赖于额外的数据处理模块。


3.阶段特定去噪损失(PhD Loss):该技术通过定义不同的去噪阶段,为每个阶段定制了特定的损失函数,包括姿态主导损失、细节主导损失和低级别损失。这种分阶段的优化方法,确保了动画在动作表现、细节丰富性和视觉质量上的均衡提升。



项目链接


https://www.dongaigc.com/p/antgroup/echomimic_v2


 关注「开源AI项目落地」公众号

与AI时代更靠近一点

 关注「AGI光年」公众号

获取每日最新资讯

 关注「向量光年」公众号

加速全行业向AI转变

开源AI项目落地
分享有价值的开源项目,并且致力于Ai项目的落地。
 最新文章