腾讯提出了一种新颖的框架-AniPortrait,用于生成由音频和参考肖像图像驱动的高质量动画。通俗讲,就是给张照片生成说话的视频。类似阿里的EMO,大家先可以简单看下效果。
相关链接
论文:arxiv.org/abs/2403.17694 代码:github.com/Zejun-Yang/AniPortrait Jupyter:github.com/camenduru/AniPortrait-jupyter
论文阅读
AniPortrait:逼真的人像动画的音频驱动合成
摘要
这项研究提出了一个新的框架:AniPortrait。生成由音频和参考肖像图像驱动的高质量动画。方法分为两个阶段。
最初,我们从音频中提取 3D 中间表示并将其投影到一系列 2D 面部标志中。
随后,我们采用鲁棒的扩散模型,结合运动模块,将地标序列转换为逼真且时间一致的肖像动画。
实验结果证明了AniPortrait在面部自然度、姿势多样性和视觉质量方面的优越性,从而提供了增强的感知体验。
此外,我们的方法在灵活性和可控性方面表现出巨大的潜力,可以有效地应用于面部运动编辑或面部重演等领域。
方法
提出的方法概述:框架分为两个阶段。首先,从音频中提取三维面部网格和头部姿态,然后将这两个元素投影到2D关键点中。在第二阶段,使用扩散模型将2D关键点转换为人像视频。这两个阶段是同时在框架内进行训练。
提出的框架包括两个模块:
Audio2Lmk:目的是提取一系列的地标,捕捉错综复杂的来自音频输入的面部表情和嘴唇动作。 Lmk2Video:利用了这个具有里程碑意义的序列,以产生高质量的肖像视频与时间的稳定性。
结果展示
AniPortrait方法生成一系列的动画在质量和现实主义两方面都引人注目。利用一个中间的三维表示AniPortrait可以编辑它以操纵最终输出。例如AniPortrait可以从来源中提取地标并更改其ID,从而能够创建面部重现效果。
结论
本研究提出了一种基于扩散模型的肖像动画框架-AniPortrait。通过简单地输入一个音频剪辑和一个参考图像,框架能够生成一个肖像视频,具有平滑的嘴唇运动和 自然的头部运动。
感谢你看到这里,也欢迎点击关注下方公众号或者添加下方公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~