NO.1 论文简介
人脸动画技术旨在通过输入源数据(如音频或视频)动态驱动静态人脸图像,以产生逼真的动画效果。深度学习技术的发展极大地推动了人脸动画技术的进步,深度学习模型能够学习并捕捉面部特征与运动规律,通过自动化驱动过程实现具有真实性与个性化表达的人脸动画。目前,基于深度学习的人脸动画领域已有大量研究成果,但现有的综述多聚焦于特定技术或单一模态的驱动源,本文系统地综述了基于深度学习的人脸动画驱动技术,分别按照音视频驱动面部动画的流程总结研究现状。首先,介绍了从输入源数据提取面部特征的一般步骤;其次,深入分析了特征提取与动画合成的关键技术,并对比不同深度学习网络架构在各步骤的优劣性;最后,总结不同架构下的动画生成方法并比较异同。此外,还列举了人脸动画方法常用的数据集及评价指标,总结了领域内现存挑战,进一步阐述了未来工作的发展趋势并做出一些展望,为研究人员提供深度学习在人脸动画领域应用的更全面视角。
NO.2 主要贡献
(1)详细回顾了基于非深度学习的人脸动画技术的发展历史,从最初的几何模型方法到后来的动作捕捉技术,为读者提供了人脸动画技术发展的脉络。总结了传统方法在生成逼真动态效果方面的局限性,包括对手工标注的依赖、处理多样化面部表情的困难以及在不同光照和视角变化下的挑战。
图2 视频驱动人脸动画流程图
NO.3 研究结论
本文对基于深度学习的人脸动画驱动方法进行了较为全面的总结与深入探讨。首先,梳理了使用视频或音频作为驱动源来生成人脸动画的一般流程,总结了驱动中所涉及的深度学习方法的基本概念。其次,本文将人脸动画驱动方法按照驱动源模态分为音、视频两大类,深入探讨深度学习模型在人脸动画驱动中的应用。本文分别对人脸动画驱动方法在特征提取与动画生成两个重要步骤中的重要研究进展进行归纳与讨论,并比对各方法的优缺点,总结方法对人脸动画驱动领域的推进作用。从方法效果来看,Transformer模型在人脸动画领域逐渐占据优势,能够取得更好的效果,而扩散模型在生成动画质量于真实性上有GAN更优异的性能;从驱动源模态来看,音频用于驱动口型动画,而视频则用于生成整体面部动作,每个模态的方法都能发挥其独有的优势,以此达到最优的动画效果。
NO.4 论文资助
陕西省技术创新引导计划(2023KXJ-279)
NO.5 作者介绍
刘 龙(1988—),男,副教授,
E-mail:longliu@xidian.edu.cn。
E-mail:li_haosheng@stu.xidian.edu.cn。
E-mail:mxzhang@xidian.edu.cn。
E-mail:duying@bfa.edu.cn。
yqchang@stu.xidian.edu.cn。
E-mail:wbzhang@xidian.edu.cn。
·引用格式·
刘龙, 李浩生, 张梦璇, 杜莹, 常雅淇, 张文博. 基于深度学习的人脸动画驱动方法综述(2024) [J/OL]. 西安电子科技大学学报, [2024-09-25]. https://doi.org/10.19665/j.issn1001-2400.20240907
“扫描二维码查看原文”
https://link.cnki.net/doi/10.19665/j.issn1001-2400.20240907
编辑:许瀚樱
校对:杨 薇
审核:牛姗姗
· 推荐阅读 ·
- 联系我们 -
xuebao@mail.xidian.edu.cn