优文推荐 | 基于深度学习的人脸动画驱动方法综述

文摘   科技   2024-09-30 10:48   陕西  




NO.1 论文简介


人脸动画技术旨在通过输入源数据(如音频或视频)动态驱动静态人脸图像,以产生逼真的动画效果。深度学习技术的发展极大地推动了人脸动画技术的进步,深度学习模型能够学习并捕捉面部特征与运动规律,通过自动化驱动过程实现具有真实性与个性化表达的人脸动画。目前,基于深度学习的人脸动画领域已有大量研究成果,但现有的综述多聚焦于特定技术或单一模态的驱动源,本文系统地综述了基于深度学习的人脸动画驱动技术,分别按照音视频驱动面部动画的流程总结研究现状。首先,介绍了从输入源数据提取面部特征的一般步骤;其次,深入分析了特征提取与动画合成的关键技术,并对比不同深度学习网络架构在各步骤的优劣性;最后,总结不同架构下的动画生成方法并比较异同。此外,还列举了人脸动画方法常用的数据集及评价指标,总结了领域内现存挑战,进一步阐述了未来工作的发展趋势并做出一些展望,为研究人员提供深度学习在人脸动画领域应用的更全面视角。

NO.2 主要贡献


(1)详细回顾了基于非深度学习的人脸动画技术的发展历史,从最初的几何模型方法到后来的动作捕捉技术,为读者提供了人脸动画技术发展的脉络。总结了传统方法在生成逼真动态效果方面的局限性,包括对手工标注的依赖、处理多样化面部表情的困难以及在不同光照和视角变化下的挑战。

图1  非深度学习人脸动画方法发展历程
(2)概述了视频驱动人脸动画的一般流程,包括特征提取、特征融合和动画合成,为读者描绘了从视频源到动画生成的整体框架。首先介绍了视频驱动源的人脸特征提取方法,其中包括驱动视频的运动特征与源图像的身份特征。之后,将详细阐述近年来视频驱动人脸动画的生成方法,重点讨论GAN和扩散模型两种主流生成模型。这些模型通过学习大量的数据,能够生成逼真且具有多样性的人脸动画。最后,汇总并比较基于深度学习的视频驱动人脸方法的主要技术创新价值。

图2  视频驱动人脸动画流程图

(3)详细探讨了基于音频驱动的人脸动画技术,包括音频特征的提取和如何将音频特征转换为面部动画。首先介绍了音频特征的预处理方法。接着,深入探讨音频驱动源的特征提取方法,包括传统的CNN、RNN、LSTM以及最新的Transformer模型。随后,将详细阐述音频驱动人脸动画的生成方法,包括两种主流的生成模型,基于GAN的动画驱动和基于扩散模型的动画驱动。最后,将对基于深度学习的音频驱动人脸方法进行汇总并比较其主要技术创新价值。
图3  简化的音频驱动人脸动画流程图
(4)总结了人脸动画领域内现存挑战,如人脸动画一直存在人像和背景难解耦、生成结果时空不连续等问题,单一模态的特征表示往往无法全面捕捉到人脸动作、口型以及情感等关键信息问题。进一步论述了未来的发展方向和趋势,从深度学习模型优化和多模态深度融合两个角度去阐述人脸动画技术可能的发展趋势,并提出了潜在的研究方向。

NO.3 研究结论


本文对基于深度学习的人脸动画驱动方法进行了较为全面的总结与深入探讨。首先,梳理了使用视频或音频作为驱动源来生成人脸动画的一般流程,总结了驱动中所涉及的深度学习方法的基本概念。其次,本文将人脸动画驱动方法按照驱动源模态分为音、视频两大类,深入探讨深度学习模型在人脸动画驱动中的应用。本文分别对人脸动画驱动方法在特征提取与动画生成两个重要步骤中的重要研究进展进行归纳与讨论,并比对各方法的优缺点,总结方法对人脸动画驱动领域的推进作用。从方法效果来看,Transformer模型在人脸动画领域逐渐占据优势,能够取得更好的效果,而扩散模型在生成动画质量于真实性上有GAN更优异的性能;从驱动源模态来看,音频用于驱动口型动画,而视频则用于生成整体面部动作,每个模态的方法都能发挥其独有的优势,以此达到最优的动画效果。

NO.4 论文资助


陕西省技术创新引导计划(2023KXJ-279)

NO.5 作者介绍


刘   龙(1988—),男,副教授,

E-mail:longliu@xidian.edu.cn。

李浩生(1999—),男,西安电子科技大学硕士研究生,

E-mail:li_haosheng@stu.xidian.edu.cn。

张梦璇(1988—),女,讲师,

E-mail:mxzhang@xidian.edu.cn。

杜   莹(1986—),女,讲师,

E-mail:duying@bfa.edu.cn。

常雅淇(2000—),女,西安电子科技大学硕士研究生,

yqchang@stu.xidian.edu.cn。

张文博(1985—),男,副教授,

E-mail:wbzhang@xidian.edu.cn。




·引用格式·


刘龙, 李浩生, 张梦璇, 杜莹, 常雅淇, 张文博. 基于深度学习的人脸动画驱动方法综述(2024) [J/OL]. 西安电子科技大学学报, [2024-09-25]. https://doi.org/10.19665/j.issn1001-2400.20240907



“扫描二维码查看原文”

https://link.cnki.net/doi/10.19665/j.issn1001-2400.20240907

   编辑:许瀚樱

校对:杨   薇

   审核:牛姗姗


· 优文推荐 · ·

优文推荐 | 面向无人平台的新型人工噪声生成与抑制

优文推荐 | 支持动态反馈决策的拜占庭容错共识算法

优文推荐 | 超像素分割和波段分割的高光谱图像去噪
优文推荐 | 流行度感知的无线视频云边缓存策略研究

优文推荐 | 轻量级位置隐私的安全查询方案

优文推荐 | 结合自适应网格描述符和图像能量的图像哈希

优文推荐 | 空空高速移动通信信号的频偏估计和跟踪算法

优文推荐 | 子空间与存储体的高光谱图像跨域小样本分类

优文推荐 | 利用可逆网络的音频藏图算法

优文推荐 | 基于二维异步同相正交直方图的调制方式识别

优文推荐 | 面向以太坊智能合约的图神经网络漏洞检测

优文推荐 | 多源传感器箱粒子LMB滤波算法

优文推荐 | 机器学习在WSN入侵检测中的应用研究

优文推荐 | 边缘协作环境下最小化完工时间任务调度方法

优文推荐 | 融合注意力谱非局部块的视网膜图像质量分级

优文推荐 | 面向动态博弈的k-匿名隐私保护数据共享方案

优文推荐 | 多用户环境的区块链可搜索加密方案

优文推荐 | 混沌映射与中国剩余定理增强的切换认证方案

优文推荐 | 基于多尺度特征信息融合的时间序列异常检测

优文推荐 | 主被动协同定位空能资源优化配置方法

优文推荐 | 高阶S21拟合策略在耦合矩阵提取方法中的运用

优文推荐 | 图文跨模态检索的联合特征方法

· 优文推荐 2024年第3期 ·
优文推荐 | 基于多注意力机制的纹理感知视频修复方法

优文推荐 | 6G业务场景的不完全多视图聚类分析

优文推荐 | 面向带宽受限场景的高效语义通信方法

优文推荐 | LowMC在BGV全同态加密环境下的噪声评估

优文推荐 | 基于多边形特征池化与融合的复杂文本检测

优文推荐 | 一种支持交易筛选的高性能智能合约测试方案

优文推荐 | 叠加导频传输无标识随机接入方案研究

优文推荐 | 一种自注意力序列模型的视频流长期预测方法


· 推荐阅读 ·

目录 | 《西安电子科技大学学报》2024年第51卷第3期

目录 | 《西安电子科技大学学报》2024年第51卷第2期

目录 | 《西安电子科技大学学报》2024年第51卷第1期

目录 | 《西安电子科技大学学报》2023年第50卷第6期

目录 | 《西安电子科技大学学报》2023年第50卷第5期

目录 | 《西安电子科技大学学报》2023年第50卷第4期



-  联系我们 -

西安电子科技大学学报网址:
https://journal_xdxb.xidian.edu.cn
在线投稿:
https://journal.xidian.edu.cn/Journalx_xidian
电话:
(029)88202853
邮箱:

xuebao@mail.xidian.edu.cn



西安电子科技大学学报
《西安电子科技大学学报》由西安电子科技大学主办,创刊于1955年。是工程索引数据库(EI)全部收录期刊、中国科学引文数据库(CSCD)全部收录期刊,在电子信息科学领域具有很高的学术声誉和影响力。
 最新文章