《现代电影技术》|虚拟数字人新范式:SIGGRAPH ASIA 2023电影制作相关研究综述

学术   电影   2024-03-29 13:36   北京  

本文刊发于《现代电影技术》2024年第3期


专家点评


虚拟数字人是计算机图形图像领域的研究热点,伴随智慧时代和元宇宙时代来临,在新一代信息技术和现代智能科技迅猛发展与广泛应用的背景下,虚拟数字人已成为影视传媒领域的应用热点。虚拟数字人的研究与实现关键在于对其几何造型、材质纹理、语义信息等进行精准描述和有效表征,其制作生成涉及扫描、建模、驱动、渲染等关键核心技术。从技术品质上看,电影级虚拟数字人既要在人物真实感方面突破恐怖谷效应,达到超写实水准,又要支持与真人和场景的智能实时交互与无缝虚实融合。伴随人类社会智能化升级的持续推进和不断深化,向AI类人智能体(Agent)发展演进成为虚拟数字人迭代升级的重要趋势和必然要求。《虚拟数字人新范式:SIGGRAPH ASIA 2023电影制作相关研究综述》一文结合电影制作发展需求分析总结了SIGGRAPH ASIA 2023会议虚拟数字人的最新研究成果和技术发展趋势,从几何造型、运动控制、动作捕捉等方面细致阐述了虚拟数字人技术应用及其实现方法,并对虚拟数字人服务电影创作生产提出了有价值的深层次思考。虚拟数字人是数字经济时代的发展新动能,具有极其广阔的发展与应用前景。未来,虚拟数字人技术应充分汲取计算机图形图像和人工智能领域的融合创新成果,统筹提升真实感、智能化、交互性、鲁棒性、稳定性等技术性能,为服务电影制作创新升级和产业提质优化发挥积极作用。


 ——刘达

正高级工程师

中国电影科学技术研究所(中央宣传部电影技术质量检测所)总工程师

《现代电影技术》主编



作 者 简 介


刘绍龙

刘绍龙(1989-),男,博士,北京师范大学艺术与传媒学院博士后,主要研究方向:数字艺术、计算机图形学、虚拟现实、人工智能生成艺术等。

赵晓雨(1984-),女,博士,北京师范大学艺术与传媒学院数字媒体系讲师、硕士生导师,主要研究方向:智能交互音乐、新媒体音乐艺术等。




赵晓雨


摘要

本文综述了2023年SIGGRAPH ASIA会议中虚拟数字人领域前沿技术成果,探讨了最新技术在电影摄制和产业发展方面的作用与影响,旨在为电影从业者提供虚拟数字人相关技术的前沿动态,促进计算机图形学(CG)与电影艺术跨学科的融合与应用。本文从计算机图形学与电影制作角度出发,沿着几何造型、运动控制和动作捕捉三个技术路线梳理分析了会议相关成果的技术内核及其在电影行业的应用潜力,随后以宏观视野评估了上述技术路线的发展特点,归纳出虚拟数字人技术整体发展趋势,分析思考了虚拟数字人技术与电影制作之间的耦合关系。

关键词

人工智能;计算机图形学;交互技术;虚拟数字人;电影制作


1 引言

由国际图形图像协会(ACM SIGGRAPH)举办的国际计算机图形学与交互技术国际会议(SIGGRAPH)是计算机领域的专业会议,自1974年首次举办以来,逐步成为涵盖计算机图形学(CG)、电影和动画、虚拟现实(VR)、人机交互(HCI)、机器学习(ML)等多领域的综合性国际会议。历年来,会议在推动计算机图形学与交互技术前沿发展的同时,也不断为电影行业引入新的技术与思想,为电影制作提供了更多的创作可能性,包括但不限于数字特效技术、虚拟角色与数字人技术、影片制作工具、实时渲染技术、虚拟现实与交互体验等方面。SIGGRAPH ASIA是该会议的亚洲地区会议,自2008年起在亚太地区城市举办。

2023年12月,SIGGRAPH ASIA 2023在澳大利亚悉尼举办,本次大会收到了自创办以来最高数量的论文投稿,这一增长也表明计算机图形学与交互技术等领域在生成式人工智能(Generative AI)技术加持下已形成新技术、新算法与新实践。经过笔者对电影制作技术相关应用文章进行梳理总结,本次大会呈现出三个重要趋势:一是深度学习(DL)成为当前计算机图形学技术的核心,并已经被应用到计算机图形学的绝大部分任务领域;二是当前电影制作技术发展趋势仍然以更逼真效果、更高效率、更低成本、更具表现力为重点,随之产生的则是更高的算力需求;三是生成式模型与神经辐射场技术(Neural Radiance Fields, NeRF)成为当前计算机图形学发展的热点。

尤其是从虚拟数字人的角度来看,本次大会有大量关于该细分议题的技术论文出现,从模拟、成像、几何、建模、渲染、人机交互、触觉、制造、机器人、可视化、音频、光学、编程语言、沉浸式体验、视觉计算、机器学习等多个角度对虚拟数字人技术应用进行解读,同时也为电影制作技术的未来发展提供了深刻的洞察,为人机协同创作理念在电影制作中的应用打开了崭新视野。

2 虚拟数字人的研究转向:从“替身”到“多模态”

所谓的虚拟数字人,是通过多种计算机技术对人类的几何结构、表情形态和动作行为进行复制及模拟的虚拟化实体,具有数字外形的虚拟角色。张丽锦等[1]基于模因论(Memetics)的角度,从生物学隐喻阶段、文化研究阶段、多模态智能化阶段对虚拟数字人进行了概念界定与特征分析,这一概念实体也在技术发展的背景下不断迭代。

从传统电影制作思维来看,虚拟数字人及其相关建构技术被较早运用于电影后期特效,并主要运用于替代演员执行危险动作或特技表演,在降低拍摄风险的同时,使故事情节中的惊险动作更为生动逼真。而在动画电影中,虚拟数字人的制作技术对电影技术产业的影响则是多维度的,如虚拟数字人的外观真实感会影响角色塑造,虚拟数字人的动作流畅度和观看沉浸感会影响视觉表现力,也会通过影响制作管线从而影响制作成本等。当然,传统的电影制作技术层面都涵盖着对于虚拟数字人外观真实感的追求。 

伴随虚拟现实、虚拟影像制作等应用技术的迭代式发展,影视行业对于虚拟数字人的运用实际上正在逐渐超越传统的电影制作范畴。按照宋雷雨[2]的观点,电影中虚拟数字人的类型与美学转向主要从“替身”走向“独化”,即随着虚拟数字人具备的交互性逐渐增强,虚拟数字人与真人的关系发生场域会更具张力,也会逐渐向真人之间日常化的交流场域靠拢。这里的“独化”是从美学及类型学角度的观点,对应到技术角度,应该被理解为一种“多模态”,即虚拟数字人技术不仅限于大银幕,还可以在互动电影、游戏环境及其他多元影像内容中进行呈现,以多模态的逻辑实现多元跨界,从而体现出影游融合的协同思维。当多模态属性在人工智能生成内容(AIGC)技术的加持下,呈现出更高的自动化程度,那么电影中的虚拟数字人可以不再是被规定的状态,而成为具备一定自我意识的生物体,即成为一个智能体角色(AI Agent)[3]。这也是SIGGRAPH ASIA 2023会议中关于虚拟数字人细分议题所呈现出的虚拟数字人新范式,为电影制作技术的未来发展带来了新的可能。

3 SIGGRAPH ASIA 2023中虚拟数字人的应用综述

3.1 几何造型:高保真、快速化、风格化

虚拟数字人的外观造型一直是电影特效技术关注的焦点,精细造型的虚拟数字人能够帮助电影更生动地刻画奇幻生物、历史人物或传统拍摄技术无法呈现的虚构角色等。根据恐怖谷(Uncanny Valley)理论可知,虚拟数字人造型的真实程度影响用户的观影效果,真实逼真的外形能够增强视觉冲击力,刻画角色种族、年龄、风格等角色属性,配合虚拟数字人的运动动画,从而实现扩大表演空间、提升情绪传递能力等。因此关于几何造型的研究主要沿着高保真、丰富细节、快速构建的方向发展。定制化和多样性也是重要的发展方向,包括虚拟数字人的风格迁移、角色融合等。此外,生产效率是电影工业的永恒话题,虚拟数字人的快速造型、高效编辑一直是技术研发的核心。在本次会议中虚拟数字人外观造型相关技术大量引入深度学习方法,用以实现自动化和优化虚拟数字人的创建过程。

在虚拟数字人几何快速构建方面,Bharadwaj等[4]的方法能够在短时间内从几何高保真、可重新照明的视频中高效学习并构建个性化、可运动的三维网格头像。区别于基于隐式神经表达(Implicit Neural Representation)的快速构建方法,该方法能够直接输出兼容当前动画渲染管线的数据类型,从而提高电影后期特效制作效率。Wu等[5]提出一种可生成肖像动画且具有三维感知的生成式对抗网络(GAN),该方法可以根据一张二维图像生成具有可控面部表情、头部姿势和肩膀运动的三维肖像,同时由于网络框架中添加了姿势变形处理模块,该方法还可增强更多细节,能合理根据人体姿势驱动,平滑实现头发形变。此外,该方法能够应用于电影拍摄近景镜头的人物肖像镜头,如模拟正反打镜头的人物对话场景、模拟人物近景镜头的镜头运动等,从而使该类镜头运动空间更加自由,同样可应用在电影前期虚拟预演(PreViz)工作流中。Duan等[6]则提出真实感4D(高度、宽度、深度、时间)虚拟人物头像表达方法BakedAvatar。该方法可以通过参照头像驱动目标头像,也能够实现交互式表情和姿势编辑以及面部重演。BakedAvatar可通过学习样本的连续变形、流形和辐射场,将神经场烘焙成可变形的分层网格和相应的纹理。除了头像编辑和控制,该方法适用于电影后期特效渲染管线中的栅格化模块,可用于提升渲染管线效率。

对于虚拟数字人全身塑造,AlBahar等[7]提出一种从单个输入图像生成具有一致纹理、高分辨率外观的360 °人物视图方法。该方法创新地将二维图像扩散模型(Diffusion Model)应用于三维纹理虚拟人物的数字化,并将合成的多视图图像融合到UV纹理映射中实现3D虚拟数字人的纹理一致性重建。

在虚拟数字人造型风格化和编辑方面,Mendiratta等[8]的 AvatarStudio方法通过输入文本语义,驱动对全头头像外观的动态编辑。该方法将神经辐射场的表达和生成式扩散模型融入方法框架中,将虚拟数字人头部作为输入,利用人类头部多视图进行模型训练,可实现电影虚拟数字人快速风格化编辑,通过微调训练批量生成自定义风格化的头像模型。类似于Mendiratta的方法,Manu等[9]提出基于文本驱动的3D头部模型生成方法,该方法采用自然语言(NL)的简单文本提示,描述外观和面部表情,并生成具有精确几何形状和高质量纹理图的头部 3D 神经化身。这一方法的特点在于能够自动对齐网格的UV纹理坐标并实现可文本引导的高精度纹理合成过程,应用于动画电影中,能够提升角色头像的UV对齐及编辑过程的效率。

在虚拟数字人衣物造型方面,主流方法采用人工几何建模和布料模拟解算的工作流程,需要大量算力和人工成本。在本次会议上,最新研究将服装几何造型融入虚拟数字人几何构建过程中。Xiang等[10]的方法能够构建穿着动态移动宽松衣服的虚拟数字人,该方法可以由稀疏 RGB⁃D 数据以及身体和面部运动驱动,能够在一定程度上降低电影特效中角色和服装数字化的工作量。与之类似的方法还有Tang等[11]的方法。

对于虚拟数字人的毛发快速构建,Zhou等[12]提出针对头发发型几何形状设计的生成式模型,他所提出的框架由有发丝变分自编码器(Variational AutoEncoder, VAE)和发型变分自编码器组成,该方法不仅能够实现新颖发型采样和合理发型插值,还支持复杂发型的交互式编辑,甚至可以从图像中重建发型,加快虚拟数字人的毛发构建和编辑过程,进而提高电影后期制作效率。Mohan等[13]提出一种使用离散微分几何思想参数化头发网格的方法,可定义头发外部形状的网格从而允许艺术家更好地控制虚拟数字人的发型风格,为头发造型提供更大灵活性。虚拟数字人的眉毛构建对面部造型和表情动画至关重要,在影视特效制作中传统方法通常将眉毛嵌入贴图中,或通过毛发系统进行渲染,在真实度和工作效率上都有待提高。Li等[14]在本次会议上提出基于学习的单视图 3D 眉毛重建框架,可辅助眉毛的毛发模拟,通过模型推理给定毛发生长位置、生长时间等参数,根据参数进行眉毛生长的模拟。该方法能够有效辅助电影虚拟数字人眉毛的构建,辅助提升角色真实感。

此外,高保真数字头像捕捉技术早已应用于电影产业中,传统方法大多依赖于庞大昂贵的设备重建显式网格几何和外观贴图,尽管近期基于体积的方法,如NeRF的方法优化了捕捉过程,但是仍然存在伪影问题。为了解决这些问题,Sarkar等[15]使用包含15个相机和15个光源的稀疏紧凑捕捉装置来实现高质量人脸捕捉,在算法方面结合了神经体积表示和多视图立体重建的传统网格,使捕捉的头像可重新计算照明。该方法的提出降低了对人像三维捕捉的成本,适合在电影行业进行推广应用。在上述方法提到的照明问题上,Jiang等[16]在3D感知肖像生成的基础上提出基于预训练三平面(Tri⁃plane)表示的肖像照明控制方法,该方法可以对三维感知真实肖像进行重新照明,适用于背景与虚拟人的快速合成以及虚拟摄制流程。

3.2 运动控制:多模态、强仿真、高泛化

电影是一门具有时序性的艺术,且主要通过画面运动来推动故事发展,因此角色动作、镜头移动会直接影响电影的情节变化和角色的情感发展。在电影中虚拟数字人运动模拟的效果同样影响视觉冲击力与沉浸感。本次会议成果中虚拟数字人运动控制技术,包括角色肢体运动控制、角色局部特写控制、非人类生物角色控制。

(1)角色肢体运动控制

对于虚拟数字人的动作表达与控制在技术上可分为肢体控制和局部特写控制两部分。针对虚拟数字人的肢体控制方面,最为先进的一类方法为物理模拟角色(Physically Simulated Characters)技术。这类技术结合了物理学原理和计算机图形学,以创建更为逼真的动态虚拟数字人。其核心在于利用物理仿真模拟来控制角色的动作和交互,通过物理模拟,这些角色能以真实世界的物理规则来反应和移动,比如受重力、碰撞等其他外力作用下的运动。这类技术可以让虚拟数字人在虚拟环境中的行为更加符合现实世界的物理规律,特别是在处理复杂的环境交互运动,比如刮风、下雨等情况时,实现更为流畅和自然的动作变化。但该类技术在精确控制复杂物理行为以及管理计算资源等方面仍然有待提高,在本次会议中,多数方法通过深度学习框架训练与推测相关动作。

Dou等[17]提出的条件对抗式技能框架(Conditional Adversarial Skill Embeddings, C·ASE)可以高效学习角色的动作技能,并可将交互信息加入条件模型动作推理过程中,使用户在控制虚拟数字人行走路线的同时,让角色做出基于物理模拟的逼真动作。Qing等[18]的方法可以让虚拟数字人根据输入的故事长文本执行与故事内容吻合的运动(包括移动、肢体动作等),即故事生成动作(Story⁃to⁃Motion)。该方法首先利用大语言模型(LLM)从长文本中提取文本、位置、持续时间等系列内容,之后通过提出基于运动匹配、运动语义和轨迹约束的文本驱动运动检索方法搜索相关动作,最后用神经网络模型融合两组运动间的中间动作,使运动自然过渡。该方法可以直接根据电影剧本信息模拟虚拟数字人的运动,非常适合电影制作前期非高保真的虚拟预演流程。Feng等[19]的成果主要基于肌肉驱动的角色推测和生成符合生物力学的运动过程。该方法将升级的疲惫动力学模型(3CC⁃r)嵌入基于变分自编码器的肌肉模拟控制框架(MuscleVAE)中,不仅可以对运动特征编码,还可编码肌肉动力学信息和疲劳属性,从而使呈现的运动效果更加高保真。该方法可以处理电影特效或游戏中角色因长时间疲劳积累所导致的运动风格自然演变。在模拟运动疲劳方面,Cheema等[20]提出一种基于深度强化学习的方法,用来模拟仿真基于物理的虚拟人物疲劳运动,可以有效地用于电影人物特写和动画电影中。基于强化学习的运动模拟方法还包括Kwon等[21]、Xu等[22]的方法。

Zhu等[23]提出基于强化学习框架的数据驱动方法用来提高物理模拟角色的行为真实性和多样性。Jiang等[24]将运动学的先验知识与牛顿动力学结合,提出基于物理的人类动态响应框架,这使虚拟数字人对虚拟环境有了动态交互能力,从而更真实地模拟电影中带有虚拟数字人的复杂场景。Agrawal等[25]针对虚拟数字人的骨骼动画控制,在神经反向动力学系统(Neural Inverse Kinematics, Neural IK)的基础上提出SKEL⁃IK训练方法,即以基本姿势为条件,将信息直接流送到骨架图结构上,因此可以通过在某些关节处阻止信息流来强制执行硬约束。该方法允许骨骼动画师较少使用手柄就可进行虚拟数字人的运动编辑,且真实性更强。Ramón等[26]提出虚拟数字人软组织模型表示方法,该方法将软组织动力学模型建立在参数化表达的虚拟数字人上,使虚拟数字人能够表现出运动过程中的身体柔软变形。在电影视觉特效中,该方法能够有效模拟虚拟数字人脂肪等软组织的运动变化。Tao等[27]设计了一种用于运动合成的神经网络底层结构,叫做神经运动图(Neural Motion Graph)。该网络图的神经节点表示运动类型,比如蒙古舞蹈,节点之间的边表示两个运动动作的转换。将该结构用于深度学习方法中可以合成各种类型的运动并具有泛化能力,所合成的运动可以结合用户指定的路径或实时交互控制,此外该方法可以生成两个动作之间的中间帧动作。

(2)角色局部特写控制

虚拟数字人肢体控制专注于骨骼的运动和刚性变化,而局部特写控制更注重网格(Mesh)表面的细节变形,如面部表情变化、发丝运动、布料模拟、手部运动等。为了使动画或形变更加逼真,该部分同样使用基于物理仿真的方法。Yang等[28]提出一种基于数据驱动的隐式神经物理面部表示模型,该模型由面部表情表达和风格共同驱动。该方法可以控制动画风格,实现从一个角色到另一个角色的风格迁移或混合不同角色风格。作为基于物理特征的模型,该模型能够充分考虑物理效果,例如碰撞处理等。

语音驱动虚拟人物口型的技术发展已久,但在口型同步过程中往往容易忽略整个面部的情绪表达。为突破该限制,Daněček等[29]提出针对情感交谈而优化的表达模型(Expressive Model Optinized for Talking with Emotion, EMOTE),该模型对口型同步和情感分别设计损失函数,并利用时间变分自编码器(Temporal VAE)作为运动先验来优化动画。在电影制作尤其是动画电影制作中,该方法帮助电影制作人在处理对白与口型的同时自动调节脸部表情,缩短了工作流程,提升唇音同步(Lip⁃sync)环节效果,从而提升电影生产效率。

为了更好地模拟虚拟数字人脸部动画,Li等[30]提出一种基于投影动力学 (Projective Dynamics, PD)的有限元模拟方法。该方法能够在控制面部运动的同时感知碰撞,高效地处理软体动力学模拟与面部变形引起的交叉(即碰撞)问题,提升了电影虚拟数字人由肌肉驱动的面部模拟真实性和效率。

(3)非人类角色控制

在科幻电影或恐怖电影中经常会出现非人类外形的虚拟数字人,包括但不限于动物、卡通人物、神话生物、机器人或其他超现实生物。在视效后期制作中,艺术家需要针对非人类角色进行创建与运动控制。该类角色在行为和运动模拟过程中仍然要求符合生物力学原理并带有情感艺术性表达,以提高电影叙事的质量与深度。非人类角色控制的传统方法利用艺术家的先验知识进行人工控制,这需要艺术家具有较高的制作技能和经验。为了更好地辅助艺术家控制非人类角色,本次会议提出运动重定向等多种解决方案。

Li等[31]提出基于学习的运动重定向框架,将人体运动重新定位到具有不同身体尺寸和结构的目标角色上,比如带有操纵器的四足机器人、螃蟹和轮式操纵器等。该方法允许艺术家通过自身控制操纵不同结构的虚拟数字人。为了解决重定向和角色交互控制问题,Lee等[32]提出能够以与骨架无关的方式解决各种动画任务的框架,该框架通过学习一个嵌入空间从运动数据中分离出与骨架相关的信息,同时保留语义,使真实人物的运动更好地映射到卡通人物角色中,高效地解决了卡通动画电影中的角色控制问题。

Takashita等[33]设计了名为AvatarForge的虚拟数字人编辑系统,通过实时编辑身体结构,构建身体结构与运动的映射关系,进而设计与控制非人形虚拟数字人。该系统旨在降低设计非人形化身(Avatar)的难度,加快带有骨骼动画的虚拟数字人原型的自定义创建。将该交互系统应用在电影制作中,可以降低角色建模艺术家与动画师的技能要求,提升虚拟数字人前期设计与后期编辑处理效率。

3.3 动作捕捉:高精度、强合成、低延时

动作捕捉改变了电影的制作方式,尤其是在视觉效果、动画和特效领域。在动画电影制作中,动作捕捉技术提供了一种更为高效和逼真的方法来创建复杂的动画序列,特别是针对角色的动态和交互场景。动作捕捉技术可以在某些情况下降低制作成本和时间,尤其适合复杂的特效和动画场景;然而,高质量的动作捕捉系统和专业团队也可能带来显著的成本增加。

单目视频内容捕捉和重建运动数据是当前该领域研究热点之一,但仍然存有技术难点和挑战,如脚部滑动和抖动等伪影等。Cong等[34]提出一种基于梯度的方法,用于在物理约束下重建复杂的人体运动(包括高度动态和杂技运动)。该方法可根据视频中内容在几分钟内重建复杂的人体运动,物理真实感也更强。Pan等[35]提出RGB 图像信号与惯性信号融合算法用于动作捕捉任务中,该方法既能够用于遮挡、极端照明/纹理、视觉动作捕捉视野小等情况,也能解决惯性动作捕捉全局漂移问题。Kang等[36]利用高精双目(Binocular)信息估计人体三维姿态,其方法弥补了身体因遮挡而无法正确估计关节点的缺陷。从单目视频中重建并跟踪角色面部或手部的技术发展已久,但先前的方法由于遮挡问题无法捕捉脸部和手在进行交互时的形状变化。为解决该问题,Shimada等[37]提出基于学习的运动捕捉方法用于面部和手部的重建,再通过交互面部变形模型实现合理的脸部与手部交互。该方法能够在控制脸部和手运动的同时真实表现手部挤压脸部时形成的脸部表面变形,在拍摄虚拟人物特写镜头时脸部变形会增加镜头的沉浸感。

此外, Pan等[38]提出一种基于局部性的学习方法,用于清理和解决光学运动捕捉数据,对动作捕捉标记点有遮挡或缺失的情况尤为有效。Qing等[39]提出针对多个个体密集遮挡情况下的多人物姿态估计组件,并发布了训练与推理策略。该方法适用于大型电影场景中同时捕捉多个人物或人群动作的情况,从而快速对动态大型电影场景进行数字化。Jang等[40]提出动作风格化方法和实时线上框架MOCHA(Motion Characterization),即将没有明显风格特征的动作转换为实时体现显著角色风格动作的框架,比如将普通行走动作风格化为僵尸行走动作。该方法可以将用户给出的目标角色运动风格和身体比例转移至输入的源动作中。在电影特效制作中,艺术家可以利用该方法高效编辑生成能够表现情绪、人物性格的动作,有利于多角色场景的批量化处理,从而提高电影工业化生产效率。

4 总结与展望

纵观整体技术发展,SIGGRAPH ASIA 2023虚拟数字人趋势可概括为:虚拟数字人技术正全面拥抱基于深度神经网络的人工智能技术,从而实现高保真、高控制性、高效率虚拟数字人制作。高保真度体现在基于物理模拟和大数据驱动的虚拟数字人几何与运动构建方法上,技术逐渐从几何静态3D重建向4D(高度、宽度、深度、时间)重建过渡,在神经网络的帮助下能够允许考虑更多环境参数和物理条件,在更大空间中寻找最优解,从而提高数字人几何造型与动作模拟的逼真度、合理性和观看沉浸感。高控制性体现在使用多模态手段对虚拟数字人进行局部与全局的构建和运动控制,通过对人类控制指令更准确的理解,实现表情和手势等细节的精细控制。高效率指借助神经网络可以加快物理模拟解算速度,处理动作捕捉数据更具鲁棒性,同时多模态技术特性加强了复杂应用场景虚拟数字人的处理能力,让交互制作和编辑流程更为简化。

在使用方法上,传统图形学方法与深度学习技术方法不断融合,旨在发挥两者的综合优势,例如使用神经辐射场(NeRF)、神经反向动力学(Neural IK)与生成式模型等,相关方法既能体现传统图形学对几何表达、几何处理与物理模拟的认识,又能发挥深度学习方法基于大数据驱动的几何理解能力和计算效率。

会议成果将有助于提升电影级虚拟数字人的制作与编辑水平,进而优化相关工作流。在笔者看来,电影级虚拟数字人要求同时具有适用于真实纹理渲染和物理模拟的几何和拓扑表达结构、基于生理学的动作驱动系统以及基于动力学的运动控制方法,这正符合会议成果高保真、高控制性、高效率的发展趋势。会议成果可提升电影摄制流程中包括虚拟预演、动作捕捉驱动合成、后期视效等环节的制作效果和工作效率,如三维几何造型快速构建方法能够应用于虚拟预演的批量模型处理任务中,骨骼重定向方法和动作风格迁移方法应用于角色动画快速编辑等。另外借助最新的静态场景和动态场景的快速构建方法、物理和空间感知的运动生成与编辑方法,虚拟数字人技术和工作方式将会向低成本和低延时方向进一步发展。

从电影艺术本体的发展角度来看,新技术正加速虚拟数字人从“替身”向“独化”角色的转变,为电影艺术表现开辟新的维度。未来,虚拟数字人技术将更加注重多模态、实时渲染和交互方面的进步,图形学领域也将吸纳更多创新视角,例如融合大语言模型等新兴技术。

参考文献

(向下滑动阅读)

[1] 张丽锦,吕欣.虚拟数字人:模因论的新“锚点”——模因论视域下的虚拟数字人:概念、特征和应用[EB/OL].(2024⁃01⁃26)[2024⁃02⁃01].http://kns.cnki.net/kcms/detail/53.1148.C.20240124.1447.002.html.

[2] 宋雷雨.从“替身”到“独化”——元宇宙电影中数字人的类型与美学转向[J].当代电影,2023(02):151⁃157.

[3] 陈焱松.AIGC技术在人工智能电影创作中的应用策略研究[J].现代电影技术,2023(09):39⁃45.

[4] BHARADWAJ S, ZHENG Y, HILLIGES O, et al. FLARE: Fast Learning of Animatable and Relightable Mesh Avatars[EB/OL]. (2023⁃10⁃27)[2024⁃02⁃01].https://arxiv.org/abs/2310.17519. 

[5] WU Y, XU S, XIANG J, et al. AniPortraitGAN: Animatable 3D Portrait Generation from 2D Image Collections[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618164. 

[6] DUAN H B, WANG M, SHI J C, et al. BakedAvatar: Baking Neural Fields for Real⁃Time Head Avatar Synthesis[EB/OL]. (2023⁃12⁃05)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3618399. 

[7] AlBAHAR B, SAITO S, TSENG H Y, et al. Single⁃Image 3D Human Digitization with Shape⁃Guided Diffusion[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618153. 

[8] MENDIRATTA M, PAN X, ELGHARIB M, et al. AvatarStudio: Text⁃Driven Editing of 3D Dynamic Human Head Avatars[J]. ACM Transactions on Graphics (TOG), 2023, 42(6): 1⁃18. 

[9] MANU P, SRIVASTAVA A, SHARMA A. CLIP⁃Head: Text⁃Guided Generation of Textured Neural Parametric 3D Head Models[EB/OL]. (2023⁃11⁃28)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610543.3626169. 

[10] XIANG D, PRADA F, CAO Z, et al. Drivable Avatar Clothing: Faithful Full⁃Body Telepresence with Dynamic Clothing Driven by Sparse RGB⁃D Input[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618136.

[11] TANG S, WANG G, RAN Q, et al. High⁃Resolution Volumetric Reconstruction for Clothed Humans[J]. ACM Transactions on Graphics, 2023, 42(5): 1⁃15. 

[12] ZHOU Y, CHAI M, PEPE A, et al. GroomGen: A High⁃Quality Generative Hair Model Using Hierarchical Latent Representations[J]. ACM Transactions on Graphics (TOG), 2023, 42(6): 1⁃16. 

[13] JAYARAMAN MOHAN S N. Hair Tubes: Stylized Hair from Polygonal Meshes of Arbitrary Topology[EB/OL]. (2023⁃11⁃28)[2024⁃02⁃01]. https://dl.acm.org/doi/abs/10.1145/3610543.3626157.

[14] LI C, JIN L, ZHENG Y, et al. EMS: 3D Eyebrow Modeling from Single⁃View Images[J]. ACM Transactions on Graphics (TOG), 2023, 42(6): 1⁃19. 

[15] SARKAR K, BÜHLER M C, LI G, et al. LitNeRF: Intrinsic Radiance Decomposition for High⁃Quality View Synthesis and Relighting of Faces[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618210.

[16] JIANG K, CHEN S Y, FU H, et al. NeRFFaceLighting: Implicit and Disentangled Face Lighting Representation Leveraging Generative Prior in Neural Radiance Fields[J]. ACM Transactions on Graphics, 2023, 42(3): 1⁃18.

[17] DOU Z, CHEN X, FAN Q, et al. C⋅ASE: Learning Conditional Adversarial Skill Embeddings for Physics⁃Based Character[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618205. 

[18] QING Z, CAI Z, YANG Z, et al. Story⁃to⁃Motion: Synthesizing Infinite and Controllable Character Animation from Long Text[EB/OL]. (2023⁃11⁃28)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610543.3626176. 

[19] FENG Y, XU X, LIU L. MuscleVAE: Model⁃Based Controllers of Muscle⁃Actuated Characters[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618137. 

[20] CHEEMA N, XU R, KIM N H, et al. Discovering Fatigued Movements for Virtual Character Animation[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618176. 

[21] KWON T, GU T, AHN J, et al. Adaptive Tracking of a Single⁃Rigid⁃Body Character in Various Environments[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618187.

[22] XU P, XIE K, ANDREWS S, et al. AdaptNet: Policy Adaptation for Physics⁃Based Character Control[J]. ACM Transactions on Graphics (TOG), 2023, 42(6): 1⁃17.

[23] ZHU Q, ZHANG H, LAN M, et al. Neural Categorical Priors for Physics⁃Based Character Control[J]. ACM Transactions on Graphics (TOG), 2023, 42(6): 1⁃16. 

[24] JIANG Y, WON J, YE Y, et al. DROP: Dynamics Responses from Human Motion Prior and Projective Dynamics[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618175. 

[25] AGRAWAL D, GUAY M, BUHMANN J, et al. Pose and Skeleton⁃Aware Neural IK for Pose and Motion Editing[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618217. 

[26] RAMÓN P, ROMERO C, TAPIA J, et al. SFLSH: Shape⁃Dependent Soft⁃Flesh Avatars[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618242. 

[27] TAO H, HOU S, ZOU C, et al. Neural Motion Graph[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618181.

[28] YANG L, ZOSS G, CHANDRAN P, et al. An Implicit Physical Face Model Driven by Expression and Style[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618156. 

[29] DANĚČEK R, CHHATRE K, TRIPATHI S, et al. Emotional Speech⁃Driven Animation with Content⁃Emotion Disentanglement[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618183. 

[30] LI B, YANG L, SOLENTHALER B. Efficient Incremental Potential Contact for Actuated Face Simulation[EB/OL]. (2023⁃11⁃28)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610543.3626161. 

[31] LI T, WON J, CLEGG A, et al. ACE: Adversarial Correspondence Embedding for Cross Morphology Motion Retargeting from Human to Nonhuman Characters[EB/OL]. (2023⁃05⁃24)[2024⁃02⁃01].https://arxiv.org/abs/2305.14792. 

[32] LEE S, KANG T, PARK J, et al. SAME: Skeleton⁃Agnostic Motion Embedding for Character Animation[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618206.

[33] TAKASHITA S, YAMAGUCHI A, NARUMI T, et al. AvatarForge: A Real⁃Time and Node⁃Based Body Editing System[EB/OL]. (2023⁃11⁃28)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610541.3614569. 

[34] CONG L, RUPPEL P, WANG Y, et al. Efficient Human Motion Reconstruction from Monocular Videos with Physical Consistency Loss[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618169.

[35] PAN S, MA Q, YI X, et al. Fusing Monocular Images and Sparse IMU Signals for Real⁃Time Human Motion Capture[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618145.

[36] KANG T, LEE K, ZHANG J, et al. Ego3DPose: Capturing 3D Cues from Binocular Egocentric Views[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618147.

[37] SHIMADA S, GOLYANIK V, PÉREZ P, et al. Decaf: Monocular Deformation Capture for Face and Hand Interactions[J]. ACM Transactions on Graphics (TOG), 2023, 42(6): 1⁃16.

[38] PAN X, ZHENG B, JIANG X, et al. A Locality⁃Based Neural Solver for Optical Motion Capture[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618148.

[39] SHUAI Q, YU Z, ZHOU Z, et al. Reconstructing Close Human Interactions from Multiple Views[J]. ACM Transactions on Graphics (TOG), 2023, 42(6): 1⁃14.

[40] JANG D K, YE Y, WON J, et al. MOCHA: Real⁃Time Motion Characterization via Context Matching[EB/OL]. (2023⁃12⁃11)[2024⁃02⁃01].https://dl.acm.org/doi/abs/10.1145/3610548.3618252.



【基金项目】2021年度教育部人文社会科学研究青年基金项目“交互式多媒体环境中声音的艺术表现研究”(21YJC760114)。














主管单位:国家电影局

主办单位:电影技术质量检测所

标准国际刊号:ISSN 1673-3215

国内统一刊号:CN 11-5336/TB


投稿系统:ampt.crifst.ac.cn

官方网站:www.crifst.ac.cn

广告合作:010-63245082

期刊发行:010-63245081





中国电影科技
关注电影技术的探索与实践,关注电影创新理论的形成与发展,为广大读者和网民提供电影科技信息。
 最新文章