SIGGRAPH 2024 | LGTM: 局部到全局的文本驱动的人体动作扩散模型

文摘   科技   2024-06-06 09:39   广东  

导读

本文是VCC郑瑞坤同学对论文 LGTM: Local-to-Global Text-Driven Human Motion Diffusion Model 的解读,该工作由深圳大学可视计算研究中心和快手科技及字节跳动合作完成,并已被发表在计算机图形学顶级会议SIGGRAPH 2024上。

项目主页: 
https://vcc.tech/research/2024/LGTM

该工作提出了一种名为LGTM的局部到全局的文本到人体动作的生成扩散模型,以应对传统方法难以从动作文本描述准确生成语义一致的人体动作的挑战。具体来说,LGTM首先将全局动作文本描述分解为每个身体部位的局部描述,然后通过独立的身体部位运动编码器对齐这些部位的具体语义,最后使用全身优化器改进动作生成结果并保证整体的连贯性。实验结果表明,LGTM在生成局部准确、语义对齐的人体动作方面取得了显著改进。



I


 引言 
LGTM旨在解决文本到人体动作生成的问题,即给定一个角色动作的文本描述,目标是自动生成合理且真实的三维人体动作。这一过程的自动化对于包括增强现实和虚拟现实的内容创造、机器人技术的进步以及人机交互的增强等多种下游应用具有重要潜力。近年来,基于扩散模型的各项研究推动了这一领域的巨大进展,然而现有方法难以捕捉动作描述中所嵌入的细微局部语义,所生成的动作也不能很好地与这些语义线索精确对齐,常常遇到局部语义泄漏和缺失元素的问题。例如,当输入一个描述如“一个人用他的左腿踢某物”的提示时,这些方法可能错误地生成一个对应于“右腿踢”的运动。同样,涉及需要多个身体部位协调的复杂文本提示,经常导致某些部位的动作被忽略。

LGTM提出了一种基于扩散模型的文本到动作生成架构,生成符合精确的文本描述又保持局部语义一致性的人体动作。LGTM的方法分为两个主要阶段。第一阶段,通过引入了一个分区模块以处理局部语义精确度问题。首先,LGTM使用大型语言模型 (LLMs) 将全局动作描述分解为针对每个身体部位的文本描述;随后,与每个身体部位对应的动作编码器独立地处理这些部位的叙述,有效地避免局部语义不一致问题、减少冗余信息和防止语义泄漏。第二阶段,LGTM引入了一个基于注意力的全身优化器,用于促进不同身体部位之间的信息整合,确保生成的整体动作不仅在局部精确,而且在全局上连贯且流畅。实验表明,LGTM能够生成更符合输入文本的、在局部和全局上都更准确的运动,并且超越了现有的最先进方法。

II


 技术贡献 

本工作主要贡献如下:

  • 提出了一种新的从文本描述准确一致地生成人体动作的扩散模型

  • 提出了一个独特的基于LLMs的分区模块,显著提高了生成动作的局部语义准确性;

  • 实验结果展示了分区模块与基于自注意力的全身优化器的融合保证了动作的局部准确和全局一致,比以往工作有显著提升


III


 方法介绍 
LGTM网络框架如图1所示,由三个主要部分构成:
(1) 一个使用ChatGPT的分区模块,用于将动作文本描述  分解为身体部位的文本描述 以及将全身动作  分解为身体部位动作 
(2) 给定扩散时间点  ,身体部位编码器  将对应部位的动作与文本描述独立编码 
(3) 全身动作优化器通过基于自注意力融合各个身体部位动作以及全身的文本描述,输出重构的人体动作。

图1 网络结构图


分区模块
分区模块旨在将局部语义信息注入到每个身体部位中,用于部位编码器的处理。对于输入的长度固定为  的动作序列  和对应的文本描述  ,分区模块首先利用ChatGPT将文本描述  分解为6个身体部分,包括:头部 (head) 2个关节点、左臂 (left_arm) 4个关节点、右臂 (right_arm) 4个关节点、躯干(torso) 3个关节点、左腿 (left_leg) 4个关节点和右腿 (right_leg) 4个关节点,以及对应的身体部位动作:
  
其中,  、  、  和  分别表示对应在根节点局部坐标系下的关节位置、关节线速度、旋转角度和角速度;  和  分别表示根节点在  轴上的角速度和  平面上的线速度;  表示脚与地面是否接触的信号。

部位编码器
各个身体部位的动作与文本描述经过部位编码器Epart编码为对应的潜向量:
  
因为编码器的输入只有相应的身体部位动作与文本,这有效防止了信息泄露和信息冗余问题,使编码器更关注于对局部信息的处理上。

全身动作优化器
因为各个身体部位的动作和文本描述是独立编码为 网络会忽略这些编码之间的协调性,因此LGTM引入了一个全身动作优化器  ,利用全身文本描述来调整各个身体部位的动作。具体地,LGTM首先将独立的潜向量  拼接为全身的潜向量 然后经过一个自注意力模块,交换这些独立向量的时空信息。如图2所示为注意力编码器模块,其通过在时序上对输入的编码序列通过自注意力机制交换时序信息,然后交由一个由全连接层组成的模块交换空间信息。最后,一个由多个残差全连接层组成的SmoothNet网络作用为一个低通滤波器,能够降低输出动作存在的不自然的抖动。整个过程可以用公式表示为:
  
其中,  表示经过扩散模型生成得到最终  步的人体动作。

图2 注意力编码模块


IV


 部分结果展示 
首先展示LGTM在测试集上的生成结果,如图3所示。LGTM能够精确捕获文本中蕴含的局部语义信息,生成语义一致的结果;此外,归功于全身动作优化器的优化,LGTM生成动作在整体协调性上也有保证。

图3 LGTM在测试集上的生成结果


通过与现有方法的比较,LGTM展示了其在精确的文本到动作生成任务上的提升,如图4所示。相比于现有方法存在的局部细节缺失、全局协调性差的问题,LGTM在生成动作的局部和全局上都有明显的改进。

图4 LGTM与现有方法生成动作比较 

下面是在多个指标下,对LGTM与传统方法定量分析。如表1所示,LGTM与先前的文本到动作生成表示法相比,在FID距离、多样性(DIV)、R精度(前1、前2、前3)和最大均值差异距离(MM Dist)都取得了显著的改进。

表1 LGTM与MotionDiffuse、MDM和MLD方法在FID距离、多样性(DIV)、R精度(前1、前2、前3)和最大均值差异距离(MM Dist)指标上的比较


LGTM还使用了局部多模态相似度(PMM Sim)指标,对生成的各个身体部位动作与身体部位文本描述的相似度进行定量分析,并与现有方法比较进行比较,如表2所示。实验指标表明,LGTM生成的动作在局部上与相应的文本具有更高的相似度。
表2 LGTM与MotionDiffuse、MDM和MLD方法在局部多模态相似度(PMM Sim)指标上的比较

V


 总结与展望 
近年来随着多模态模型、AIGC和文生动画的发展,许多工作被提出并展示出强大的动画数字资产生成能力,为电影、游戏、AR/VR行业注入了新的动力。然而在实际工业应用中,往往要求高质量的数字资产、高度可控的动画生成和高精细程度的细节,这给计算机动画领域带来新的机遇与挑战。面对这个问题,LGTM被提出并尝试解决生成局部上精细可控、全局一致的人体动作,对未来工作具有参考意义。

VI


 思考与讨论 
Q: LGTM划分身体部位的方式是固定身体的头部、躯干、左右手臂和左右腿,是否存在其他的划分方式,可能会带来什么影响? 
A: LGTM采用的身体部位划分方式比较贴近日常生活中的认知,过于粗粒度的划分(例如,划分为上半身和下半身)可能会使模型难以精细地控制局部动作;过于细粒度的划分(例如,每个关节都作为一部分)可能会使得全身优化器难以协调这些部位的运动。此外,大语言模型可能难以精确描述每个部位动作,不利于文本分解。具体如何划分还需要根据实际的应用场景来定义。 

Q: 对于输入文本中存在的时序顺序关系,LGTM能否准确处理这种时序性? 
A: LGTM更关注的是生成动画的局部语义准确性上,在对文本进行分解以得到局部语义描述时并没有过多考虑时序上的逻辑性,因此可能存在时序上动作执行顺序不一致的问题。不过总的来说LGTM提供了一种可行的思路,即可以在分解文本时让大语言模型也输出这种时序关系,但对于这种时序信息的处理还需额外设计。 

以下是开放性问题,欢迎读者朋友留言讨论: 
Q: 在生成手部动作等更精细的人体动作时,还能否直接使用LGTM所提的算法,可能会存在哪些问题?

-- End--



导 读 | 郑瑞坤
审 核 | 胡瑞珍
编 辑 | 申


参考文献

[1] Mingyuan Zhang, Zhongang Cai, Liang Pan, Fangzhou Hong, Xinying Guo, Lei Yang, and Ziwei Liu. MotionDiffuse: Text-driven human motion generation with diffusion model. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). 46(6), 4115-4128, 2024. 

[2] Guy Tevet, Sigal Raab, Brian Gordon, Yoni Shafir, Daniel Cohen-or, and Amit Haim Bermano. Human motion diffusion model. International Conference on Learning Representations (ICLR). 2022. 

[3] Xin Chen, Biao Jiang, Wen Liu, Zilong Huang, Bin Fu, Tao Chen, Jingyi Yu, and Gang Yu. Executing your commands via motion diffusion in latent space. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 18000-18010, 2023.




深圳大学可视计算研究中心
Visual Computing Research Center
----------------------------------
https://vcc.tech


中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础,致力促进多个学科的深入交叉与集成创新,重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学研究。

📫
转载及合作:szuvcc@gmail.com


深圳大学可视计算研究中心
深圳大学可视计算研究中心致力于大力提升可视计算科学研究与高等教育水平,以计算机图形学、计算机视觉、人机交互、机器学习、机器人、可视化和可视分析为学科基础,促进多个学科的深入交叉和集成创新。详见官网: vcc.tech
 最新文章