导读 本文是VCC郑瑞坤同学对论文 LGTM: Local-to-Global Text-Driven Human Motion Diffusion Model 的解读,该工作由深圳大学可视计算研究中心和快手科技及字节跳动合作完成,并已被发表在计算机图形学顶级会议SIGGRAPH 2024上。 项目主页: https://vcc.tech/research/2024/LGTM 该工作提出了一种名为LGTM的局部到全局的文本到人体动作的生成扩散模型,以应对传统方法难以从动作文本描述准确生成语义一致的人体动作的挑战。具体来说,LGTM首先将全局动作文本描述分解为每个身体部位的局部描述,然后通过独立的身体部位运动编码器对齐这些部位的具体语义,最后使用全身优化器改进动作生成结果并保证整体的连贯性。实验结果表明,LGTM在生成局部准确、语义对齐的人体动作方面取得了显著改进。
I 引言 LGTM旨在解决文本到人体动作生成的问题,即给定一个角色动作的文本描述,目标是自动生成合理且真实的三维人体动作。这一过程的自动化对于包括增强现实和虚拟现实的内容创造、机器人技术的进步以及人机交互的增强等多种下游应用具有重要潜力。近年来,基于扩散模型的各项研究推动了这一领域的巨大进展,然而现有方法难以捕捉动作描述中所嵌入的细微局部语义,所生成的动作也不能很好地与这些语义线索精确对齐,常常遇到局部语义泄漏和缺失元素的问题。例如,当输入一个描述如“一个人用他的左腿踢某物”的提示时,这些方法可能错误地生成一个对应于“右腿踢”的运动。同样,涉及需要多个身体部位协调的复杂文本提示,经常导致某些部位的动作被忽略。 LGTM提出了一种基于扩散模型的文本到动作生成架构,生成符合精确的文本描述又保持局部语义一致性的人体动作。LGTM的方法分为两个主要阶段。第一阶段,通过引入了一个分区模块以处理局部语义精确度问题。首先,LGTM使用大型语言模型 (LLMs) 将全局动作描述分解为针对每个身体部位的文本描述;随后,与每个身体部位对应的动作编码器独立地处理这些部位的叙述,有效地避免局部语义不一致问题、减少冗余信息和防止语义泄漏。第二阶段,LGTM引入了一个基于注意力的全身优化器,用于促进不同身体部位之间的信息整合,确保生成的整体动作不仅在局部精确,而且在全局上连贯且流畅。实验表明,LGTM能够生成更符合输入文本的、在局部和全局上都更准确的运动,并且超越了现有的最先进方法。 II 技术贡献
V 总结与展望 近年来随着多模态模型、AIGC和文生动画的发展,许多工作被提出并展示出强大的动画数字资产生成能力,为电影、游戏、AR/VR行业注入了新的动力。然而在实际工业应用中,往往要求高质量的数字资产、高度可控的动画生成和高精细程度的细节,这给计算机动画领域带来新的机遇与挑战。面对这个问题,LGTM被提出并尝试解决生成局部上精细可控、全局一致的人体动作,对未来工作具有参考意义。 VI 思考与讨论 Q: LGTM划分身体部位的方式是固定身体的头部、躯干、左右手臂和左右腿,是否存在其他的划分方式,可能会带来什么影响?A: LGTM采用的身体部位划分方式比较贴近日常生活中的认知,过于粗粒度的划分(例如,划分为上半身和下半身)可能会使模型难以精细地控制局部动作;过于细粒度的划分(例如,每个关节都作为一部分)可能会使得全身优化器难以协调这些部位的运动。此外,大语言模型可能难以精确描述每个部位动作,不利于文本分解。具体如何划分还需要根据实际的应用场景来定义。 Q: 对于输入文本中存在的时序顺序关系,LGTM能否准确处理这种时序性?A: LGTM更关注的是生成动画的局部语义准确性上,在对文本进行分解以得到局部语义描述时并没有过多考虑时序上的逻辑性,因此可能存在时序上动作执行顺序不一致的问题。不过总的来说LGTM提供了一种可行的思路,即可以在分解文本时让大语言模型也输出这种时序关系,但对于这种时序信息的处理还需额外设计。 以下是开放性问题,欢迎读者朋友留言讨论:Q: 在生成手部动作等更精细的人体动作时,还能否直接使用LGTM所提的算法,可能会存在哪些问题?
-- End--
导 读 | 郑瑞坤审 核 | 胡瑞珍编 辑 | 申金 参考文献
[1] Mingyuan Zhang, Zhongang Cai, Liang Pan, Fangzhou Hong, Xinying Guo, Lei Yang, and Ziwei Liu. MotionDiffuse: Text-driven human motion generation with diffusion model. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). 46(6), 4115-4128, 2024.
[2] Guy Tevet, Sigal Raab, Brian Gordon, Yoni Shafir, Daniel Cohen-or, and Amit Haim Bermano. Human motion diffusion model. International Conference on Learning Representations (ICLR). 2022.
[3] Xin Chen, Biao Jiang, Wen Liu, Zilong Huang, Bin Fu, Tao Chen, Jingyi Yu, and Gang Yu. Executing your commands via motion diffusion in latent space. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 18000-18010, 2023.
深圳大学可视计算研究中心Visual Computing Research Center----------------------------------https://vcc.tech