本文提出了首个支持多种动作生成任务的动作大模型 Large Motion Model (LMM),其能够支持多种类型的控制信号(图1)来生成统一协调的 3D 动作。本文分别从数据设施、模型结构、训练策略三个角度出发,解决了通往动作大模型之路的挑战,并在多个主流的动作生成任务达到与单一专家模型相近甚至更高的精度水平。
论文标题:
Large Motion Model for Unified Multi-Modal Motion Generation
论文链接:
https://arxiv.org/pdf/2404.01284
代码链接:
https://github.com/mingyuan-zhang/LMM
项目主页:
https://mingyuan-zhang.github.io/projects/LMM.html
图 1. Larege Motion Model 性能展示
一、背景介绍
随着生成技术和 3D 视觉技术的发展,动作生成技术在近几年受到了很多研究者的关注。动作生成任务的输出往往是可以驱动 3D 人物模型的控制序列,一般以 3D 关键点序列、骨骼旋转角序列为主。其控制信号的类型各异,从而衍生出了不同的动作生成任务。例如文本驱动动作生成任务,音乐驱动舞蹈生成,动作预测任务等。这些任务具有相似的输出类型,但是有着不同的控制信号。这启发着我们构建统一的动作生成大模型是一个很有吸引力的技术方向,也是很有希望达成的目标。然而在通往这个技术目标的路上有三个重要的挑战:
数据设施:现有数据集往往只有单一控制信号,并且这些在学术界公开的数据往往规模都很小。更严峻的是,不同数据集对动作数据的刻画方法是不一样的,这意味着我们很难同时在不同数据集上进行训练。
结构设计:我们需要设计一个能够支持多种不同模态信号的统一生成框架,其中多模态的对齐,以及对于不同动作数据格式的支持都是结构设计部分绕不开的难题。
训练策略:如何让模型在不同帧率、不同数据格式上能够学到统一通用的动作先验,并且将其在各个子任务上充分地发挥出来,是构建高效动作大模型的重要课题。
本文依次提出了这三个挑战的解决方案,从而构建了首个统一多模态的动作生成大模型 LMM。
二、数据设施
我们首先构建了一个数据基础设施 MotionVerse,用于支持后续多模态动作大模型的训练。这里我们依次解决了不同生成任务形式的统一,和不同数据格式的统一。
表1:统一任务框架和MotionVerse 的数据构成
图2:MotionVerse的数据处理流程
针对动作数据格式不一致的问题,我们设计了如图2 所示的管线。我们以 SMPL-X[1] 的骨骼标注为标准,将不同数据的关键点格式变成 SMPL-X 的格式,并在之后进一步处理成 TOMATO[2] 动作表征。然而这里还有一个挑战是,不同数据集的关键点标注可能会有很大程度的缺失。例如 TED Gesture++ 数据没有下半身、手部动作等。
为了解决这个问题,我们将人体数据划分成十个部分,并对整体缺失的部分进行标注,要求后续模型在训练时能够知道哪些身体部位是缺失的。对于条件特征,我们使用 ImageBind[3] 模型来将所有类型的条件转换成统一的特征序列,从而可以将这些控制信号尽量先映射到相同的特征空间下,有利于模型后续的学习。
三、结构设计
图3:ArtAttention 网络结构
四、训练策略
图4:训练策略与推理策略
五、实验结果
表 2. 不同方法在HumanML3D 测试集上的表现
表 3. 不同方法在AMASS-BMLrub 和 3DPW 测试集上的表现
图5:多条件动作生成
图6:更多可视化例子
图7:3D 动作生成引导视频生成
引用
[1] Georgios Pavlakos, Vasileios Choutas, Nima Ghorbani, Timo Bolkart, Ahmed A. A. Osman, Dimitrios Tzionas, and Michael J. Black. Expressive Body Capture: 3D Hands, Face, and Body from a Single Image. CVPR 2019
[2] Shunlin Lu, Ling-Hao Chen, Ailing Zeng, Jing Lin, Ruimao Zhang, Lei Zhang and Heung-Yeung Shum. HumanTOMATO: Text-aligned Whole-body Motion Generation. ICML 2024
[3] Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra. IMAGEBIND: One Embedding Space To Bind Them All. CVPR 2023
[4] Mingyuan Zhang, Huirong Li, Zhongang Cai, Jiawei Ren, Lei Yang, Ziwei Liu. FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing. NeurIPS 2023.
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。