ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

创业 2024-11-15 08:22 北京

本文提出了首个支持多种动作生成任务的动作大模型 Large Motion Model (LMM)，其能够支持多种类型的控制信号（图1）来生成统一协调的 3D 动作。本文分别从数据设施、模型结构、训练策略三个角度出发，解决了通往动作大模型之路的挑战，并在多个主流的动作生成任务达到与单一专家模型相近甚至更高的精度水平。

论文标题：
Large Motion Model for Unified Multi-Modal Motion Generation
论文链接：
https://arxiv.org/pdf/2404.01284
代码链接：
https://github.com/mingyuan-zhang/LMM
项目主页：
https://mingyuan-zhang.github.io/projects/LMM.html

图 1. Larege Motion Model 性能展示

一、背景介绍

随着生成技术和 3D 视觉技术的发展，动作生成技术在近几年受到了很多研究者的关注。动作生成任务的输出往往是可以驱动 3D 人物模型的控制序列，一般以 3D 关键点序列、骨骼旋转角序列为主。其控制信号的类型各异，从而衍生出了不同的动作生成任务。例如文本驱动动作生成任务，音乐驱动舞蹈生成，动作预测任务等。这些任务具有相似的输出类型，但是有着不同的控制信号。这启发着我们构建统一的动作生成大模型是一个很有吸引力的技术方向，也是很有希望达成的目标。然而在通往这个技术目标的路上有三个重要的挑战：

数据设施：现有数据集往往只有单一控制信号，并且这些在学术界公开的数据往往规模都很小。更严峻的是，不同数据集对动作数据的刻画方法是不一样的，这意味着我们很难同时在不同数据集上进行训练。
结构设计：我们需要设计一个能够支持多种不同模态信号的统一生成框架，其中多模态的对齐，以及对于不同动作数据格式的支持都是结构设计部分绕不开的难题。
训练策略：如何让模型在不同帧率、不同数据格式上能够学到统一通用的动作先验，并且将其在各个子任务上充分地发挥出来，是构建高效动作大模型的重要课题。

本文依次提出了这三个挑战的解决方案，从而构建了首个统一多模态的动作生成大模型 LMM。

二、数据设施

我们首先构建了一个数据基础设施 MotionVerse，用于支持后续多模态动作大模型的训练。这里我们依次解决了不同生成任务形式的统一，和不同数据格式的统一。

为了统一这些任务的输入形式，我们提出一种通用的描述形式。每个生成任务的控制信号都是由条件特征，和输入掩码构成。条件特征可以是文本、音乐、语音、视频、动作类别等，对应不同的命令类型。输入掩码描述了哪些部分的动作序列是给定的。例如动作预测是给定前面一些帧，动作中间补全则是给定前面和后面的一些动作数据要求补全中间的内容。通过这种格式，我们可以将不同类型的任务以统一的形式存储下来。表 1 左边展示了不同主流动作生成任务在统一格式下的具体形式，右边展示了 MotionVerse 的数据构成。

表1：统一任务框架和MotionVerse 的数据构成

图2：MotionVerse的数据处理流程

针对动作数据格式不一致的问题，我们设计了如图2 所示的管线。我们以 SMPL-X[1] 的骨骼标注为标准，将不同数据的关键点格式变成 SMPL-X 的格式，并在之后进一步处理成 TOMATO[2] 动作表征。然而这里还有一个挑战是，不同数据集的关键点标注可能会有很大程度的缺失。例如 TED Gesture++ 数据没有下半身、手部动作等。

为了解决这个问题，我们将人体数据划分成十个部分，并对整体缺失的部分进行标注，要求后续模型在训练时能够知道哪些身体部位是缺失的。对于条件特征，我们使用 ImageBind[3] 模型来将所有类型的条件转换成统一的特征序列，从而可以将这些控制信号尽量先映射到相同的特征空间下，有利于模型后续的学习。

三、结构设计

模型结构设计部分我们以 FineMoGen[4] 为基础，其中生成算法采用了扩散模型，并且以 Transformer为模型底座。我们对里面的注意力模块进行了进一步升级，提出了新的 ArtAttention，用于支持多模态输入和针对数据有缺失情况的支持。

图3：ArtAttention 网络结构

整体的注意力结构也是分成了两支：空间注意力和时间注意力。在空间注意力的部分，我们模型能够利用不同身体部位的特征进行相互之间的优化，让身体各个部位更加协调。时间注意力部分我们升级了 FineMoGen 里的建模方案，引入真实世界的时间，用于针对不同帧率的动作数据学出更统一的动作先验。

四、训练策略

图4：训练策略与推理策略

我们的训练过程分为两个阶段。在预训练阶段中，我们去掉所有条件特征，让模型关注于动作先验的提取。我们也引入了数据增强策略，包括对动作序列帧率的降采样和对不同时刻、不同部位的随机掩码。在这样的增强策略下，之前有缺失的动作数据也能够更好的融入整个学习过程。在第二个微调阶段，我们让模型接受条件特征，从中学会条件特征与动作特征的映射关系。测试时，我们可以给定多种不同的条件特征，以及针对动作预测、动作中间补全等任务的上下文条件，从而实现对各种动作生成任务的支持。

五、实验结果

我们在九个数据集上评估了LMM 的效果，本文展示其中的一部分。实验结果（表2、3）展示了我们提出的LMM 框架在各个任务上都能达到很出色的效果。

表 2. 不同方法在HumanML3D 测试集上的表现

表 3. 不同方法在AMASS-BMLrub 和 3DPW 测试集上的表现

图5：多条件动作生成

图6：更多可视化例子

图7：3D 动作生成引导视频生成

我们所构建的多模态动作生成大模型也促进了更多的动作生成任务应用形式。如图 5 所示，我们可以在传统动作预测，动作补全中我们也可以额外指定文本描述，从而定制化动作预测、动作补全的结果。此外，我们也可以将文本描述与音频结合起来，让数字人随着音乐的律动来完成给定的文本描述（图 6）。另一种应用的方向是结合现在人物视频生成的范式。用户可以先利用我们的动作生成大模型来定制化自己想要的人物动作，在用相机参数投影后用于引导 2D 视频生成，从而提升人物视频生成的可控性（图 7）。

引用

[1] Georgios Pavlakos, Vasileios Choutas, Nima Ghorbani, Timo Bolkart, Ahmed A. A. Osman, Dimitrios Tzionas, and Michael J. Black. Expressive Body Capture: 3D Hands, Face, and Body from a Single Image. CVPR 2019

[2] Shunlin Lu, Ling-Hao Chen, Ailing Zeng, Jing Lin, Ruimao Zhang, Lei Zhang and Heung-Yeung Shum. HumanTOMATO: Text-aligned Whole-body Motion Generation. ICML 2024

[3] Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra. IMAGEBIND: One Embedding Space To Bind Them All. CVPR 2023

[4] Mingyuan Zhang, Huirong Li, Zhongang Cai, Jiawei Ren, Lei Yang, Ziwei Liu. FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing. NeurIPS 2023.

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线600+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650515308&idx=1&sn=b9d5987467b3f329a025e0d3b226173f

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

ICLR 2024 | BioBridge：通过知识图谱桥接生物医学基础模型

将门月报 | 格灵深瞳携手北京铁路局、文远知行与Uber达成战略合作、帷幄与华为云建立战略合作伙伴关系......

清华、北大等发布Self-Play强化学习最新综述

ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

Talk预告｜慕尼黑工业大学翟光耀：SG-Bot - 基于场景图生成式模型的机械臂操作和物体重排

300篇文献！大模型走向物理世界：TeleAI发布大模型驱动的具身智能综述

Talk预告｜北京航空航天大学阮受炜：探索视觉感知的3D视角鲁棒性

ECCV 2024 | EchoScene：通过场景图扩散生成3D室内场景

一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉