之前文章提到通过文本生成3D数字人的动作的开源模型:
https://motion-gpt.github.io/。
今天发现一个通过音乐生成3D数字人动作的大模型,
https://hanyangclarence.github.io/unimumo_demo/
https://github.com/hanyangclarence/UniMuMo
介绍:
UniMuMo是一种统一的多模态模型,能够以任意文本、音乐和动作数据作为输入条件,以生成所有三种模态的输出。为了解决缺乏时间同步数据的问题,根据节奏模式对齐未配对的音乐和动作数据,以利用现有的大规模纯音乐和纯动作数据集。
通过将音乐、动作和文本转换为基于标记的表示,模型通过统一的编码器-解码器转换器架构将这些模态连接起来。为了在单个框架内支持多个生成任务,引入了几项架构改进。
建议使用音乐码本对动作进行编码,将动作映射到与音乐相同的特征空间中。引入了一种音乐动作并行生成方案,将所有音乐和动作生成任务统一到一个转换器解码器架构中,该架构具有音乐动作联合生成的单个训练任务。此外,该模型是通过微调现有的预训练单模态模型设计的,大大降低了计算需求。
目前由于机器的限制,暂时还没跑通。等过一阵子看看情况。
关于作者