UniMuMo:通过文本或音乐生成3D数字人的动作

职场   2024-10-09 17:15   北京  

之前文章提到通过文本生成3D数字人的动作的开源模型:

https://motion-gpt.github.io/。

今天发现一个通过音乐生成3D数字人动作的大模型,

https://hanyangclarence.github.io/unimumo_demo/

https://github.com/hanyangclarence/UniMuMo

介绍:

UniMuMo是一种统一的多模态模型,能够以任意文本、音乐和动作数据作为输入条件,以生成所有三种模态的输出。为了解决缺乏时间同步数据的问题,根据节奏模式对齐未配对的音乐和动作数据,以利用现有的大规模纯音乐和纯动作数据集。

通过将音乐、动作和文本转换为基于标记的表示,模型通过统一的编码器-解码器转换器架构将这些模态连接起来。为了在单个框架内支持多个生成任务,引入了几项架构改进。

建议使用音乐码本对动作进行编码,将动作映射到与音乐相同的特征空间中。引入了一种音乐动作并行生成方案,将所有音乐和动作生成任务统一到一个转换器解码器架构中,该架构具有音乐动作联合生成的单个训练任务。此外,该模型是通过微调现有的预训练单模态模型设计的,大大降低了计算需求。

目前由于机器的限制,暂时还没跑通。等过一阵子看看情况。


关于作者

做一只爬的最久的乌龟,保持学习保持好奇,即使慢一点,遇到一点困难,只要最后能到达终点,又有什么关系呢。
毕竟人生没有白走的路,每一步都算数。





前端程序设计
专注前端最前沿技术,数据可视化,web3d。偶尔插播生活和艺术。
 最新文章