今天我看了一篇名为SMooDi: Stylized Motion Diffusion Model的论文,目前尚未公开源代码。这项研究是由Northeastern University、Stability AI、Google Research团队合作完成。
SMooDi 是一种生成风格化动作的扩散模型,它由内容文本和风格动作序列驱动。与现有方法只能生成各种内容的动作或将风格从一个序列转移到另一个序列不同,SMooDi 能够快速生成各种内容和多种风格的动作。
SMooDi 可以根据内容文本和风格动作序列生成逼真且风格化的人物动作。它还接受动作序列作为内容输入。视频中颜色较深的部分表示序列中较晚的帧。为了更好地展示风格化动作生成,SMooDi团队为每个风格动作序列添加了风格标签。请注意,这些风格标签并未作为模型输入,仅用于可视化展示。
方法
SMooDi 概述
SMooDi模型从内容文本和风格动作序列生成风格化的人物动作。在去噪步骤 t ,SMooDi模型将内容文本 c 、风格动作 s 和噪声潜在变量 zt 作为输入,并预测 ϵt,然后将其传递到 zt-1。这种去噪步骤重复 T 次,以获得无噪声的动作潜在变量 z0,并将其输入到动作解码器 D 中生成风格化动作。
风格适配器的详细说明
SMooDi的风格适配器通过零线性层与动作扩散模型连接。风格适配器从每个 Transformer 编码器输出的结果添加到动作扩散模型中,以引导预测的噪声朝向目标风格。
分类器自由和分类器引导风格指导的视觉说明
(a) 和 (b) 分别展示了分类器自由内容和风格指导; (c) 显示了由 (a) 和 (b) 组合而成的初始风格化动作; (d) 则展示了经过分类器引导风格指导修正后的风格化动作。
对比
SMooDi方法与基线方法在由内容文本驱动的风格化动作生成上的对比,使用了 100STYLE 数据集(提供风格)和 HumanML3D 数据集(提供内容)。
以下是SMooDi方法与基线方法在两个风格化动作生成任务上的定性对比。