腾讯联合中科大提出了一种用于动画 3D 角色制作的新型框架Make-It-Animatable,可以在不到一秒的时间内使任何 3D 人形模型准备好进行角色动画制作,支持各种 3D 表示且生成质量和速度方面都有显著的提升。
相关链接
论文:http://arxiv.org/abs/2411.18197v1 主页:https://jasongzy.github.io/Make-It-Animatable/ 试用:
https://make-it-animatable.jasongzy.com/ https://huggingface.co/spaces/jasongzy/Make-It-Animatable
论文阅读
摘要
3D 角色对于现代创意产业至关重要,但要使它们可动画化,通常需要在装配和蒙皮等任务中进行大量手动工作。现有的自动装配工具面临一些限制,包括需要手动注释、刚性骨架拓扑以及对各种形状和姿势的有限泛化。另一种方法是生成预先绑定到装配模板网格的可动画化身。然而,这种方法通常缺乏灵活性,并且通常仅限于逼真的人体形状。
为了解决这些问题,论文提出了Make-It-Animatable,这是一种新颖的数据驱动方法,可以在不到 1 秒的时间内使任何 3D 人形模型准备好进行角色动画制作,无论其形状和姿势如何。该统一框架可生成高质量的混合权重、骨骼和姿势变换。通过结合基于粒子的形状自动编码器,该方法支持各种 3D 表示,包括网格和 3D 高斯图。此外,采用由粗到细的表示和结构感知建模策略来确保准确性和稳健性,即使对于具有非标准骨架结构的角色也是如此。
论文进行了大量实验来验证我们框架的有效性。与现有方法相比,提出的方法在质量和速度方面都有显著的提升。
方法
提出的框架流程。 给定一个输入的 3D 角色,为其生成高质量的混合权重、骨骼和姿势-森林变换,以便轻松实现任何动画。首先用这个框架的预训练精简版粗略地定位关节,从而实现更精细的形状表示。然后使用基于粒子的自动编码器将形状编码到神经场中。解码过程涉及对不同动画资产的空间和可学习查询。最后,提出了骨骼的结构感知建模,以便更好地将预测与骨架拓扑先验对齐。
提出的结构感知转换器的流程。首先将每个骨骼的形状感知嵌入与其父骨骼的潜在特征相加,该潜在特征是从自回归输出(在推理中)或地面真实值(在训练中)编码的。然后通过掩蔽的因果注意力将总和与祖先骨骼的特征融合。最终,从输出的形状和结构感知嵌入中解码骨骼属性。在推理中,整个过程遵循下一个子骨骼预测的范式。
该框架的核心方法包括以下几个关键步骤:
粗到细的形状表示:首先对输入模型进行粗略定位,初步确定关节位置,以便后续的细化处理。 粒子基础的形状自编码器:使用粒子基础的自编码器对输入形状进行编码,生成紧凑的神经特征表示。这一步骤通过提取每个点的法线信息来增强几何意识,从而提高后续的权重预测精度。 骨骼的结构感知建模:通过学习的查询向量来预测每个骨骼的属性,考虑到骨骼之间的连接性和对称性,以确保生成的骨骼结构符合实际动画需求。 动画资产生成:基于生成的骨骼和权重,快速生成适用于各种动画的资产,确保在不同姿势下的自然变形。
结果
通过将Make-It-Animatable与现成的图像到 3D 生成器相结合,可以使角色形象栩栩如生。
与 RigNet进行比较。可视化选定关节的混合权重,并手动对其进行变形,以评估装配质量对蒙皮结果的影响。
与 TADA 和 HumanGaussian(HG) 进行比较。使用 TADA 生成的网格和 HG 的 3D Gaussians 进行比较。请注意,这两个基线的骨架与形状特定的 SMPL 模板(无骨尾)相同,其权重从模板网格中插值而来。
结论
论文提出了一种用于动画 3D 角色制作的新型框架。为了解决现有方法的重大挑战和实际限制开发了几个复杂的模块,包括:
粗到细的形状表示 基于粒子的形状自动编码器 骨骼的结构感知建模。
将所有这些结合在一起,该框架为任何 3D 角色的动画制作提供了一种开箱即用且高效的解决方案。综合的实验证明了该方法的优越性及其未来研究的巨大潜力。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~