Sapiens——强大的通用人类视觉模型

文摘   2024-09-01 12:46   广东  

Meta(前Facebook)提出最新的通用视觉模型:Sapiens

Sapiens为人类视觉任务(如2D姿态估计、身体部位分割、深度预测、表面法线预测)提供了一个全面的模型套件。该模型家族在3亿张真实环境中的人类图像上进行了预训练,并展现出对非受限条件的出色泛化能力。这些模型还专为提取高分辨率特征而设计,原生训练时使用了1024 x 1024的图像分辨率和16像素的补丁大小,并在多个基准测试中超越了现有方法。

2D姿态估计、身体部位分割、深度估计和表面法线预测的效果图:

03

论文地址:https://arxiv.org/pdf/2408.12569v3

论文代码:https://github.com/facebookresearch/sapiens

优势

Sapiens模型的优势包括:

  • 通过简单的数据管理和大规模预训练,在相同的计算预算下显著提升了模型性能。
  • 通过高质量甚至是合成的标签微调模型,展示了在自然环境中的泛化能力。
  • 是第一个原生支持针对以人类为中心的任务进行高保真推理的1K分辨率模型,在2D姿态、身体部位分割等基准测试中实现了最先进水平的表现。
  • 在不同的以人类为中心的任务中,随着参数数量从0.3亿增加到20亿,模型性能得到提升。
  • 在多个基准测试中超越了现有的基线,包括Humans-5K(姿态)提高了7.6 mAP,Humans-2K(部分分割)提高了17.1 mIoU,Hi4D(深度)降低了22.4%相对RMSE,THuman2(法线)降低了53.5%相对角度误差。

下表显示了在Humans-5K测试集上姿态估计的结果,其中Sapiens-2B模型在大多数指标上都优于其他较小的Sapiens模型。


欢迎扫码关注:

机器学习实战
多名大厂算法工程师共同运营,主要专注机器学习算法、深度学习算法、计算机视觉等领域技术干货分享,一天进步一点点
 最新文章