Meta(前Facebook)提出最新的通用视觉模型:Sapiens
Sapiens为人类视觉任务(如2D姿态估计、身体部位分割、深度预测、表面法线预测)提供了一个全面的模型套件。该模型家族在3亿张真实环境中的人类图像上进行了预训练,并展现出对非受限条件的出色泛化能力。这些模型还专为提取高分辨率特征而设计,原生训练时使用了1024 x 1024的图像分辨率和16像素的补丁大小,并在多个基准测试中超越了现有方法。
2D姿态估计、身体部位分割、深度估计和表面法线预测的效果图:
论文地址:https://arxiv.org/pdf/2408.12569v3
论文代码:https://github.com/facebookresearch/sapiens
优势
Sapiens模型的优势包括:
通过简单的数据管理和大规模预训练,在相同的计算预算下显著提升了模型性能。 通过高质量甚至是合成的标签微调模型,展示了在自然环境中的泛化能力。 是第一个原生支持针对以人类为中心的任务进行高保真推理的1K分辨率模型,在2D姿态、身体部位分割等基准测试中实现了最先进水平的表现。 在不同的以人类为中心的任务中,随着参数数量从0.3亿增加到20亿,模型性能得到提升。 在多个基准测试中超越了现有的基线,包括Humans-5K(姿态)提高了7.6 mAP,Humans-2K(部分分割)提高了17.1 mIoU,Hi4D(深度)降低了22.4%相对RMSE,THuman2(法线)降低了53.5%相对角度误差。
下表显示了在Humans-5K测试集上姿态估计的结果,其中Sapiens-2B模型在大多数指标上都优于其他较小的Sapiens模型。
欢迎扫码关注: