苹果再次出手了!
苹果公司悄然发布了名为AIMv2的开源视觉编码器家族!
AIMv2不仅在性能上超越了诸如CLIP、SigLIP等知名模型,还开源了多达19个不同规模的预训练模型,从300M到2.7B参数不等,分辨率更是覆盖了224、336和448三个档位。
解码AIMv2的秘密武器
那么,AIMv2到底有何过人之处呢?
简单来说,它就像是给CLIP装上了一个「解码器」,并采用了自回归训练方式。这种看似简单的改动,却带来了惊人的效果提升。
在ImageNet-1k Attentive Probing任务中,AIMv2以89.5%的成绩傲视群雄。虽然在TextVQA任务上略逊DINOv2一筹,但80.5的得分依然不容小觑。
模块化设计,灵活多变
AIMv2的另一大亮点在于其模块化的设计理念。
从信息图中我们可以看到,它包含了「前缀视觉编码器」、「因果多模态解码器」等关键组件。这种设计不仅提高了模型的可解释性,还为未来的改进和定制化应用铺平了道路。
原生分辨率支持,提升实用性
值得一提的是,AIMv2还支持原生分辨率输入。
这意味着在实际应用中,我们可以直接输入原始图像,无需进行额外的预处理,大大提高了模型的实用性和便利性。
开源共享
更令人兴奋的是,苹果选择了将AIMv2完全开源。
HuggingFace上已经上线了包含19个模型的完整系列,涵盖了从轻量级到重量级的各种规格。这一举措无疑将大大推动视觉AI领域的开放创新。
性能与参数的完美平衡
从苹果提供的性能曲线图中,我们可以清晰地看到AIMv2在不同参数规模下的表现。有趣的是,模型性能并非简单地随参数量增加而线性提升,这为我们在实际应用中选择合适的模型版本提供了重要参考。
不止于视觉
虽然AIMv2主打视觉编码,但其潜力显然不止于此。通过与文本任务的结合,AIMv2展现出了强大的跨模态能力,这为未来在更广泛的多模态应用中发挥作用奠定了基础。
HuggingFace 见:
https://huggingface.co/collections/apple/aimv2-6720fe1558d94c7805f7688c
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!