刚刚,苹果发布AIMv2,再次搅动视觉AI江湖!

旅行   2024-11-23 09:00   北京  

苹果再次出手了!

苹果公司悄然发布了名为AIMv2的开源视觉编码器家族!

AIMv2不仅在性能上超越了诸如CLIP、SigLIP等知名模型,还开源了多达19个不同规模的预训练模型,从300M到2.7B参数不等,分辨率更是覆盖了224、336和448三个档位。

解码AIMv2的秘密武器

那么,AIMv2到底有何过人之处呢?

简单来说,它就像是给CLIP装上了一个「解码器」,并采用了自回归训练方式。这种看似简单的改动,却带来了惊人的效果提升。

在ImageNet-1k Attentive Probing任务中,AIMv2以89.5%的成绩傲视群雄。虽然在TextVQA任务上略逊DINOv2一筹,但80.5的得分依然不容小觑。

模块化设计,灵活多变

AIMv2的另一大亮点在于其模块化的设计理念。

从信息图中我们可以看到,它包含了「前缀视觉编码器」、「因果多模态解码器」等关键组件。这种设计不仅提高了模型的可解释性,还为未来的改进和定制化应用铺平了道路。

原生分辨率支持,提升实用性

值得一提的是,AIMv2还支持原生分辨率输入。

这意味着在实际应用中,我们可以直接输入原始图像,无需进行额外的预处理,大大提高了模型的实用性和便利性。

开源共享

更令人兴奋的是,苹果选择了将AIMv2完全开源。

HuggingFace上已经上线了包含19个模型的完整系列,涵盖了从轻量级到重量级的各种规格。这一举措无疑将大大推动视觉AI领域的开放创新。

性能与参数的完美平衡

从苹果提供的性能曲线图中,我们可以清晰地看到AIMv2在不同参数规模下的表现。有趣的是,模型性能并非简单地随参数量增加而线性提升,这为我们在实际应用中选择合适的模型版本提供了重要参考。

不止于视觉

虽然AIMv2主打视觉编码,但其潜力显然不止于此。通过与文本任务的结合,AIMv2展现出了强大的跨模态能力,这为未来在更广泛的多模态应用中发挥作用奠定了基础。

HuggingFace 见:

https://huggingface.co/collections/apple/aimv2-6720fe1558d94c7805f7688c

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章