200M 模型 SOTA 开源图像细节描述!

旅行   2024-11-18 08:30   北京  

无需参考示例,AI 能准确描述图像中最细微的差别!

DeepMind研究员Lucas Beyer分享了一个令人振奋的研究进展:通过强化学习技术,让AI能更准确地描述图像中的细微差别。

这项技术的妙处在于:让AI在非常相似的图片中找到独特之处

就像上图中展示的三张照片,虽然乍看几乎一模一样,但AI能准确指出它们的细微区别。

技术创新:不是简单的描述,而是「智慧的发现」

IIIT_Hyderabad的研究员Manu Gaur解释了这项技术的核心:

我们使用了特殊的训练方法,让模型在描述图像时更加注重细节。这不仅仅是简单地使用CLIP损失函数,而是通过精心设计的课程学习方式,逐步增加训练难度。

令人惊喜的是,这个模型仅有200M参数,远小于目前主流的多模态大模型,却能在细粒度图像识别任务上超越现有技术水平。

学术界的热烈回应

NAACL会议2022年就发表了一篇相关研究。Jaemin Cho提到:

我们之前就发现MLE训练存在局限性,优质的训练数据又很稀缺。因此我们提出使用CLIP作为奖励模型来改进细粒度图像描述。

Allen AI研究所的Ani Kembhavi也对此表示认可,他强调:「高质量的详细描述对于训练这类模型至关重要。」

技术细节大揭秘

Manu Gaur团队的具体做法包括:

  • 使用三种不同密度的描述进行MLE预训练

  • 采用强化学习进行后期训练

  • 实施课程学习策略,逐步增加negative样本数量

  • 同时微调CLIP和语言模型

这项技术让机器学会了「像人类一样」发现细节,提升了AI描述图像的准确性。

有趣的发现是:初始训练数据越丰富,最终效果就越好。Manu说到:更好的基础训练带来更好的探索效果。

该研究名为:No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning

论文地址:arxiv.org/abs/2409.03025

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章