无需参考示例,AI 能准确描述图像中最细微的差别!
DeepMind研究员Lucas Beyer分享了一个令人振奋的研究进展:通过强化学习技术,让AI能更准确地描述图像中的细微差别。
这项技术的妙处在于:让AI在非常相似的图片中找到独特之处。
就像上图中展示的三张照片,虽然乍看几乎一模一样,但AI能准确指出它们的细微区别。
技术创新:不是简单的描述,而是「智慧的发现」
IIIT_Hyderabad的研究员Manu Gaur解释了这项技术的核心:
我们使用了特殊的训练方法,让模型在描述图像时更加注重细节。这不仅仅是简单地使用CLIP损失函数,而是通过精心设计的课程学习方式,逐步增加训练难度。
令人惊喜的是,这个模型仅有200M参数,远小于目前主流的多模态大模型,却能在细粒度图像识别任务上超越现有技术水平。
学术界的热烈回应
NAACL会议2022年就发表了一篇相关研究。Jaemin Cho提到:
我们之前就发现MLE训练存在局限性,优质的训练数据又很稀缺。因此我们提出使用CLIP作为奖励模型来改进细粒度图像描述。
Allen AI研究所的Ani Kembhavi也对此表示认可,他强调:「高质量的详细描述对于训练这类模型至关重要。」
技术细节大揭秘
Manu Gaur团队的具体做法包括:
使用三种不同密度的描述进行MLE预训练
采用强化学习进行后期训练
实施课程学习策略,逐步增加negative样本数量
同时微调CLIP和语言模型
这项技术让机器学会了「像人类一样」发现细节,提升了AI描述图像的准确性。
有趣的发现是:初始训练数据越丰富,最终效果就越好。Manu说到:更好的基础训练带来更好的探索效果。
该研究名为:No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning
论文地址:arxiv.org/abs/2409.03025
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!