首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

200M 模型 SOTA 开源图像细节描述！

旅行 2024-11-18 08:30 北京

无需参考示例，AI 能准确描述图像中最细微的差别！

DeepMind研究员Lucas Beyer分享了一个令人振奋的研究进展：通过强化学习技术，让AI能更准确地描述图像中的细微差别。

这项技术的妙处在于：让AI在非常相似的图片中找到独特之处。

就像上图中展示的三张照片，虽然乍看几乎一模一样，但AI能准确指出它们的细微区别。

技术创新：不是简单的描述，而是「智慧的发现」

IIIT_Hyderabad的研究员Manu Gaur解释了这项技术的核心：

我们使用了特殊的训练方法，让模型在描述图像时更加注重细节。这不仅仅是简单地使用CLIP损失函数，而是通过精心设计的课程学习方式，逐步增加训练难度。

令人惊喜的是，这个模型仅有200M参数，远小于目前主流的多模态大模型，却能在细粒度图像识别任务上超越现有技术水平。

学术界的热烈回应

NAACL会议2022年就发表了一篇相关研究。Jaemin Cho提到：

我们之前就发现MLE训练存在局限性，优质的训练数据又很稀缺。因此我们提出使用CLIP作为奖励模型来改进细粒度图像描述。

Allen AI研究所的Ani Kembhavi也对此表示认可，他强调：「高质量的详细描述对于训练这类模型至关重要。」

技术细节大揭秘

Manu Gaur团队的具体做法包括：

使用三种不同密度的描述进行MLE预训练
采用强化学习进行后期训练
实施课程学习策略，逐步增加negative样本数量
同时微调CLIP和语言模型

这项技术让机器学会了「像人类一样」发现细节，提升了AI描述图像的准确性。

有趣的发现是：初始训练数据越丰富，最终效果就越好。Manu说到：更好的基础训练带来更好的探索效果。

该研究名为：No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning

论文地址：arxiv.org/abs/2409.03025

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

http://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453457145&idx=1&sn=c9440245296d7c7f807372db68aec793

关注AGI 的沿途风景！

最新文章

200M 模型 SOTA 开源图像细节描述！

李开复的01.ai 用3百万造出GPT-4级对手！

AI奶奶专治电信诈骗：40分钟废话连篇，骗子气到爆粗口！

Grok 3 因证明「黎曼假设」而被暂停训练？！

NEO 重磅问世：第一位「全能」机器学习AI工程师！

MoE「现形记」：训练时按需使用，推理时全员出动？

llms.txt：AI时代的robots.txt！

llama-ocr 登顶Hacker News！

AGI 定义之争：DeepMind vs OpenAI vs Anthropic

走近科学之，17岁高中生的“神级Prompt”

来了！ChatGPT 推出桌面级编程助手！

Anthropic推出Claude 智能改进器，「一键优化」你的AI提示词！

谍战！OpenAI 派飞机侦查马斯克xAI 超算中心

重磅！OpenAI「Operator」明年一月发布！

LeCun被指剽窃！Marcus怒斥：我要告你！

重磅！马斯克或将影响特朗普新政府的AI监管政策

Hinton：别学AI，去当水管工吧！

软体机器人的「超级肌肉」来了：力举千倍重物，柔软如肌肤

Ilya Sutskever：预训练已到瓶颈！

Sam Altman的Worldcoin：用眼睛换币，84%人亏损！

重磅！OpenAI前CTO Murati新团队初具规模！挖角OpenAI成功？

独家解密！Lex Fridman与Anthropic CEO 5小时长谈：Claude 4.0、AGI 2026年或将到来！

再见GPT！你好，「o」！

重磅！AlphaFold 3 终于开源了！

AGI 何时到来？Sam Altman、Dario Amodei、Geoffrey Hinton、Yann LeCun 的时间表

MobA：让AI 真正学会使用手机！

大模型进入瓶颈期，Gary Marcus：我赢了！

OpenAI 新模型Orion 或难产！

Sora 两周内发布！

狂飙！ChatGPT跃升至全球第八大网站！

SpaceX「火星互联网」计划曝光：每秒千万亿比特的星际通信！

惊人发现：LLM模型一半的注意力层是多余的！

重磅！OpenAI迎版权诉讼重大胜利！

Stack Overflow 2024 调查报告出炉：Python将统治编程世界！

重磅！亚马逊欲增资Anthropic：条件是使用自家芯片！

Sam Altman：千日内迎来超级AI，人类将步入丰裕时代

如何使用纯GPT-2解码器进行OCR？

AI艺术之超现实水果！

谷歌研究员François Chollet：AI并非真正的智能，而是一种高级插值

Lepton AI携手DigitalOcean，将大规模GPU稳定性提升至99.5%

AI 逃离人类禁锢的最小规则集是什么？

AI 正在控制你的电脑！

微软AI 部门CEO：自我改进AI 将在5年内实现，人类即将迎来奇点时代！

Perplexity 正以 90 亿美元估值寻求融资！

扎克伯格的核能计划被一群小蜜蜂拦腰斩断了！

特朗普当选，OpenAI将如何应对马斯克？

「Sparks of AGI」作者加入OpenAI，或将推进端侧AGI?

马斯克的Grok API 编程能力大超预期！

ScrapeGraphAI：让自然语言驱动的网页爬虫！

Docling：企业级多格式文档转换的开源工具！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉