通向高分辨率VLM (7): Ferret-V2

文摘科技 2024-06-22 09:30 上海

Github: https://github.com/apple/ml-ferret

Paper: https://arxiv.org/abs/2404.07973

摘要

苹果提出Ferret模型的改进版本Ferret-V2，摆脱了固定视觉编码器的限制，开始支持任意动态的高分辨率输入，并且在更广泛的任务上提升了性能。

目前主流MLLM基本都采取了类似的路径去提升输入分辨率，任意分辨率的优势已经无需赘述了，但苹果论文中同样给出了证明：

如上图，显而易见的是，“任意分辨率”要显著好于低分辨率。（在任意分辨率支持下，更新视觉编码器总是比冻结要更好，而在“直接上采样”中，有时冻结视觉编码器甚至更好，如TextVQA）

和上篇推送的InternVL 1.5极其类似，Ferret-V2也是使用了动态高分辨率切patch+全局视图双重输入，相信读者都已经非常熟悉这套最近开源MLLM工作中几近范式化的操作方法。一图看懂Ferret-V2的任意分辨率输入是如何实现的：

方法

为了弥合全局低分辨率图像与局部分割图像块之间的粒度差异，Ferret-V2采用了两种不同的视觉编码器来分别处理这两种图像类型。具体来说，我们选择了CLIP模型来编码全局图像，而DINOv2模型则用于编码局部分割块。选择这两种模型的原因在于它们各自独特的预训练范式。CLIP模型通过图像-文本对比学习目标，能够从标题中抽取图像的全局语义信息。然而，由于对比学习的文本caption中包含的细粒度信息有限，CLIP模型可能无法充分捕捉到丰富的像素级细节。与此相对，DINOv2模型通过结合图像级和块级的自监督学习目标进行训练，能够更深入地捕捉局部对象的特征，如形状或纹理，展现出更强的细粒度感知能力。高低分辨率使用不同的两个视觉编码器，这点也是和InternVL相比不一样的地方，即视觉双基座。

此外，为了进一步区分并学习全局与细粒度视觉信息的不同底层上下文，Ferret-V2为这两种视觉编码器配置了独立MLP projector。这样的设计旨在优化模型对于不同视觉信息的识别和理解能力，从而提升整体的图像处理性能。

而训练过程中，使用了三阶段的训练策略：

第一阶段，Image-Caption对齐任务，单独训练projector，连接视觉模型和语言模型，可以视为一个比较好的projector初始化过程，（其实在一些其他工作中，证明这一步可能并不有用）；

第二阶段，高分辨率密集对齐，设计了两种类型的任务和输入数据：1）密集指代：给定图像，输入问题逐个指代所有对象的区域，并询问它们的类别；2）密集检测：给定图像，输入问题要求定位所有对象；

第三阶段，开放所有权重可学习，进行指令微调。

评测

一些ablation study证明了其输入分辨率的设计，包括视觉“双基座”是有意义的：

与不支持高分辨率的同期MLLM比，是有不少优势的，但最近开源的高分辨率MLLM已经有卷爆的趋势，苹果的这个工作相比之下，也显得稀松平常了。

[高分辨率VLM系列解读]

通向高分辨率VLM (1): Monkey

通向高分辨率VLM (2): LLaVA-UHD

通向高分辨率VLM (3): mPLUG-DocOwl 1.5

通向高分辨率VLM (4): Idefics2

通向高分辨率VLM (5): InternLM-XComposer-4KHD

通向高分辨率VLM (6): InternVL 1.5

点击👇关注 “思源数据科学”

👇点个“赞”和“在看”吧

思源数据科学

Towards AGI

最新文章

粉丝专属 | 红包封面 & 抽奖

拥抱新时代：transformers深度集成timm

Kimi 1.5 技术报告解读

粉丝专属 | 红包封面第二弹

粉丝专属 | 新年红包 & 红包封面

创业项目的两大误区 | 文末红包

英伟达50系显卡发布，5070打平4090

2025年，AI工程师必读的50篇论文

AI工程师必读论文：链接汇总

Alec Radford：最强本科生，如何成长为OpenAI资深研究员

Jina CLIP v2：为多模态RAG设计的向量模型

解密o1推理过程！DeepSeek-R1-Lite预览版上线

Pixtral Large：124B的最强开源多模态大模型

审稿人要求引用文章怎么办？凉拌！

高通量实验正在重塑工业AI优化的范式

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、AI视频生成和具身智能，30+位重磅嘉宾抢先看！

Omnivision-968M：最小多模态模型，为边缘设备而生！

一文读懂：从RAG到多模态RAG

仅1.3B！Janus 统一多模态理解和生成

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响

YOLO11问世！重新定义AI的可能性！

Emu3: 统一多模态输入与生成

Llama 3.2：走向多模态

通向高分辨率VLM (10): 原生动态分辨率

OpenAI o1: 大家都忽略的一点

Hugging Face最新视频数据集：FineVideo

流言四起！商业化受阻？Scaling Law失效？大模型行业怎么了？

李沐：大模型发展趋势与个人职业选择

反思：CNN和ViT，到底谁更快

校外可参加！8月23日重磅讲座@李沐

大模型面试体会和分享（2024版）

热榜第一！可视化理解transformer原理

RPBench-Auto：大模型角色扮演Benchmark

FlexAttention：兼具PyTorch的灵活与FlashAttention的性能

SAM 2 开源：视频上也能“分割一切物体”

MINT-1T: 万亿Token的开源多模态数据集

MambaVision: 在视觉任务里，Mamba也能work？

InternVL 2.0 “书生·万象” ：探寻多模态大模型的能力边界

Defect Spectrum: 带有丰富语义的大规模缺陷检测数据集

通向高分辨率VLM (9): SliME

通向高分辨率VLM (8): DeepStack

通向高分辨率VLM (7): Ferret-V2

通向高分辨率VLM (6): InternVL 1.5

通向高分辨率VLM (5): InternLM-XComposer-4KHD

通向高分辨率VLM (4): Idefics2

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉