通向高分辨率VLM (4): Idefics2

文摘科技 2024-06-19 09:10 上海

HuggingFace: https://huggingface.co/HuggingFaceM4/idefics2-8b

Paper: https://arxiv.org/abs/2405.02246

Demo: https://huggingface.co/spaces/HuggingFaceM4/idefics2_playground

摘要

不久前，Huggingface多模态团队M4发布了Idefics2，笔者当时也第一时间给出了公众号推送，但由于当时还没有给出具体的技术报告，所以解读并不详细：

Huggingface最强开源多模态大模型: Idefics2

如今技术报告已经开源，大家看完都称Huggingface"大善人"。论文中烧了很多钱，设计了很多对比试验，明确了VLM中一些核心设计的影响，并提出了以下问题：《在构建视觉-语言模型时，哪些因素是重要的？》

文中最终得出了几项重要发现：

在参数数量保持不变的情况下，大型语言模型（LLM）的质量对视觉语言模型（VLM）的最终性能具有决定性影响，其影响程度超过了视觉编码器。（虽然这个结论与InternVL的做法相悖，但考虑到InternVL主要以视觉大模型为卖点，也可以理解InternVL它的motivation）
在预训练阶段，解冻单模态预训练模型并结合LoRA技术进行稳定训练，可以发现全自回归架构在性能上优于交叉注意力架构，尽管后者具有更多的参数。
通过可学习池化技术减少视觉标记的数量，我们显著提高了训练和推理阶段的计算效率，同时增强了下游任务的性能。
将预训练的视觉编码器调整以适应固定大小的正方形图像，同时保留图像的原始纵横比和分辨率，这样做不仅没有降低性能，反而加快了训练和推理速度，并减少了内存消耗。
在训练期间将图像分割为多个子图像，可以在推理期间通过牺牲一些计算效率来换取更高的性能，特别是在涉及图像中文本识别的任务中，性能提升尤为显著。

通过这些结论，HuggingfaceM4团队设计了Idefics2

视觉和文本bacbkone选择训练更充分的开源权重：将LLaMA-1-7B（在MMLU上的35.1%）替换为Mistral-7B（在MMLU上的60.1%）可以提高5.1。此外，将视觉编码器从CLIP-ViT-H（在ImageNet上的78.0%）切换到SigLIP-SO400M（在ImageNet上的83.2%）在基准测试上的性能提高了3.3。
选择全自回归架构：可以参考先前公众号推送：LLaVA，BLIP2路线之争：为什么多模态大模型中Q-Former更少见了？
减少视觉token数量：类似先前高分辨率VLM系列推送的其他作品，使用resampler来压缩送入LLM的视觉token数量。与之前论文发现视觉标记越多越好相反，M4团队观察到使用超过64个视觉标记时没有性能提升。使用可学习的池化减少视觉令牌的数量显著提高了训练和推理的计算效率，同时提高了下游任务的性能。
保留原始宽高比和图像分辨率： follow了Pix2Struct以及NaViT的做法，验证了保留原始宽高比和分辨率性能更佳，也符合直觉和近期的设计主流保留原始宽高比和图像分辨率 follow了Pix2Struct以及NaViT的做法，验证了保留原始宽高比和分辨率性能更佳，也符合直觉和近期的设计主流。
在训练期间将图像分割成子图像：可以在推理期间提高计算效率，提高性能。在涉及读取图像中的文本的任务中，性能的提高尤其明显，这也和之前介绍的几篇论文中的做法一致。

训练数据方面，高分辨率VLM的一个重要应用场景与性能评测方式就是解决OCR任务（文档理解），能解决OCR任务也就说明VLM具备了一定程度的细粒度高分辨率图像理解能力，这也是先前低分辨率VLM所不具备的能力。所以训练数据上也做了不少针对性的添加：

交错图像-文本文档：我们使用了OBELICS，这是一个开放的网络规模数据集，包含交错的图像-文本文档，有3.5亿张图像和1150亿个文本标记。通过使用OBELICS数据集，Idefics2模型能够在保持语言模型性能的同时，学习处理交错的图像和文本，这对于处理长文本上下文和提高VQA任务性能尤其重要。（Interleaved数据将会越来越常见，因为互联网数据原生即为这种格式，想要扩大训练数据规模，可能会越来越多的采用类似的数据组织方式，参考：OmniCorpus: 最大开源图文交错数据集 & 超越CLIP，视觉大模型训练新范式？）

图像-文本对训练：在图像-文本对上训练使模型能够学习图像与相关文本之间的对齐。使用了来自PMD的高质量人工标注图像-文本对，以及更高噪声的网络规模图像-文本对的组合LAION。通过结合高质量和高噪声的数据，Idefics2模型可以在学习准确的图像-文本对齐的同时，也能够泛化到更广泛的图像和文本类型。使用LAION COCO数据集的合成标题可以在不牺牲模型性能的情况下增加训练样本的多样性。

PDF文档：最先进的视觉-语言模型（VLMs）的大部分错误源于它们无法准确提取图像或文档中的文本。为了获得强大的OCR（光学字符识别）和文档理解能力，在不同来源的PDF文档上训练Idefics2：来自OCR-IDL的1900万个行业文档；来自PDFA的1800万页文档；RenderedText，包括用各种字体、颜色和背景渲染的海量文本。

在使用图文数据训练的同时，也包含了一些纯文本的训练数据，教模型遵循复杂的指令，解决数学问题，或做算术计算。也能使得模型具备更强的性能和安全性。

可以发现，预训练数据规模极其庞大，远超先前介绍的几篇VLM工作。

指令微调阶段，创建并发布了The Cauldron数据集，先前的推送（Huggingface最强开源多模态大模型: Idefics2）中也已经介绍过，The Cauldron是一个包含了50个开源数据子集的指令微调数据，用于激活VLM的交互能力。

[高分辨率VLM系列解读]

通向高分辨率VLM (1): Monkey

通向高分辨率VLM (2): LLaVA-UHD

通向高分辨率VLM (3): mPLUG-DocOwl 1.5

点击👇关注 “思源数据科学”

👇点个“赞”和“在看”吧

思源数据科学

Towards AGI

最新文章

粉丝专属 | 红包封面 & 抽奖

拥抱新时代：transformers深度集成timm

Kimi 1.5 技术报告解读

粉丝专属 | 红包封面第二弹

粉丝专属 | 新年红包 & 红包封面

创业项目的两大误区 | 文末红包

英伟达50系显卡发布，5070打平4090

2025年，AI工程师必读的50篇论文

AI工程师必读论文：链接汇总

Alec Radford：最强本科生，如何成长为OpenAI资深研究员

Jina CLIP v2：为多模态RAG设计的向量模型

解密o1推理过程！DeepSeek-R1-Lite预览版上线

Pixtral Large：124B的最强开源多模态大模型

审稿人要求引用文章怎么办？凉拌！

高通量实验正在重塑工业AI优化的范式

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、AI视频生成和具身智能，30+位重磅嘉宾抢先看！

Omnivision-968M：最小多模态模型，为边缘设备而生！

一文读懂：从RAG到多模态RAG

仅1.3B！Janus 统一多模态理解和生成

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响

YOLO11问世！重新定义AI的可能性！

Emu3: 统一多模态输入与生成

Llama 3.2：走向多模态

通向高分辨率VLM (10): 原生动态分辨率

OpenAI o1: 大家都忽略的一点

Hugging Face最新视频数据集：FineVideo

流言四起！商业化受阻？Scaling Law失效？大模型行业怎么了？

李沐：大模型发展趋势与个人职业选择

反思：CNN和ViT，到底谁更快

校外可参加！8月23日重磅讲座@李沐

大模型面试体会和分享（2024版）

热榜第一！可视化理解transformer原理

RPBench-Auto：大模型角色扮演Benchmark

FlexAttention：兼具PyTorch的灵活与FlashAttention的性能

SAM 2 开源：视频上也能“分割一切物体”

MINT-1T: 万亿Token的开源多模态数据集

MambaVision: 在视觉任务里，Mamba也能work？

InternVL 2.0 “书生·万象” ：探寻多模态大模型的能力边界

Defect Spectrum: 带有丰富语义的大规模缺陷检测数据集

通向高分辨率VLM (9): SliME

通向高分辨率VLM (8): DeepStack

通向高分辨率VLM (7): Ferret-V2

通向高分辨率VLM (6): InternVL 1.5

通向高分辨率VLM (5): InternLM-XComposer-4KHD

通向高分辨率VLM (4): Idefics2

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉