通向高分辨率VLM (4): Idefics2

文摘   科技   2024-06-19 09:10   上海  

HuggingFace: https://huggingface.co/HuggingFaceM4/idefics2-8b

Paper: https://arxiv.org/abs/2405.02246

Demo: https://huggingface.co/spaces/HuggingFaceM4/idefics2_playground


摘要

不久前,Huggingface多模态团队M4发布了Idefics2,笔者当时也第一时间给出了公众号推送,但由于当时还没有给出具体的技术报告,所以解读并不详细:

Huggingface最强开源多模态大模型: Idefics2

如今技术报告已经开源,大家看完都称Huggingface"大善人"。论文中烧了很多钱,设计了很多对比试验,明确了VLM中一些核心设计的影响,并提出了以下问题:《在构建视觉-语言模型时,哪些因素是重要的?》

文中最终得出了几项重要发现:

  1. 在参数数量保持不变的情况下,大型语言模型(LLM)的质量对视觉语言模型(VLM)的最终性能具有决定性影响,其影响程度超过了视觉编码器。(虽然这个结论与InternVL的做法相悖,但考虑到InternVL主要以视觉大模型为卖点,也可以理解InternVL它的motivation)

  2. 在预训练阶段,解冻单模态预训练模型并结合LoRA技术进行稳定训练,可以发现全自回归架构在性能上优于交叉注意力架构,尽管后者具有更多的参数。

  3. 通过可学习池化技术减少视觉标记的数量,我们显著提高了训练和推理阶段的计算效率,同时增强了下游任务的性能。

  4. 将预训练的视觉编码器调整以适应固定大小的正方形图像,同时保留图像的原始纵横比和分辨率,这样做不仅没有降低性能,反而加快了训练和推理速度,并减少了内存消耗。

  5. 在训练期间将图像分割为多个子图像,可以在推理期间通过牺牲一些计算效率来换取更高的性能,特别是在涉及图像中文本识别的任务中,性能提升尤为显著。

通过这些结论,HuggingfaceM4团队设计了Idefics2

  1. 视觉和文本bacbkone选择训练更充分的开源权重将LLaMA-1-7B(在MMLU上的35.1%)替换为Mistral-7B(在MMLU上的60.1%)可以提高5.1。此外,将视觉编码器从CLIP-ViT-H(在ImageNet上的78.0%)切换到SigLIP-SO400M(在ImageNet上的83.2%)在基准测试上的性能提高了3.3。

  2. 选择全自回归架构:可以参考先前公众号推送:LLaVA,BLIP2路线之争:为什么多模态大模型中Q-Former更少见了?

  3. 减少视觉token数量:类似先前高分辨率VLM系列推送的其他作品,使用resampler来压缩送入LLM的视觉token数量。与之前论文发现视觉标记越多越好相反,M4团队观察到使用超过64个视觉标记时没有性能提升。使用可学习的池化减少视觉令牌的数量显著提高了训练和推理的计算效率,同时提高了下游任务的性能。

  4. 保留原始宽高比和图像分辨率 follow了Pix2Struct以及NaViT的做法,验证了保留原始宽高比和分辨率性能更佳,也符合直觉和近期的设计主流保留原始宽高比和图像分辨率 follow了Pix2Struct以及NaViT的做法,验证了保留原始宽高比和分辨率性能更佳,也符合直觉和近期的设计主流。

  5. 在训练期间将图像分割成子图像:可以在推理期间提高计算效率,提高性能。在涉及读取图像中的文本的任务中,性能的提高尤其明显,这也和之前介绍的几篇论文中的做法一致。

训练数据方面,高分辨率VLM的一个重要应用场景与性能评测方式就是解决OCR任务(文档理解),能解决OCR任务也就说明VLM具备了一定程度的细粒度高分辨率图像理解能力,这也是先前低分辨率VLM所不具备的能力。所以训练数据上也做了不少针对性的添加:

交错图像-文本文档:我们使用了OBELICS,这是一个开放的网络规模数据集,包含交错的图像-文本文档,有3.5亿张图像和1150亿个文本标记。通过使用OBELICS数据集,Idefics2模型能够在保持语言模型性能的同时,学习处理交错的图像和文本,这对于处理长文本上下文和提高VQA任务性能尤其重要。(Interleaved数据将会越来越常见,因为互联网数据原生即为这种格式,想要扩大训练数据规模,可能会越来越多的采用类似的数据组织方式,参考:OmniCorpus: 最大开源图文交错数据集 & 超越CLIP,视觉大模型训练新范式?
图像-文本对训练:在图像-文本对上训练使模型能够学习图像与相关文本之间的对齐。使用了来自PMD的高质量人工标注图像-文本对,以及更高噪声的网络规模图像-文本对的组合LAION。通过结合高质量和高噪声的数据,Idefics2模型可以在学习准确的图像-文本对齐的同时,也能够泛化到更广泛的图像和文本类型。使用LAION COCO数据集的合成标题可以在不牺牲模型性能的情况下增加训练样本的多样性。
PDF文档:最先进的视觉-语言模型(VLMs)的大部分错误源于它们无法准确提取图像或文档中的文本。为了获得强大的OCR(光学字符识别)和文档理解能力,在不同来源的PDF文档上训练Idefics2:来自OCR-IDL的1900万个行业文档;来自PDFA的1800万页文档;RenderedText,包括用各种字体、颜色和背景渲染的海量文本。
在使用图文数据训练的同时,也包含了一些纯文本的训练数据,教模型遵循复杂的指令,解决数学问题,或做算术计算。也能使得模型具备更强的性能和安全性
可以发现,预训练数据规模极其庞大,远超先前介绍的几篇VLM工作。
指令微调阶段,创建并发布了The Cauldron数据集,先前的推送(Huggingface最强开源多模态大模型: Idefics2)中也已经介绍过,The Cauldron是一个包含了50个开源数据子集的指令微调数据,用于激活VLM的交互能力。


[高分辨率VLM系列解读]

通向高分辨率VLM (1): Monkey

通向高分辨率VLM (2): LLaVA-UHD

通向高分辨率VLM (3): mPLUG-DocOwl 1.5

点击👇关注 “思源数据科学

👇点个“赞”和“在看”吧

思源数据科学
Towards AGI
 最新文章