HuggingFace: https://huggingface.co/HuggingFaceM4/idefics2-8b
Paper: https://arxiv.org/abs/2405.02246
Demo: https://huggingface.co/spaces/HuggingFaceM4/idefics2_playground
摘要
不久前,Huggingface多模态团队M4发布了Idefics2,笔者当时也第一时间给出了公众号推送,但由于当时还没有给出具体的技术报告,所以解读并不详细:
Huggingface最强开源多模态大模型: Idefics2
如今技术报告已经开源,大家看完都称Huggingface"大善人"。论文中烧了很多钱,设计了很多对比试验,明确了VLM中一些核心设计的影响,并提出了以下问题:《在构建视觉-语言模型时,哪些因素是重要的?》
文中最终得出了几项重要发现:
在参数数量保持不变的情况下,大型语言模型(LLM)的质量对视觉语言模型(VLM)的最终性能具有决定性影响,其影响程度超过了视觉编码器。(虽然这个结论与InternVL的做法相悖,但考虑到InternVL主要以视觉大模型为卖点,也可以理解InternVL它的motivation)
在预训练阶段,解冻单模态预训练模型并结合LoRA技术进行稳定训练,可以发现全自回归架构在性能上优于交叉注意力架构,尽管后者具有更多的参数。
通过可学习池化技术减少视觉标记的数量,我们显著提高了训练和推理阶段的计算效率,同时增强了下游任务的性能。
将预训练的视觉编码器调整以适应固定大小的正方形图像,同时保留图像的原始纵横比和分辨率,这样做不仅没有降低性能,反而加快了训练和推理速度,并减少了内存消耗。
在训练期间将图像分割为多个子图像,可以在推理期间通过牺牲一些计算效率来换取更高的性能,特别是在涉及图像中文本识别的任务中,性能提升尤为显著。
通过这些结论,HuggingfaceM4团队设计了Idefics2
视觉和文本bacbkone选择训练更充分的开源权重:将LLaMA-1-7B(在MMLU上的35.1%)替换为Mistral-7B(在MMLU上的60.1%)可以提高5.1。此外,将视觉编码器从CLIP-ViT-H(在ImageNet上的78.0%)切换到SigLIP-SO400M(在ImageNet上的83.2%)在基准测试上的性能提高了3.3。
选择全自回归架构:可以参考先前公众号推送:LLaVA,BLIP2路线之争:为什么多模态大模型中Q-Former更少见了?
减少视觉token数量:类似先前高分辨率VLM系列推送的其他作品,使用resampler来压缩送入LLM的视觉token数量。与之前论文发现视觉标记越多越好相反,M4团队观察到使用超过64个视觉标记时没有性能提升。使用可学习的池化减少视觉令牌的数量显著提高了训练和推理的计算效率,同时提高了下游任务的性能。
保留原始宽高比和图像分辨率: follow了Pix2Struct以及NaViT的做法,验证了保留原始宽高比和分辨率性能更佳,也符合直觉和近期的设计主流保留原始宽高比和图像分辨率 follow了Pix2Struct以及NaViT的做法,验证了保留原始宽高比和分辨率性能更佳,也符合直觉和近期的设计主流。
在训练期间将图像分割成子图像:可以在推理期间提高计算效率,提高性能。在涉及读取图像中的文本的任务中,性能的提高尤其明显,这也和之前介绍的几篇论文中的做法一致。
训练数据方面,高分辨率VLM的一个重要应用场景与性能评测方式就是解决OCR任务(文档理解),能解决OCR任务也就说明VLM具备了一定程度的细粒度高分辨率图像理解能力,这也是先前低分辨率VLM所不具备的能力。所以训练数据上也做了不少针对性的添加:
[高分辨率VLM系列解读]
通向高分辨率VLM (3): mPLUG-DocOwl 1.5
点击👇关注 “思源数据科学”
👇点个“赞”和“在看”吧