目前,大型语言模型备受关注。然而,多模态LLMs在处理高分辨率图像时常用的切分策略容易割裂目标区域,影响对细节的识别,尤其在文档理解任务中表现明显。
Mini-Monkey通过引入多尺度自适应裁剪策略(MSAC)解决了这一问题,克服了“锯齿效应”,在2B参数模型中实现了SOTA性能,并在OCRBench测试中超越了8B参数的最先进模型。MSAC还通过SCM技术减少了计算量,有效提升了模型的输入分辨率和处理效率。
目前,大型语言模型备受关注。然而,多模态LLMs在处理高分辨率图像时常用的切分策略容易割裂目标区域,影响对细节的识别,尤其在文档理解任务中表现明显。
Mini-Monkey通过引入多尺度自适应裁剪策略(MSAC)解决了这一问题,克服了“锯齿效应”,在2B参数模型中实现了SOTA性能,并在OCRBench测试中超越了8B参数的最先进模型。MSAC还通过SCM技术减少了计算量,有效提升了模型的输入分辨率和处理效率。
论文题目:
Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models
论文地址:
https://arxiv.org/pdf/2408.02034
项目地址:
https://github.com/Yuliang-Liu/Monkey
一、研究动机
随着自然语言处理(NLP)领域的飞速发展,大型语言模型(LLMs)已成为研究的热点。然而,现有的多模态大型语言模型在处理高分辨率图像时通常使用一个切分策略,这个切分策略会不可避免会对目标、联通区域带来割裂,导致MLLM对于微小或形状不规则的目标的辨识能力。
图1. (a)输入图像。(b)切分策略导致的“锯齿效应”。(c)有重叠的进行切分。(d)本文提出的方法。
二、方法
1.Mini-Monkey提出了两个重要创新:多尺度自适应裁剪策略(MSAC)和尺度压缩机制(SCM)
2.MSAC策略允许Mini-Monkey在不同尺度上捕捉图像特征,有效避免了因裁剪导致的信息丢失。
图2 总体方法框图
2.1 多尺度自适应裁剪策略(MSAC)
MSAC通过预设的一组网格,根据网格的宽高比和分辨率执行分层操作。
每个分层层选择不同的宽高比,确保文本不会在不同图像中被分割。
详细层(Detailed layer,)负责提供详细的信息,限制子图像的最大和最小尺寸,以确保图像中的对象尽可能清晰。
适应层(Adaptive layer)与详细层协同工作,确保裁剪线在详细层和适应层之间不重叠,以提供不同尺度的非分割对象特征。
全局层(Global layer)负责提供全局的图片信息。
不同层之间协同工作相互促进,提高了图片信息的利用效率
2.2 尺度压缩机制(SCM)
SCM主要对详细层的视觉Tokens进行压缩,因为这些标记通常具有较低的信息密度。而适应层和全局层的Tokens则提供给LLM完整的空间信息,使得在降低计算量的同时,能提供较多的信息量给LLM,进而实现了比较高的性能。
SCM利用大型语言模型(LLM)中的注意力层来确定哪些视觉标记是重要的。通过这种方式,它能够识别出信息密度较高的标记,并将它们保留,同时过滤掉那些相对不那么重要的标记。
SCM是一个无需训练的模块,这意味着它不会引入额外的训练成本。它直接利用已经训练好的LLM的注意力层来工作。
与FastV对比:SCM:通过注意力机制压缩具有低信息密度的标记,保留自适应层和全局层的视觉标记,为LLM提供了完整的空间信息。FastV:压缩策略可能包括随机选择或基于其他启发式的方法来减少标记数量。在论文的消融研究中,SCM在50%压缩和90%压缩的条件下,分别比FastV的性能高出21.5%和4.4%,这表明SCM在压缩效率和保持模型性能方面更为有效。
三、试验结果
表1. 多模态理解基准上的结果
表2. 文本相关的基准
3.1 消融实验
表3. 多尺度自适应裁剪策略的消融实验。第一行是动态切分,第二行是固定分辨率切分,第三行是有重叠的切分,第四行是多尺度策略。
表4. 将MSAC应用到不同的多模态大模型上都能获得一致的提升。
可以看到Mini-Monkey同时在通用多模态理解和文档理解任务上都有一致的提升。并且提出的MSAC在不同的结构上都能有明显的提升。
3.2 定性结果
论文还提供了一些定性结果,如图(d)的例子,展示了Mini-Monkey如何克服“锯齿效应”,准确地识别和理解图像中的文字信息。图(b)说明了有重叠的切分的并不能很好的解决“锯齿效应”。图(c)说明了“锯齿效应”在较小的模型更明显。
图4定性结果。(a)输入图像和Ground Truth。(b)采用重叠切分策略的结果。OSC表示重叠切分策略。(c) internv2 - 2b和internv2 - 26b的结果。(d) Mini-Monkey的结果。
四、结语
参考文献
[1] Chen Z, Wang W, Tian H, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites[J]. arXiv preprint arXiv:2404.16821, 2024.
[2] Bai J, Bai S, Yang S, et al. Qwen-vl: A frontier large vision-language model with versatile abilities[J]. arXiv preprint arXiv:2308.12966, 2023.
[3] Dubey A, Jauhri A, Pandey A, et al. The Llama 3 Herd of Models[J]. arXiv preprint arXiv:2407.21783, 2024.
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。