8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

创业 2024-09-06 08:22 北京

目前，大型语言模型备受关注。然而，多模态LLMs在处理高分辨率图像时常用的切分策略容易割裂目标区域，影响对细节的识别，尤其在文档理解任务中表现明显。
Mini-Monkey通过引入多尺度自适应裁剪策略（MSAC）解决了这一问题，克服了“锯齿效应”，在2B参数模型中实现了SOTA性能，并在OCRBench测试中超越了8B参数的最先进模型。MSAC还通过SCM技术减少了计算量，有效提升了模型的输入分辨率和处理效率。

论文题目：
Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models
论文地址：
https://arxiv.org/pdf/2408.02034
项目地址：
https://github.com/Yuliang-Liu/Monkey

一、研究动机

随着自然语言处理（NLP）领域的飞速发展，大型语言模型（LLMs）已成为研究的热点。然而，现有的多模态大型语言模型在处理高分辨率图像时通常使用一个切分策略，这个切分策略会不可避免会对目标、联通区域带来割裂，导致MLLM对于微小或形状不规则的目标的辨识能力。

这个现象在文档理解任务中，表现极为明显，这限制了它们对细节场景的理解能力。如下图（b）所示，切分策略导致图片中问题的语义丢失了，把豚鼠的鼻子看成了一直猴子。Mini-Monkey正是为了解决这一问题而生。Mini-Monkey不仅在2B参数规模的MLLM中取得了SOTA性能，更在OCRBench基准测试中以802分的成绩，超越了8B参数的现有最先进模型InternVL2-8B。

图1. （a）输入图像。（b）切分策略导致的“锯齿效应”。（c）有重叠的进行切分。（d）本文提出的方法。

二、方法

1.Mini-Monkey提出了两个重要创新：多尺度自适应裁剪策略（MSAC）和尺度压缩机制（SCM）

2.MSAC策略允许Mini-Monkey在不同尺度上捕捉图像特征，有效避免了因裁剪导致的信息丢失。

3.SCM的应用不仅减轻了计算负担，更通过智能压缩，确保了模型在处理大量视觉数据时的高效性。

图2 总体方法框图

2.1 多尺度自适应裁剪策略（MSAC）

MSAC通过预设的一组网格，根据网格的宽高比和分辨率执行分层操作。
每个分层层选择不同的宽高比，确保文本不会在不同图像中被分割。
详细层（Detailed layer,）负责提供详细的信息，限制子图像的最大和最小尺寸，以确保图像中的对象尽可能清晰。
适应层（Adaptive layer）与详细层协同工作，确保裁剪线在详细层和适应层之间不重叠，以提供不同尺度的非分割对象特征。
全局层（Global layer）负责提供全局的图片信息。
不同层之间协同工作相互促进，提高了图片信息的利用效率

2.2 尺度压缩机制（SCM）

SCM主要对详细层的视觉Tokens进行压缩，因为这些标记通常具有较低的信息密度。而适应层和全局层的Tokens则提供给LLM完整的空间信息，使得在降低计算量的同时，能提供较多的信息量给LLM，进而实现了比较高的性能。
SCM利用大型语言模型（LLM）中的注意力层来确定哪些视觉标记是重要的。通过这种方式，它能够识别出信息密度较高的标记，并将它们保留，同时过滤掉那些相对不那么重要的标记。
SCM是一个无需训练的模块，这意味着它不会引入额外的训练成本。它直接利用已经训练好的LLM的注意力层来工作。
与FastV对比：SCM：通过注意力机制压缩具有低信息密度的标记，保留自适应层和全局层的视觉标记，为LLM提供了完整的空间信息。FastV：压缩策略可能包括随机选择或基于其他启发式的方法来减少标记数量。在论文的消融研究中，SCM在50%压缩和90%压缩的条件下，分别比FastV的性能高出21.5%和4.4%，这表明SCM在压缩效率和保持模型性能方面更为有效。

三、试验结果

Mini-Monkey在11个通用多模态理解基准测试中超越了其他2B参数模型，并在多个与文本相关的基准测试中取得了优异的成绩。

表1. 多模态理解基准上的结果

表2. 文本相关的基准

3.1 消融实验

表3. 多尺度自适应裁剪策略的消融实验。第一行是动态切分，第二行是固定分辨率切分，第三行是有重叠的切分，第四行是多尺度策略。

表4. 将MSAC应用到不同的多模态大模型上都能获得一致的提升。

可以看到Mini-Monkey同时在通用多模态理解和文档理解任务上都有一致的提升。并且提出的MSAC在不同的结构上都能有明显的提升。

3.2 定性结果

论文还提供了一些定性结果，如图（d）的例子，展示了Mini-Monkey如何克服“锯齿效应”，准确地识别和理解图像中的文字信息。图（b）说明了有重叠的切分的并不能很好的解决“锯齿效应”。图（c）说明了“锯齿效应”在较小的模型更明显。

图4定性结果。(a)输入图像和Ground Truth。(b)采用重叠切分策略的结果。OSC表示重叠切分策略。(c) internv2 - 2b和internv2 - 26b的结果。(d) Mini-Monkey的结果。

四、结语

Mini-Monkey提出了一种克服“锯齿效应”的方法多尺度自适应裁剪策略（MSAC），并且在不同架构的多模态大模型下都验证了它的有效性。并且针对MSAC引入的计算量，作者还进一步设计了一种不用训练的SCM进一步压缩视觉Tokens减少计算量，配合着MSAC使用。以后再也不用担心切片引起的“锯齿效应”，MSAC让大家以后可以放心的使用切片来提升多模态大模型的输入分辨率！

参考文献

[1] Chen Z, Wang W, Tian H, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites[J]. arXiv preprint arXiv:2404.16821, 2024.

[2] Bai J, Bai S, Yang S, et al. Qwen-vl: A frontier large vision-language model with versatile abilities[J]. arXiv preprint arXiv:2308.12966, 2023.

[3] Dubey A, Jauhri A, Pandey A, et al. The Llama 3 Herd of Models[J]. arXiv preprint arXiv:2407.21783, 2024.

llustration From IconScout By Imamfathoni0

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650513751&idx=2&sn=c23e9c01b3cd3974968c6d0a5a332040

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉