ECCV'24｜SAM4MLLM：结合多模态大型语言模型和SAM实现高精度引用表达分割

科技 2024-11-05 22:00 广东

↑ 点击蓝字关注极市平台

作者丨VincentLee

来源丨晓飞的算法工程笔记

编辑丨极市平台

极市导读

本文提出一种允许MLLM理解像素级细节的方法SAM4MLLM，无需改变MLLM模型架构、引入新标记或使用额外损失，该方法简单但对引用表达分割（RES）非常有效。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文地址：https://arxiv.org/abs/2409.10542

论文代码：https://github.com/AI-Application-and-Integration-Lab/SAM4MLLM

创新点

提出了一种允许MLLM理解像素级细节的方法SAM4MLLM，无需改变MLLM模型架构、引入新标记或使用额外损失，该方法简单但对引用表达分割（RES）非常有效。
为了连接MLLM和SAM，引入了一种新颖的方法，通过主动询问语言系统来获取提示点线索。
在各种RES基准上进行实验，包括RES数据集、GRES和ReasonSeg，验证了SAM4MLLM的有效性，并展示了其在处理复杂像素感知任务中的优良性能。

内容概述

SAM4MLLM是一种创新的方法，集成Segment Anything Model（SAM）与多模态大型语言模型（MLLMs）以实现像素感知任务。

首先，在MLLM训练数据集中引入像素级信息，而不改变原有的MLLM架构，这使得MLLM能够使用与主流LLM相同的文本交叉熵损失来理解像素级信息。
其次，考虑到输入分辨率限制和模型架构未明确设计用于视觉任务，MLLM在像素表达方面可能存在的潜在限制。进一步利用SAM增强输出，通过后处理MLLM的输出以相对简单的方式获得更高精度的分割掩码。
最后，为了在SAM和MLLM之间建立联系，一种简单的方法是使MLLM生成SAM的提示点。利用LLM的对话能力，主动要求MLLM获取SAM的有效提示点。

SAM4MLLM解决了RES问题，使得MLLMs能够学习像素级的位置信息。将详细的视觉信息与大型语言模型强大的表达能力以统一的基于语言的方式结合起来，而在学习中没有额外的计算开销。

`SAM4MLLM`

编码分割掩码为`SAM`提示

现有的用于分割的MLLMs依赖于模型架构的专门设计、分割特定的token和异构损失函数来预测对象掩码。而SAM4MLLM利用了SAM的特点，将少量文本提示token（边界框加上几个指示它们是否位于对象区域的点）转换为高质量的连续分割掩码。

SAM4MLLM 使用在边界框内采样的点作为离散提示。具体而言, 使用一个边界框 Prompt 和个点来编码任意形状的掩码。个点的提示, 每个点包含三个值：坐标、坐标以及它是否在掩码上, 编码为。

通过将连续分割掩码编码为离散的SAM提示，避免了添加任何token或改变模型结构，同时仅使用文本自回归交叉熵损失进行训练。这种方法与语言模型的原始训练模式一致，使得MLLMs能够理解像素级信息，并促进未来的模型扩展变得更加容易。

使用`MLLM`提示`SAM`

为了将SAM以统一的方式纳入MLLM，一个主要问题在于获取SAM的提示点，包括在物体掩码区域内的正点（inside）和在外部的负点（outside）。为此，提出了两种解决方案：提示点生成（Prompt-Point Generation, PPG）和主动查询提示点（Proactive Query of Prompt-Points, PQPP）。

PPG直接采用MLLM来生成提示点和边界框，但同时生成多个点的学习将面临挑战，因此仅使用了少量提示点。PQPP则利用了MLLM的对话能力，首先询问一个粗略的边界框，然后通过问答的方式在边界框内探测多个感兴趣的点以提示SAM。

SAM4MLLM-PPG

PPG 采用了一种能够同时接受文本提示和图像输入的 MLLM 。为了使 MLLM 与分割任务对齐,使用了参数高效的微调技术 LORA，从而基于包含图像-文本对和真实掩码的 RES 数据集进行模型训练。LoRA 输出位置提示, 包括边界框和组正点和负点 Prompt , 如图（a）所示，其中一组包含个正点和个负点（）。

为了向 LoRA 提供位置监督, 在训练阶段根据物体掩码随机采样组点 , 然后将这些提示发送给 SAM 。对于每一组, SAM 输出分割结果。过滤掉与真实掩码相比 IoU 较低的提示, 仅保留前组（如图（c）所示）。在该实现中，仅需要文本损失（自回归交叉摘损失）。通常为。

在推理阶段，LoRA直接输出发送给SAM进行分割的点，如图 (b) 所示。

SAM4MLLM-PQPP

PQPP 利用 MLLM 的查询-响应能力, 而不是直接生成提示。对提示点进行采样, 并主动询问 M LLM 这些点是否在掩码内（或外）。在训练阶段, 根据真实掩码随机采样一个边界框和组点, 并进行两轮对话。在对话的第一轮中, LoRA 响应一个边界框。在第二轮中, 对于每个个点, LoRA 在训练期间响应该点是否在掩码内（是或否）。

在推理阶段，LoRA在第一轮中为输入的文本查询和图像输出一个边界框。然后，在边界框内均匀采样点并在第二轮再次发送给MLLM-LoRA，并询问它们是否为正点（或负点），用于SAM进行分割。通常将网格大小设置为。为了在发送到SAM之前提供高质量的提示点，低置信度的点将被移除。

RES训练

为了使基础MLLM与RES任务对齐，使用包含与RES相关示例的三个数据集来指导模型朝目标前进。其中两个（RES数据集和gRefCOCO数据集）包含具有真实掩码的RES数据，第三个（VQA）是一个没有掩码的视觉对话数据集，用于进一步增强联合视觉-语言理解的总体能力。

在训练期间，为了保持MLLM在图像上的泛化能力，冻结了大部分网络参数，只调整了MLLM的视觉重采样器和LoRA适配器。

对于上述提到的所有数据集，我们在训练过程中不使用数据增强，因为翻转和/或裁剪可能会改变图像中物体的相对位置或关系。

主要实验

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

Windows + VSCode 配置 OpenCV C++ 一站式开发调试环境教程

我为什么离开OpenAI？六年元老发离职长文：AGI将至，我们远没准备好

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

NeurIPS 2024｜RoPINN: 局域优化的物理信息神经网络，PINN的新训练范式

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer-GameGen-X

NeurIPS 2024｜观物取象，穷理尽性：从视觉观测中推理物理运动规律

vLLM这一年的新特性以及后续规划（总结版!）

中国断臂女子，拿到了这场「赛博奥运会』的冠军！人机共生的时代已来

精英齐聚芜湖，大赛成果分享｜邀您参加2024长三角（芜湖）算力算法创新应用大赛颁奖典礼！

复旦提出 CTA-Net：卷积与Transformer的协同，通过轻量级多尺度特征融合提升视觉识别！

NeurIPS 2024｜浙大、微信提出精确反演采样器新范式，彻底解决扩散模型反演问题

90后上海女生，成美国数学大奖首位女性华人得主！获评委陶哲轩盛赞

finetune后的模型参数，还可以继续怎么玩？

ECCV'24｜SAM4MLLM：结合多模态大型语言模型和SAM实现高精度引用表达分割

CPU也能跑模型：OpenVINO模型部署入门教程

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

TPAMI 2024｜解耦图神经网络：同时训练多个简单的GNN而不是一个

ECCV 2024｜谷歌提出LookupViT：全新通用视觉Transformer块

只要两张3090就可复现！Vision Search Assistant开源：VLM与Web搜索能力的巧妙结合

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

NeurIPS 2024｜浙大/微信/清华提出：彻底解决扩散模型反演问题

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了

实践教程｜CUDA C++编程指北-编程接口与硬件实现

刚刚，阿里全球数学竞赛决赛结果公布，姜萍违反预选赛规则未获奖

从0开始用 PyTorch 构建完整的 NeRF

NeurIPS 2024｜自监督湍流分析，减少99%标注数据需求

边缘检测算法综合指南

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

100+深度学习各方向数据集资源大盘点

CLIPFit：不绕弯子，直接微调比提示微调和适配器微调更好｜EMNLP'24

NeurIPS 2024｜机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

融合 Mamba 与 Transformer｜MaskMamba 引领非自回归图像合成,推理速度提升 54.44% !

NeurIPS2024｜提高专业生产力，让你的AI画作布局可控，360 AI Research开源新模型HiCo

如何优雅地测量GPU CUDA Kernel耗时？

全球最大AI超算内部首次曝光！马斯克19天神速组装10万块H100，未来规模还将扩大一倍

一文看完多模态：从视觉表征到多模态大模型

NeurIPS 2024｜字节联合华师提出统一的多模态文字理解与生成大模型

零基础万字长文实践diffusion模型

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

NeurlPS 2024 Oral｜多模态融合检测端到端算法E2E-MFD来了！

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

ECCV 2024｜SegVG：刷新视觉定位新SOTA！将视觉定位的目标边界框转化为分割信号

NeurIPS 2024｜TextHarmony: 基于统一架构的视觉文本理解与生成模型

全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

陶哲轩神预言！Transformer破解百年三体难题，凭数学直觉找到李雅普诺夫函数

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

ECCV'24｜SAM4MLLM：结合多模态大型语言模型和SAM实现高精度引用表达分割

创新点

内容概述

SAM4MLLM

编码分割掩码为SAM提示

使用MLLM提示SAM

SAM4MLLM-PPG

SAM4MLLM-PQPP

RES训练

主要实验

`SAM4MLLM`

编码分割掩码为`SAM`提示

使用`MLLM`提示`SAM`