首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

GPT-4结合SAM 2：免训练多模态分割的全新解决方案！

科技 2024-09-09 16:51 浙江

转自：量子位作者：北京航空航天大学李红羽

免训练多模态分割领域有了新突破！

中科院信工所、北航、合工大、美团等单位联合提出了一种名为AL-Ref-SAM 2的方法。

这种方法利用GPT-4和SAM-2来统一多模态分割，让系统在免训练的情况下，也能拥有不亚于全监督微调的性能！

≥ 全监督方法

多模态分割主要有两种方法：一种是依据文字描述找到视频中特定对象的分割方法（RVOS），另一种是通过声音识别视频中发声对象的方法（AVS）。

免训练的多模态视频指代分割虽然在数据和训练成本上有较大优势，却由于缺乏在特定任务数据上针对性的模型参数调整，导致性能与全监督方法有较大差距。

而研究团队要解决的就是这个问题。

实验中，他们对多个RVOS基准数据集进行了广泛验证，包括Ref-YouTube-VOS、Ref-DAVIS17和MeViS，同时在AVSBench的多个子集上也进行了测试。

最后的实验结果显示，AL-Ref-SAL 2在这些数据集上的表现不仅优于其他无需训练和弱监督的方法，并且甚至在一定情况下，系统的性能可以与全监督方法相媲美。

特别是在Ref-YouTube-VOS和Ref-DAVIS17这两个数据集上，AL-Ref-SAM 2的表现甚至超过了大多数全监督方法。

△ 免训练设置下三阶段分割基线方法(a)与本文方法(b)的比较

具体咋实现的？

研究团队把AL-Ref-SAM 2的算法分成了三个阶段：

第一阶段：获取形式统一的指代信息，对于RVOS任务，指代信息是输入的文本描述本身，而对于AVS任务，研究人员们利用LBRU模块将音频转化为对发声对象的语言形式描述。

第二阶段：根据语言指代和视频内容，利用GPT-4进行两阶段时空推理，从视频中逐步选出关键帧和关键框。

第三阶段：以关键帧为分割起点，关键框为初始提示，利用SAM 2获得目标对象在整段视频中的分割掩码序列。

△ AL-Ref-SAM 2的整体流程

具体实验细节，请看下文展开~

语言绑定的音频指代转换（LBRU）

LBRU将音频信号转换为与语言描述统一的格式（例如“[CLS] that is making sound”，其中[CLS]代表了具体的发声对象类别），以减少音频信息中的语义模糊性和冗余性。

为了获取发声对象的准确类别，LBRU利用了一个预训练音频分类器，如BEATs，对音频进行分类，并保留置信度前k高的类别文本。

由于这些类别中可能包含了重复类别或背景声类别，LBRU进一步引入了视频作为视觉上下文，利用GPT-4根据视频内容对音频类别进行过滤、合并，并将保留的音频类别转化为发出该声音的对象类别。

△ 语言绑定的音频指代转换模块

GPT辅助的关键帧/框选择（GPT-PS）

GPT-PS利用GPT-4分别进行时序推理选出关键帧，以及空间推理选出关键框。

在时序推理阶段，为了使GPT可以处理视频格式的内容，研究团队首先对视频帧进行采样，将采样后的若干帧拼接为一张图并在图上标出帧号。

为了显式引导GPT在理解视频内容的基础上选择关键帧，他们还针对性地设计了关键帧思维链提示模板，要求GPT首先描述整段视频的场景，再根据语言指代选出关键帧。

之后，研究人员将语言指代信息和关键帧输入GroundingDINO模型中，获得多个可能的候选框。

在空间推理阶段，首先将候选框画在关键帧上，并且依旧将其与其他采样帧顺序拼接作为视觉信号输入GPT。

类似地，他们也设计了关键框思维链提示模板，要求GPT描述每个候选框中对象的特征和不同对象之间的关系，并对指代信息进行语法分析确定真正的指代主体，最后再根据语言指代选出包含目标对象的候选框作为关键框。

以下是研究团队得出的相关数据：

论文链接：https://arxiv.org/pdf/2408.15876
代码链接：https://github.com/appletea233/AL-Ref-SAM2

机器学习实验室

专注于机器学习和深度学习技术与实践。

最新文章

245个目标检测开源项目合集，建议收藏！

制作个人的第一个RAG demo！

谷歌版Sora发布：最大对手竟是「可灵」，OpenAI反而最拉胯

NeurIPS 2024 | Ilya重磅演讲：预训练将结束，接下来是超级智能「自我意识」

多模态融合，顶会超神了！

今夜凌晨，OpenAI Sora炸裂登场！网页版已经挤爆

LSTM卷土重来！xLSTM和Vision-LSTM共同引领文艺复兴

“让AI不再难学"，知名UP主梗直哥的《破解深度学习》来了！

全球五大巨头GPU总量曝光！谷歌第一微软第二！

245个目标检测开源项目合集，建议收藏！

《深度学习图像分割》第4章：基于编解码结构的分割网络

RAG还是微调，怎么选？

吴恩达：每个AI从业者都应该关注Agent！

Flux已成当下最火热的文生图模型？

计算机视觉顶尖期刊和会议有哪些？

被导师放养，后果可能很严重。。。

两张3090复现SearchGPT！

啥工作量？！60天就卷出一篇CCF-A顶会...

AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

《深度学习图像分割》第3章：图像分割关键技术组件

涨点神器！100个即插即用缝合模块【合集下载】

导师一个idea都没有，怎么发CCF-A？

《深度学习图像分割》第2章：传统图像分割算法

ChatGPT变身AI搜索引擎免费用！

大模型可解释性怎么搞？(附代码)

新扩散模型OmniGen一统图像生成！

国内首本大模型推荐系统著作来了！

只要敢捞“偏门”，篇篇都是顶会顶刊！

245个目标检测开源项目合集，建议收藏！

NeurIPS'24大模型LoRA超级变体！仅需参数0.4%达微调效率巅峰！

Windows用户也能使用桌面版ChatGPT了！

发论文别太老实，用对方法篇篇都是顶会顶刊！！！

OpenAI王炸来了！强化学习也有scaling law？

预告 | 《深度学习图像分割》将在GitHub逐步内容开源！

算法岗和开发岗有什么区别？

算法岗就业，Kaggle金牌和CCF-A一作哪个更有用？

82个即插即用的深度学习缝合模块！

Llama 3.2 来了！支持图像推理，还有可在手机上运行的版本

张俊林详细拆解o1：OpenAI o1完整训练过程逆向推演

对标Claude Artifacts！OpenAI canvas一夜封神！

首个Mamba+Transformer混合架构多模态大模型来了！

在深度学习中，是否应该打破正负样本1:1的迷信？

首个工业级异常检测的大模型AnomalyGPT！AAAI 2024已开源！

Claude工程师聊prompt：不要把模型当小孩子、不需要角色扮演、实话实说

张俊林：OpenAI o1的价值意义及强化学习的Scaling Law

ECCV'24最强多模态检测器！详解Grounding DINO：创新架构、训练代码！

Sora年内发布无望？视频生成还有戏吗？

KAN 2.0来了！会是AI+Science的答案吗？

基于YOLO v8融合CLIP！CVPR 2024多模态检测神器！

GPT-4结合SAM 2：免训练多模态分割的全新解决方案！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉