CVPR | 端到端多模态Transformer视频对象分割！

文摘 2024-10-14 09:15 天津

关注+标星，邂逅每一篇经典！

文章摘要

参考视频对象分割任务（RVOS）涉及在给定视频的帧中对文本参考的对象实例进行分割。由于这一多模态任务的复杂性，它结合了文本推理、视频理解、实例分割和跟踪，现有的方法通常依赖于复杂的流程来解决这个问题。本文提出了一种基于变换器的简单RVOS方法。作者的框架称为多模态跟踪变换器（MTTR），将RVOS任务建模为一个序列预测问题。基于计算机视觉和自然语言处理的最新进展，MTTR的核心理念是视频和文本可以通过单一的多模态变换器模型有效且优雅地一起处理。MTTR是端到端可训练的，免于文本相关的归纳偏差组件，并且不需要额外的掩码精炼后处理步骤。因此，与现有方法相比，它显著简化了RVOS流程。在标准基准上的评估表明，MTTR在多个指标上显著优于之前的研究成果。特别是，MTTR在A2D-Sentences和JHMDB-Sentences数据集上分别显示出令人印象深刻的+5.7和+5.0的mAP提升，同时处理速度为每秒76帧。此外，在Refer-YouTube-VOS的公共验证集上报告了强劲的结果，这是一个更具挑战性的RVOS数据集，尚未受到研究人员的关注。

学术地址：

https://arxiv.org/pdf/2111.14821

代码地址：

https://github.com/mttr2021/MTTR

前世今生

基于注意力的深度神经网络在不同领域的各种任务上表现出色，从计算机视觉到自然语言处理。这些进展使得这类网络，如变换器（Transformer），成为解决多模态问题的特别有趣的候选者。依靠自注意力机制，它允许序列中的每个标记全局聚合来自每个其他标记的信息，变换器在建模全局依赖性方面表现出色，已成为大多数NLP任务的基石。变换器也开始在解决计算机视觉任务方面显示出前景，从识别到目标检测，甚至在作为通用视觉主干方面超越了长期使用的CNN。

参考视频对象分割任务（RVOS）涉及在给定视频的帧中对文本参考的对象实例进行分割。与参考图像分割任务（RIS）相比，其中对象主要通过外观被引用，在RVOS中，对象也可以通过它们执行的动作或参与的活动被引用。这使得RVOS比RIS难得多，因为引用动作的文本表达通常不能从单一静态帧中正确推断出来。此外，与基于图像的对应物不同，RVOS方法可能需要在多个帧中建立被引用对象的数据关联（跟踪），以处理诸如遮挡或运动模糊等干扰。

为了解决这些挑战并有效地将视频与文本对齐，现有的RVOS方法通常依赖于复杂的流程。相比之下，作者提出了一种简单的端到端基于变换器的RVOS方法。利用变换器在文本特征提取、视觉特征提取和目标检测方面的最新进展，作者开发了一个显著优于现有方法的框架。为了实现这一点，使用单一的多模态变换器，并将任务建模为序列预测问题。给定一个视频和一个文本查询，该模型会生成视频中所有对象的预测序列，然后确定文本引用的对象。此外，该方法不包含与文本相关的归纳偏差模块，并使用简单的交叉熵损失来对齐视频和文本。因此，它比之前的方法要简单得多。

图1. 给定一个文本查询和一系列视频帧，所提出的模型在确定被参考的实例之前，会为视频中的所有对象实例输出预测序列。这里，具有相同颜色和形状的预测属于同一序列，并关注不同帧中的同一对象实例。请注意，不同帧中实例预测的顺序保持不变。最好以彩色查看。

所提出的流程在图1中有示意图。首先，使用基于变换器的标准文本编码器从文本查询中提取语言特征，并使用时空编码器从视频帧中提取视觉特征。然后将特征传递到多模态变换器，它输出多个对象预测序列。接下来，为了确定哪个预测序列最符合被引用的对象，为每个序列计算一个文本参考分数。为此，提出了一个时间片段投票方案，使模型在做出决定时能够专注于视频的更相关部分。

主要贡献如下：

• 提出了一个基于变换器的RVOS框架，称为多模态跟踪变换器（MTTR），它将任务建模为并行序列预测问题，并在选定文本引用的对象之前输出视频中所有对象的预测。

• 序列选择策略基于时间片段投票方案，这是一种新颖的推理方案，使模型能够根据文本关注视频中更相关的部分。

• 提出的方法可以端到端训练，不包含与文本相关的归纳偏差模块，不需要额外的掩码精炼。因此，与现有方法相比，它大大简化了RVOS流程。

• 彻底评估了作者的方法。在A2D标准上，也在Refer-YouTube-VOS[40]的公共验证集上展示了强劲的结果，这是一个具有挑战性的数据集，尚未在文献中受到关注。

匠心独运

图2. MTTR的详细概述。首先，输入文本和视频帧通过特征编码器传递，然后合并成多模态序列（每个帧一个）。接着，多模态变换器对特征关系进行编码，并将实例级特征解码成一组预测序列。接下来，生成相应的掩码和参考预测序列。最后，预测序列与真实序列进行匹配，用于监督（在训练中）或用于生成最终预测（在推理过程中）。

卓越性能

图3. MTTR在Refer-YouTube-VOS[40]验证集上的性能的可视化示例。

总结展望

作者介绍了MTTR，这是一种基于变换器的简单方法，用于解决RVOS任务，并将该任务建模为一个序列预测问题。端到端的方法通过在单一多模态变换器中同时处理文本和视频帧，大大简化了现有的RVOS流程。在标准基准上的广泛评估表明，该方法在很大程度上超越了现有的最先进方法（例如，在A2D-Sentences上提高了5.7mAP）。作者希望自己的工作能够启发其他人看到变换器在解决复杂多模态任务方面的潜力。

参考：

https://arxiv.org/pdf/2111.14821

关注+标星，邂逅每一篇经典！

http://mp.weixin.qq.com/s?__biz=Mzk0MTYxOTM0MQ==&mid=2247486222&idx=1&sn=c685df0594d3cb5d5c3cd72a99ccbe90

群函数

分享前沿的开源技术以及有趣的科普知识。敬请关注！

Science | 神经网络中的特征学习机制以及无需反向传播的机器学习模型。

Nature | 用于快速、无需标记的胶质瘤浸润检测的基础模型！

Science Advances|基于生成对抗网络的重建泛癌组织学

Science Advances|基于光学相干断层扫描（OCT）的非侵入性虚拟活检！

ECCV | 通过密集归一化的超高分辨率非配对图像到图像的转换!

CVPR2024|通过扩散模型调优增强的“SAM”

Nature Mach. Intell.|基于任务辅助的GAN来增强光学纳米显微图像分辨率！

Light | 深度学习自发荧光-谐波显微镜！

Nature Communications|使用自荧光显微镜和深度学习进行虚拟双折射成像和组织学染色！

Nature Communications|未标记尸检组织的虚拟组织学染色！

Nature Communications | 超紫外光声显微镜实现深度学习驱动的真实虚拟组织学！

Nature Communications|基于深度学习的H&E染色组织向特殊染色的转换

Nature B.M.E.|通过深度学习的紫外光声显微镜实现骨组织的无标记术中组织学检查

Light|基于深度学习的虚拟染色、分割和分类在无标记光声组织学中的应用

Cell Systems|基于弱监督深度学习的图像空间转录组学中精确的单分子点检测

Nature B.M.E. | 通过深度学习对未标记组织的自体荧光图像进行虚拟组织学染色

Nature Methods|综述-用于细胞图像分析的深度学习！

Nature Communications| 基于自监督学习亚细胞空间转录组数据分割！

Nature Communications | 用于多尺度组织成像和神经元分割的模块化框架！

Nature Methods|使用Kubernetes扩展基于深度学习的细胞图像分析

Nature Methods| Cellpose 2.0：如何训练你自己的模型？

一种用于多模态图像的细胞分割基础模型

Nature Biotech.|使用大规模数据标注和深度学习实现组织图像的全细胞分割！

Science |诺奖获得者06年经典之作-使用神经网络降低数据的维度！

ECCV | ActionVOS：将动作作为提示进行视频对象分割!

超越自适应SAM：通过自动提示实现端到端的超声图像分割！

CVPR | 端到端多模态Transformer视频对象分割！

ECCV 2024 | AI的物理世界，在音视频场景中参考并分割对象Ref-AVS

Nat.Biomed.Eng. | 用于临床血管成像的快速全光学3D光声扫描仪。

Nature Communications | 高性能的深度脉冲神经网络！

刚刚，2024年诺贝尔化学奖同样也授予AI科学家！

nature | 通用医学人工智能的基础模型！

刚刚，诺贝尔物理学奖颁给研究神经网络的科学家！

NeurIPS 2024 | 何恺明老师新作！通过异构预训练的变换器扩展本体感觉-视觉学习

Nature Communications |纵向深度神经网络用于评估大型开放基准上的转移性脑癌！

基于大型视觉和语言模型的提示引导病理分割PFPs

SAM-Adapter：适应性能低下场景中的任何片段适配！

CVPR2024 | 处理扩散模型中时间间隔端点的奇异性!

CVPR2024 | 面向大图像生成的学习表示引导扩散模型！

Nature Communications|基于少量样本学习的蛋白质语言预测模型！

Nature Communications|基于临床-组织学-基因组的肾细胞癌多分类器系统！

Science Advances | 通过受激拉曼CycleGAN模型对新鲜脑组织进行虚拟病理染色!

Nature Communications | 基于预训练多模态大模型的皮肤病诊断SkinGPT-4！

Nature | 癌症诊断和预后预测的通用病理基础模型！

Nature Communications | 基于可解释图神经网络的癌症基因分析！

Nature Communications | 基于去噪超分辨率网络的蛋白质组学细胞分割与聚类！

Science | 基于无反向传播训练的深度物理神经网络！

Nature Communications|基于组织病理学的临床试验中患者预筛查深度学习算法！

Nature Rev. Cancer | 基于人工智能的癌症研究人员指导综述！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉