首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

视觉定位新SOTA！华人团队开源革新框架SegVG，边界框转为分割信号 | ECCV 2024

科技 2024-11-05 13:27 北京

新智元报道

编辑：LRST

【新智元导读】SegVG是一种新的视觉定位方法，通过将边界框注释转化为像素级分割信号来增强模型的监督信号，同时利用三重对齐模块解决特征域差异问题，提升了定位准确性。实验结果显示，SegVG在多个标准数据集上超越了现有的最佳模型，证明了其在视觉定位任务中的有效性和实用性。

视觉定位（Visual Grounding）旨在基于自由形式的自然语言文本表达定位图像中的目标物体。

随着多模态推理系统的普及，如视觉问答和图像描述，视觉定位的重要性愈加凸显。已有的研究大致可以分为三类：两阶段方法、单阶段方法和基于Transformer的方法。

尽管这些方法取得了良好的效果，但在注释的利用上仍显得不足，尤其是仅将框注释作为回归的真值样本，限制了模型的性能表现。

具体而言，视觉定位面临的挑战在于其稀疏的监督信号，每对文本和图像仅提供一个边界框标签，与目标检测任务（Object Detection）存在显著不同，因此充分利用框注释至关重要，将其视为分割掩膜（即边界框内的像素赋值为1，外部像素赋值为0），可以为视觉定位提供更细粒度的像素级监督。

伊利诺伊理工学院、中佛罗里达大学的研究人员提出了一个名为SegVG的新方法，旨在将边界框级的注释转化为分割信号，以提供更为丰富的监督信号。

论文链接：https://arxiv.org/abs/2407.03200

代码链接：https://github.com/WeitaiKang/SegVG/tree/main

该方法倡导多层多任务编码器-解码器结构，学习回归查询和多个分割查询，以通过回归和每个解码层的分割来实现目标定位。

此外，为了解决由于特征域不匹配而产生的差异，研究中引入了三重对⻬模块，通过三重注意机制更新查询、文本和视觉特征，以确保共享同一空间，从而提高后续的目标检测效果。

综上，SegVG通过最大化边界框注释的利用，提供了额外的像素级监督，并通过三重对⻬消除特征之间的域差异，这在视觉定位任务中具有重要的创新意义。

以下是来自论文中的相关图示，用以进一步说明视觉定位框架的不同:

方法

在本节中，介绍了SegVG方法的各个组件，按数据流的顺序进行说明，包括⻣干网络、Triple Alignment模块以及Multi-layer Multi-task Encoder-Decoder。

⻣干网络

SegVG方法的视觉⻣干网络和文本⻣干网络分别处理图像和文本数据。视觉⻣干网络使用的是经过Object Detection任务在MSCOCO数据集上预训练的ResNet和DETR的Transformer编码器。

文本⻣干网络使用BERT的嵌入层将输入文本转换为语言Token，在Token前添加一个[CLS]标记，并在末尾添加一个[SEP]标记，随后通过BERT层迭代处理得到语言嵌入。

Triple Alignment

Triple Alignment模块致力于解决视觉骨干、文本骨干和查询特征之间的域差异。该模块利用注意力机制执行三角形特征采样，确保查询、文本和视觉特征之间的一致性。

输⼊的查询被初始化为可学习的嵌入，包含一个回归查询和多个分割查询。这⼀过程按以下方式进行：

通过这种方式，Triple Alignment模块能够在每⼀层迭代帮助三类特征实现有效地对齐。

Multi-layer Multi-task Encoder-Decoder

其目标对接阶段的核心部分，旨在通过跨模态融合和目标对接同时执行边框回归任务和边框分割任务。

编码器部分融合了文本和视觉特征，每一层通过多头自注意力层（MHSA）和前馈网络（FFN）过程实现提升。解码器部分则通过bbox2seg范式将边框注释转化为分割掩码，分割掩码将框内的像素标记为前景（值为1），而框外像素则标记为背景（值为0）。

在每一解码层中，一个回归查询用于回归边框，多个分割查询则用于对目标进行分割。

上述公式中，各种损失函数(如L1损失、GIoU损失、Focal损失和Dice损失)被结合用于驱动模型的训练过程，使得模型在执行回归和分割任务时获得强化的反馈。

通过将分割输出的信心值转化为Focal损失因子，可以有效地强调那些难以训练的数据样本，以进一步提升模型的性能。

整体而言，SegVG方法实现了对边框注释的最大化利用，并有效解决了多模态特征间的域差异问题，为视觉目标定位任务带来了重要的改进和提升。

实验

在实验部分，研究者对所提出的SegVG模型进行了全面的评估，涉及多个标准数据集和不同的实验设置，以验证其有效性和优越性。

指标与数据集

研究者采用的主要评估指标是交并比(IoU)和前1准确率，以评估预测边界框与真实边界框的匹配程度。使用的标准基准数据集包括RefCOCO、RefCOCO+、RefCOCOg-g、RefCOCOg-umd以及Refer It Game等。

实施细节

研究中对数据输入进行了特别配置，使用640x640的图像大小，以及最大文本⻓度设定为40。当图像大小调整时，会保持原始宽高比。模型的训练过程采用AdamW优化器，及其学习率和权重衰减参数。

定量结果

在定量实验中，SegVG模型在所有基准数据集中表现出色。例如，在RefCOCO+数据集上，其预先训练模型在各个子集上相较于之前的最先进模型取得了显著提升，分别达到了2.99%、3.7%和2.42%的准确率提升。

在RefCOCOg数据集上，SegVG同样取得了+3.03%、+2.31%和+3.24%的准确率提升。这些结果证明了结合TripleAlignment和Multi-layerMulti-taskEncoder-Decoder后，模型在目标定位和准确性上的提升。

消融研究

进一步分析通过控制变量法对各个模块的有效性进行消融研究。研究显示，加入Triple Alignment模块后，可以有效消除查询、文本及视觉特征之间的领域差异，进而促进后续的目标定位。

此外，通过加入Multi-layer Multi-task监督，能够迭代充分利用注释信息，从而增强查询表示的学习能力。

计算开销比较

研究者还对不同Transformer模型的参数数量和GFLOPS进行了比较，以评估SegVG的计算开销，结果表明，SegVG的计算成本处于合理范围，符合实际应用需求。

定性结果

在定性分析中，通过对比不同模型在目标检测中的表现，SegVG在初始解码层阶段就能准确识别目标位置，相较于对比模型VLTVG而言，表现更加稳健。

具体案例中，SegVG成功定位复杂背景下的目标，显示了其在多任务优化时的高度有效性。

参考资料：

https://arxiv.org/abs/2407.03200

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652536340&idx=4&sn=6f64ac22d2cfec1a7db6dd0b1012e847

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘

招人！新智元邀你勇闯ASI之巅

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

招人！新智元邀你勇闯ASI之巅

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

揭示Transformer「周期建模」缺陷！北大提出新型神经网络FAN，填补周期性特征建模能力缺陷

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

招人！新智元邀你勇闯ASI之巅

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

招人！新智元邀你勇闯ASI之巅

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

扩散模型=进化算法！生物学大佬用数学揭示本质

招人！新智元邀你勇闯ASI之巅

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

招人！新智元邀你勇闯ASI之巅

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

招人！新智元邀你勇闯ASI之巅

全面进攻谷歌！OpenAI被曝打造浏览器，已挖Chrome创始大牛

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

RAG没有银弹！四级难度，最新综述覆盖数据集、解决方案，教你「LLM+外部数据」的正确使用姿势

招人！新智元邀你勇闯ASI之巅

OpenAI看好的方向，文心智能体技术抢先爆发！

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

招人！新智元邀你勇闯ASI之巅

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉