【Visual Intelligence】南洋理工大学和复旦大学团队：PrimitiveNet模型：在引用分割任务中拆解全局约束

学术 2024-11-12 17:35 北京

论文信息

题目：PrimitiveNet: Decomposing the Global Constraints for Referring Segmentation

作者：Chang Liu, Xudong Jiang & Henghui Ding

引用格式：Liu, C., Jiang, X., & Ding, H. (2024). PrimitiveNet: decomposing the global constraints for referring segmentation. Visual Intelligence 2, Article no. 16.

全文链接：https://link.springer.com/article/10.1007/s44267-024-00049-8

关键词：Referring segmentation, PrimitiveNet, Primitive, Cross-primitive attention, Language-primitive attention, Multimodal

文章摘要

本文提出了PrimitiveNet模型，将复杂的全局约束分解成一组简单的基本单位，即“原语”或“Primitive”。每个原语产生一个代表简单语义含义的原语掩码，例如，同一类别中的所有实例。然后，输出分割掩码通过根据语言表达选择性地组合这些原语来进行计算。此外，本文还提出了一个交叉原语注意（CPA）模块和一个语言原语注意（LPA）模块，用于在原语和语言表达之间交换信息。本文所提出的CPA和LPA有助于网络找到合适的原语掩码权重，从而恢复目标对象。在三个RefCOCO数据集上的实验证明了所提方法的有效性。

文章概述

引用分割（referring segmentation）旨在为给定语言表达描述的对象生成分割掩码。图像通常包含大量信息，包括实例和其他元素等，而给定的自然语言表达则指定了图像中要被分割的目标对象。引用分割涉及计算机视觉和自然语言处理这两个人工智能领域中的重要研究方向，是多模态学习中最基础和最具挑战性的任务之一。自从2016年研究者提出这个概念以来，学术界和工业界已经提出了各种方法，并在不同的数据集上取得了显著的性能。

引用分割是一种受限制的图像处理问题，它依据输入的语言描述来执行图像分割任务。这个任务的核心在于解析语言表达背后的约束条件。现有的处理方法通常采用整体方式来建模这些约束，例如使用全卷积网络将语言和视觉特征合并处理。这种整体方法在处理包含复杂描述的多维信息时面临挑战，特别是当描述涉及多种视角，如颜色、形状、语义类别、位置及与其他对象的关系时，理解这些复杂约束变得更加困难。

为了解决这些问题，本文提出了我们称之为PrimitiveNet的分层方法。基于给定的语言表达，该方法将复杂的约束分解为一组更简单的基本子约束，称为“原语”，并在语言表达的指导下将这些原语综合起来，以获得目标掩码，如图1所示。一个原语可以是单个单词或描述某些简单约束的一组单词。例如，对于表达“左边的斑马”，一个原语可能描述子约束“在左边（on the left）”，或者是子约束“斑马（zebra）”。此外，它还可能是一些在不同样本中常见的基本子约束，尽管这些并没有在语言表达中明确提出，例如“所有前景区域”。

图 1 PrimitiveNet的分层方法

注：在网络中，图像通过一组原语（Primitive）被分解。每个原语代表某种基本子约束的特定方面。目标对象的分割掩码通过这些原语的选择性融合生成。

研究方法

本文提出了一种用于引用分割的分层约束建模方法，该方法将语言表达中复杂的全局约束分解为一组更简单的基本子约束，称为原语。全局约束包含了识别目标对象所需的所有知识，而一个原语只包含全局约束的某个特定方面。例如，在句子“背景中穿着白衬衫的人”中，一个原语可能包括图像中所有的“人”，另一个原语可能包括所有在“背景”中或颜色为“白色”的区域。原语的内容是输入信息的一个子集，使得模型更容易理解。基于这一理解，在提出的PrimitiveNet中，生成了Np个不同的原语来提取全局约束的不同视角。每个原语包含一组描述子约束的原语特征。每个原语进一步生成一个原语掩码，代表图像中受子约束影响的区域，如图2所示。通过这种方式，本文将理解复杂和抽象的全局约束的任务分解为理解一组更简单成分的任务。然后，通过组合包含不同信息视角的不同原语，将不同原语所对应的掩码进行加权求和，可以再次重构全局约束。整体网络结构如图3所示。

图 2 使用原语生成输出掩码的过程

注：每个原语根据其特征评估一个系数，输出掩码是所有原语掩码及其相应系数的加权求和。

图 3 PrimitiveNet的整体网络结构

实验结果

本文提出的PrimitiveNet分层约束建模方法在三个RefCOCO系列数据集上相比于现有最佳方法均能取得最佳的性能。这证明了拆解全局约束对引用分割的有效性。

表 1 PrimitiveNet与现有最佳方法在RefCOCO上的比较

在最新的广义引用分割数据集GRES上，PrimitiveNet同样可以取得有竞争力的成绩，见表2。

表 2 PrimitiveNet与现有最佳方法在gRefCOCO上的比较

部分分割结果可视化见图4。

图 4 PrimitiveNet的输出示例

文章总结

本文聚焦于引用分割这一具有挑战性的问题。我们提出了一个分层约束建模框架，将复杂的全局约束分解为一组称为原语的基本子约束。在提出的框架中，不同的原语代表具有某些相似性的不同类型的语义区域。通过在所有原语和语言表达之间交换信息，网络找到一组合适的系数，并通过线性组合所有原语掩码及其系数来恢复全局约束并找到目标对象。在RefCOCO、RefCOCO+和RefCOCOg数据集上的实验证明了所提方法超越了当前最先进的方法。

更多细节，敬请参考论文原文。

作者简介

刘畅，新加坡南洋理工大学（NTU）电气与电子工程学院博士研究生，研究方向为计算机视觉，多模态学习和机器学习。

蒋旭东，IEEE Fellow，新加坡南洋理工大学（NTU）电气与电子工程学院教授，信息科学与系统中心（CISS）主任，研究方向为模式识别、计算机视觉、机器学习和生物识别。

丁恒辉，复旦大学青年研究员、博士生导师，入选国家级青年人才计划、上海市海外高层次青年人才，上海市计算机学会副秘书长。研究方向为计算机视觉、多模态大模型、场景理解、图像和视频分割等。

图像图形领域高质量科技期刊分级目录

中国图象图形学学会科普活动、素材征集通知

中国图象图形学学会高校志愿者招募

中国图象图形学学会关于组织开展科技成果评价的通知

2024年CSIG图像图形中国行承办方征集中

http://mp.weixin.qq.com/s?__biz=MzUxMDE4MzAzOA==&mid=2247807573&idx=3&sn=9601b4433fb518ee1ae231603e1c6e67

中国图象图形学学会CSIG

发布图象图形技术的理论研究、应用推广、科学普及、专业培训、技术咨询、学术交流、出版专业书刊等信息，促进该学科技术的发展和在国民经济各个领域的推广应用。

最新文章

【ChinaVR 2024】第二十四届中国虚拟现实大会顺利举办

【动态】第五期中国图象图形学学会理事荟活动成功举办

【预告】“科创榕智汇”空天信息技术论坛将于11月19日在福州召开

【动态】第32期CSIG企业行—走进北京航天晨信科技有限责任公司成功举办

【直播预告】CSIG图像图形技术国际在线研讨会第13期将于11月22日举办

【CSIG青年科学家会议2024】大会论坛总览

【速览】NeurIPS 2024 | 长尾目标检测预训练：具有对偶重构的动态重平衡对比学习

【预告】可信联邦学习冬令营·武汉站将于11月18-19日举办

【Visual Intelligence】四川大学、南开大学、阿联酋MBZUAI等6所大学团队最新成果：视觉语言大模型性能评估

【动态】CSIG图像图形学科前沿讲习班--“AIGC+具身智能前沿技术及创新应用”成功举办

【预告】第二届CSIG情感智能大会将于12月6-8日举办

【学习时间】构建与新质生产力相适应的新型生产关系

【动态】通用人工智能青年科学家沙龙在京举办

【Visual Intelligence】南洋理工大学和复旦大学团队：PrimitiveNet模型：在引用分割任务中拆解全局约束

【科普动态】“CSIG科普大讲堂--11.9全国消防日：智慧消防科普活动”成功举办

【动态】CSIG成像探测与感知专委会举办二十五期“AI新青年讲坛”学术活动

【动态】CSIG成像探测与感知专委会举办二十六期“AI新青年讲坛”学术活动

【委员纳新】2024年CSIG情感计算与理解专委会委员纳新！

【直播预告】第五期CSIG理事荟活动将于11月14日晚8点开始

【动态】中国图象图形学学会走进启元实验室调研交流

【竞赛】“天翼云息壤杯”高校AI大赛，百万奖金等你来！

【科普动态】CSIG数字媒体取证与安全专委会走进合肥市中国科技大学附属中学

【动态】第三十期CSIG文档图像分析与识别专业委员会学术微沙龙成功举办

【通知】关于召开第五届CSIG图像图形高峰论坛暨CSIG遥感图像专委会工作会议的通知

【预告】“科创榕智汇”空天信息技术论坛将于11月19日在福州召开

【直播预告】CSIG云讲堂：11月12日19点，佃仁伟主讲：高光谱融合成像

【党建】CSIG数字媒体取证与安全专委会党小组红色党建第二次活动成功举办

【动态】2024中国机器智能与生物医学交叉创新论坛圆满举行

【动态】第30期企业行——走进视比特机器人成功举办

【动态】第31期企业行——走进铁建重工成功举办

【活动预告】通用人工智能青年科学家沙龙将于11月9日在北京召开

【动态】Visual Intelligence 视觉智能前沿报告会在上海交通大学成功举办

【动态】中国图象图形学学会第八期优博论坛顺利召开

【动态】CSIG数字媒体取证与安全专委会召开2024年度常务委员会会议

【学习时间】习近平对社会工作作出重要指示

【CCIG 2025】2025中国图象图形大会论坛征集正式开启

【动态】第四期中国图象图形学学会理事荟活动成功举办

【预告】“AIGC+具身智能前沿技术及创新应用”讲习班将于11月9日在杭州开班！

【动态】CSIG数字媒体取证与安全专委会召开2024年专委会换届暨纳新会议

【预告】CSIG11月活动速递第一弹，快来一睹为快~

【动态】人工智能与虚拟现实赋能文化遗产学术研讨会暨中国图象图形学学会数字文化遗产专委会走进泉州师范学院成功举办

【预告】复杂地下空间火灾风险评估和应急救援+消防科普活动将于11月9日举办

【预告】第32期CSIG企业行——走进航天晨信将于11月6日举办

【通知】2025图像图形领域系列榜单征集遴选活动正式启动！

【动态】2024第五届中国媒体取证与安全大会在济南成功举办

【CSIG月报】2024年10月热点回顾

【预告】首届“CSIG青少年智能技术与创新科普活动”邀您共参与

【速览】TNNLS 2024 | 基于轻量级注意力的实时双路径物体检测网络

【ChinaVR 2024】特邀嘉宾重磅预告

【动态】2024年中国科协海智专家服务团湖南行暨中国图象图形学学会智能制造新质生产力研讨会在长沙成功召开

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉