ECCV 2024 | GKGNet:多标签分类遇上图卷积网络ViG

创业   2024-09-10 08:22   北京  

多标签分类是一个具有挑战性的任务,旨在预测单个图像中的多个对象标签,同时建模标签与图像区域之间的复杂关系。尽管卷积神经网络CNN和视觉转换器Transformer在将图像处理为规则的像素块网格(patch)方面取得了成功,但这些表示对于捕捉不规则和不连续的兴趣区域来说并不理想。

在这项工作中,我们提出了第一个完全图卷积模型,基于分组K近邻的图卷积网络(Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition, GKGNet),该模型在灵活且统一的图结构中,同时建模语义标签嵌入与图像块之间的连接。为了应对不同对象的尺度差异并从多个角度捕捉信息,我们提出了用于动态图构建和信息传递的Group KGCN模块。我们的实验表明,GKGNet在具有挑战性的多标签数据集(即MS-COCO和VOC2007数据集)上,以显著较低的计算成本实现了最先进的性能

论文名称:

GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition 

论文链接:

https://arxiv.org/abs/2308.14378

代码地址:

https://github.com/jin-s13/GKGNet

一、灵活图结构解决多标签分类任务

图1 CNN, Transformers, GCN对图片特征的提取

在多标签分类中,与某个标签相关的区域可能是复杂的,甚至是不连续的。例如,为了识别图像中狗的存在,需要关注多个区域,因为可能存在多只狗。卷积神经网络(CNN)将图像视为像素网格,并根据空间位置应用滑动卷积核。CNN可以很好地处理连续区域,但局限的感受野让它难以适应不规则的兴趣区域。

相比之下,视觉转换器(Vision Transformer)将图像视为一系列图像块(patch),具有全局感受野,并通过全局注意力从图像块中提取视觉特征。然而,对于小尺寸目标对象,大多数图像块属于背景,因此它们的注意力得分之和不能忽略,让特征提取受到来自背景噪声的干扰。而图方法(如 Vision GNN)将视觉图像块视为节点,通过将图像表示为图结构Graph来形成一种灵活的特征提取方法

具体而言:

  1. 感受野是全局的,根据语义特征相似性寻找邻居节点,能够灵活在全图寻找目标区域。

  2. 特征传递是局部的,只发生在邻居节点之间。减少了背景区域的干扰。

这让图结构可以很好的适应目标区域的分布复杂,大小不一的难点。

二、方法介绍
图2 GKGNet网络结构

在这项工作中,我们提出了第一个用于多标签分类任务的完全图卷积网络(GCN),即基于分组K近邻的图卷积网络GKGNet。GKGNet将图像块和目标标签都视为图节点,并在统一的图结构中处理它们。

GKGNet构建了两种不同的图:一种是跨层次图(cross-level),建模目标标签和图像块之间的标签-对象关系;另一种是图像块层次图(patch-level),处理和更新图像块之间的图像特征。

这样,GKGNet能够自适应地整合兴趣补的特征,即使在存在不规则和不连续区域的情况下,也能有效更新视觉特征和标签嵌入的统一图表示。

如图2所示,图像块节点和标签节点通过四个分层阶段进行处理。

图3 KNN无法自适应地处理不同尺度的对象
图构建是GCN成功的关键。但是目前广泛使用的K近邻(KNN)构图方法只能会选择固定数目的邻居节点,无法自适应地处理不同尺度的对象。如图3,邻居数量K控制了提取和聚合区域特征的区域大小。过大的K会导致特征过度平滑,并涉及无效背景的干扰,而过小的K又难以选取足够的目标区域,影响特征提取和消息传递。
图4 Group KNN的分组和可重叠策略

因此,我们提出了基于Group KNN的GCN(Group KGCN)模块,该模块将节点特征拆分为多个组,并在每个组之间构建连接,如图4。通过设计每个组选择的邻居节点可以重叠,Group KNN方法允许目标节点与动态数量的源节点进行交互,并处理不同尺度的对象。

利用不同的组允许目标节点与不同数量(从 个到 个)的源节点建立连接。如图4所示,子目标节点 连接到子源节点 ,而子目标节点 连接到子源节点 。这使得目标节点 能够与四个源节点进行交互:  和   。这种情况通常发生在目标节点涉及到更广泛的兴趣区域时, 例如大型目标对象。
相反,当不同组的邻居重叠时,所选择的源节点数量会减少。例如, 的两个子目标节点都连接到源节点 ,导致仅与三个源节点进行交互: 。这种情况通常发生在目标节点仅涉及到小的兴趣区域时,例如小型目标对象,从而有助于在信息传递过程中绕过无关信息。

最终基于Group KNN的Group KGCN模块如图5所示。

图5 Group KGCN模块结构


三、实验结果

GKGNet在具有挑战性的多标签数据集(即MS-COCO和VOC2007数据集)上,以显著较低的计算成本实现了SOTA的性能。

表1 MS-COCO数据集结果

表2 VOC数据集结果
下表3证明了GKGNet模型各个组件的效果,P、C和G分别代表Patch-Level Graph、Cross-Level Graph和Group KNN。

表3 GKGNet模型组件的效果(MS-COCO数据集)

为了探索Group KNN在通用图像识别中的效果,我们将 Group KNN 应用于经典的图像分类模型ViG-Tiny,并在ImageNet-1K、CIFAR-10、 CIFAR-100和Flowers等数据集上进行实验,可以看到top-1准确率显著提高。

表4 Group KNN在通用图像识别上的性能

四、可视化展示

图6 GKGNet的可视化
在图6的可视化中,彩色色块表示图像块与标签的连接。我们可以观察到Group KNN有效地适应了对象的大小。对于较小的对象,最终选择的标签节点集中在包含目标对象的区域。对于较大的对象,最终选择的标签节点覆盖了足够的区域,并关注对象的不同部分。此外,通过利用不同的子组,Group KNN灵活地提取共现关系,例如汽车和交通信号灯之间的关系。

五、总结

在本文中,我们提出了GKGNet,一种新颖的全图卷积模型,用于多标签图像识别任务。我们首次研究了视觉特征和标签嵌入的统一图表示。提出的Group KGCN模块用于动态图构建和消息传递,有效处理不同对象的尺度变化,从不同角度捕捉信息,并建模不同对象的共现关系。在MS-COCO和VOC2007等公共基准数据集上的综合实验验证了我们方法的有效性。我们希望将多模态特征与动态图表示相结合的理念能够广泛应用,并引起社区对这一有前途方向的关注。未来,我们计划将我们的工作扩展到更广泛的基于图学习的问题,如点云和社交网络。

作者:姚锐杰

来源:公众号【商汤学术】

llustration From IconScout By IconScout Store

-The End-
本周上新!

扫码观看!


“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //


投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励


投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。


关于我“

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com

    


点击右上角,把文章分享到朋友圈
点击“阅读原文”按钮,查看社区原文

将门创投
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器,由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
 最新文章