多标签分类是一个具有挑战性的任务,旨在预测单个图像中的多个对象标签,同时建模标签与图像区域之间的复杂关系。尽管卷积神经网络CNN和视觉转换器Transformer在将图像处理为规则的像素块网格(patch)方面取得了成功,但这些表示对于捕捉不规则和不连续的兴趣区域来说并不理想。 在这项工作中,我们提出了第一个完全图卷积模型,基于分组K近邻的图卷积网络(Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition, GKGNet),该模型在灵活且统一的图结构中,同时建模语义标签嵌入与图像块之间的连接。为了应对不同对象的尺度差异并从多个角度捕捉信息,我们提出了用于动态图构建和信息传递的Group KGCN模块。我们的实验表明,GKGNet在具有挑战性的多标签数据集(即MS-COCO和VOC2007数据集)上,以显著较低的计算成本实现了最先进的性能。
在这项工作中,我们提出了第一个完全图卷积模型,基于分组K近邻的图卷积网络(Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition, GKGNet),该模型在灵活且统一的图结构中,同时建模语义标签嵌入与图像块之间的连接。为了应对不同对象的尺度差异并从多个角度捕捉信息,我们提出了用于动态图构建和信息传递的Group KGCN模块。我们的实验表明,GKGNet在具有挑战性的多标签数据集(即MS-COCO和VOC2007数据集)上,以显著较低的计算成本实现了最先进的性能。
论文名称:
GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition
论文链接:
https://arxiv.org/abs/2308.14378
代码地址:
https://github.com/jin-s13/GKGNet
一、灵活图结构解决多标签分类任务
图1 CNN, Transformers, GCN对图片特征的提取
在多标签分类中,与某个标签相关的区域可能是复杂的,甚至是不连续的。例如,为了识别图像中狗的存在,需要关注多个区域,因为可能存在多只狗。卷积神经网络(CNN)将图像视为像素网格,并根据空间位置应用滑动卷积核。CNN可以很好地处理连续区域,但局限的感受野让它难以适应不规则的兴趣区域。
相比之下,视觉转换器(Vision Transformer)将图像视为一系列图像块(patch),具有全局感受野,并通过全局注意力从图像块中提取视觉特征。然而,对于小尺寸目标对象,大多数图像块属于背景,因此它们的注意力得分之和不能忽略,让特征提取受到来自背景噪声的干扰。而图方法(如 Vision GNN)将视觉图像块视为节点,通过将图像表示为图结构Graph来形成一种灵活的特征提取方法。
具体而言:
感受野是全局的,根据语义特征相似性寻找邻居节点,能够灵活在全图寻找目标区域。
特征传递是局部的,只发生在邻居节点之间。减少了背景区域的干扰。
这让图结构可以很好的适应目标区域的分布复杂,大小不一的难点。
图2 GKGNet网络结构
在这项工作中,我们提出了第一个用于多标签分类任务的完全图卷积网络(GCN),即基于分组K近邻的图卷积网络GKGNet。GKGNet将图像块和目标标签都视为图节点,并在统一的图结构中处理它们。
GKGNet构建了两种不同的图:一种是跨层次图(cross-level),建模目标标签和图像块之间的标签-对象关系;另一种是图像块层次图(patch-level),处理和更新图像块之间的图像特征。
这样,GKGNet能够自适应地整合兴趣补的特征,即使在存在不规则和不连续区域的情况下,也能有效更新视觉特征和标签嵌入的统一图表示。
图3 KNN无法自适应地处理不同尺度的对象
图4 Group KNN的分组和可重叠策略
因此,我们提出了基于Group KNN的GCN(Group KGCN)模块,该模块将节点特征拆分为多个组,并在每个组之间构建连接,如图4。通过设计每个组选择的邻居节点可以重叠,Group KNN方法允许目标节点与动态数量的源节点进行交互,并处理不同尺度的对象。
最终基于Group KNN的Group KGCN模块如图5所示。
图5 Group KGCN模块结构
三、实验结果
表1 MS-COCO数据集结果
表2 VOC数据集结果
表3 GKGNet模型组件的效果(MS-COCO数据集)
为了探索Group KNN在通用图像识别中的效果,我们将 Group KNN 应用于经典的图像分类模型ViG-Tiny,并在ImageNet-1K、CIFAR-10、 CIFAR-100和Flowers等数据集上进行实验,可以看到top-1准确率显著提高。
表4 Group KNN在通用图像识别上的性能
四、可视化展示
图6 GKGNet的可视化
五、总结
作者:姚锐杰
来源:公众号【商汤学术】
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。