ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

创业 2024-09-10 08:22 北京

多标签分类是一个具有挑战性的任务，旨在预测单个图像中的多个对象标签，同时建模标签与图像区域之间的复杂关系。尽管卷积神经网络CNN和视觉转换器Transformer在将图像处理为规则的像素块网格（patch）方面取得了成功，但这些表示对于捕捉不规则和不连续的兴趣区域来说并不理想。
在这项工作中，我们提出了第一个完全图卷积模型，基于分组K近邻的图卷积网络（Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition, GKGNet），该模型在灵活且统一的图结构中，同时建模语义标签嵌入与图像块之间的连接。为了应对不同对象的尺度差异并从多个角度捕捉信息，我们提出了用于动态图构建和信息传递的Group KGCN模块。我们的实验表明，GKGNet在具有挑战性的多标签数据集（即MS-COCO和VOC2007数据集）上，以显著较低的计算成本实现了最先进的性能。

论文名称：
GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition
论文链接：
https://arxiv.org/abs/2308.14378
代码地址：
https://github.com/jin-s13/GKGNet

一、灵活图结构解决多标签分类任务

图1 CNN, Transformers, GCN对图片特征的提取

在多标签分类中，与某个标签相关的区域可能是复杂的，甚至是不连续的。例如，为了识别图像中狗的存在，需要关注多个区域，因为可能存在多只狗。卷积神经网络（CNN）将图像视为像素网格，并根据空间位置应用滑动卷积核。CNN可以很好地处理连续区域，但局限的感受野让它难以适应不规则的兴趣区域。

相比之下，视觉转换器（Vision Transformer）将图像视为一系列图像块(patch)，具有全局感受野，并通过全局注意力从图像块中提取视觉特征。然而，对于小尺寸目标对象，大多数图像块属于背景，因此它们的注意力得分之和不能忽略，让特征提取受到来自背景噪声的干扰。而图方法（如 Vision GNN）将视觉图像块视为节点，通过将图像表示为图结构Graph来形成一种灵活的特征提取方法。

具体而言：

感受野是全局的，根据语义特征相似性寻找邻居节点，能够灵活在全图寻找目标区域。
特征传递是局部的，只发生在邻居节点之间。减少了背景区域的干扰。

这让图结构可以很好的适应目标区域的分布复杂，大小不一的难点。

二、方法介绍

图2 GKGNet网络结构

在这项工作中，我们提出了第一个用于多标签分类任务的完全图卷积网络（GCN），即基于分组K近邻的图卷积网络GKGNet。GKGNet将图像块和目标标签都视为图节点，并在统一的图结构中处理它们。

GKGNet构建了两种不同的图：一种是跨层次图（cross-level），建模目标标签和图像块之间的标签-对象关系；另一种是图像块层次图（patch-level），处理和更新图像块之间的图像特征。

这样，GKGNet能够自适应地整合兴趣补的特征，即使在存在不规则和不连续区域的情况下，也能有效更新视觉特征和标签嵌入的统一图表示。

如图2所示，图像块节点和标签节点通过四个分层阶段进行处理。

图3 KNN无法自适应地处理不同尺度的对象

图构建是GCN成功的关键。但是目前广泛使用的K近邻（KNN）构图方法只能会选择固定数目的邻居节点，无法自适应地处理不同尺度的对象。如图3，邻居数量K控制了提取和聚合区域特征的区域大小。过大的K会导致特征过度平滑，并涉及无效背景的干扰，而过小的K又难以选取足够的目标区域，影响特征提取和消息传递。

图4 Group KNN的分组和可重叠策略

因此，我们提出了基于Group KNN的GCN（Group KGCN）模块，该模块将节点特征拆分为多个组，并在每个组之间构建连接，如图4。通过设计每个组选择的邻居节点可以重叠，Group KNN方法允许目标节点与动态数量的源节点进行交互，并处理不同尺度的对象。

利用不同的组允许目标节点与不同数量（从个到个）的源节点建立连接。如图4所示，子目标节点连接到子源节点和，而子目标节点连接到子源节点和。这使得目标节点能够与四个源节点进行交互：，，和。这种情况通常发生在目标节点涉及到更广泛的兴趣区域时，例如大型目标对象。

相反，当不同组的邻居重叠时，所选择的源节点数量会减少。例如，的两个子目标节点都连接到源节点，导致仅与三个源节点进行交互：，和。这种情况通常发生在目标节点仅涉及到小的兴趣区域时，例如小型目标对象，从而有助于在信息传递过程中绕过无关信息。

最终基于Group KNN的Group KGCN模块如图5所示。

图5 Group KGCN模块结构

三、实验结果

GKGNet在具有挑战性的多标签数据集（即MS-COCO和VOC2007数据集）上，以显著较低的计算成本实现了SOTA的性能。

表1 MS-COCO数据集结果

表2 VOC数据集结果

下表3证明了GKGNet模型各个组件的效果，P、C和G分别代表Patch-Level Graph、Cross-Level Graph和Group KNN。

表3 GKGNet模型组件的效果（MS-COCO数据集）

为了探索Group KNN在通用图像识别中的效果，我们将 Group KNN 应用于经典的图像分类模型ViG-Tiny，并在ImageNet-1K、CIFAR-10、 CIFAR-100和Flowers等数据集上进行实验，可以看到top-1准确率显著提高。

表4 Group KNN在通用图像识别上的性能

四、可视化展示

图6 GKGNet的可视化

在图6的可视化中，彩色色块表示图像块与标签的连接。我们可以观察到Group KNN有效地适应了对象的大小。对于较小的对象，最终选择的标签节点集中在包含目标对象的区域。对于较大的对象，最终选择的标签节点覆盖了足够的区域，并关注对象的不同部分。此外，通过利用不同的子组，Group KNN灵活地提取共现关系，例如汽车和交通信号灯之间的关系。

五、总结

在本文中，我们提出了GKGNet，一种新颖的全图卷积模型，用于多标签图像识别任务。我们首次研究了视觉特征和标签嵌入的统一图表示。提出的Group KGCN模块用于动态图构建和消息传递，有效处理不同对象的尺度变化，从不同角度捕捉信息，并建模不同对象的共现关系。在MS-COCO和VOC2007等公共基准数据集上的综合实验验证了我们方法的有效性。我们希望将多模态特征与动态图表示相结合的理念能够广泛应用，并引起社区对这一有前途方向的关注。未来，我们计划将我们的工作扩展到更广泛的基于图学习的问题，如点云和社交网络。

作者：姚锐杰
来源：公众号【商汤学术】

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650513824&idx=2&sn=f9a544c82132c09d6008e627192a7323

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉