TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

科技 2024-09-09 16:00 江苏

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文标题：A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective
论文地址：
https://arxiv.org/abs/2209.13232（预印版）
https://ieeexplore.ieee.org/document/10638815（IEEE 版）

计算机视觉研究院专栏

Column of Computer Vision Institute

近年来，由于在图表示学习（graph representation learning）和非网格数据（non-grid data）上的性能优势，基于图神经网络（Graph Neural Networks，GNN）的方法被广泛应用于不同问题并且显著推动了相关领域的进步，包括但不限于数据挖掘（例如，社交网络分析、推荐系统开发）、计算机视觉（例如，目标检测、点云处理）和自然语言处理（例如，关系提取、序列学习）。

考虑到图神经网络已经取得了丰硕的成果，一篇全面且详细的综述可以帮助相关研究人员掌握近年来计算机视觉中基于图神经网络的方法的进展，以及从现有论文中总结经验和产生新的想法。可惜的是，我们发现由于图神经网络在计算机视觉中应用非常广泛，现有的综述文章往往在全面性或者时效性上存在不足，因此无法很好的帮助科研人员入门和熟悉相关领域的经典方法和最新进展。同时，如何合理地组织和呈现相关的方法和应用是一个不小的挑战。

尽管基于卷积神经网络（CNN）的方法在处理图像等规则网格上定义的输入数据方面表现出色，研究人员逐渐意识到，具有不规则拓扑的视觉信息对于表示学习至关重要，但尚未得到彻底研究。与具有内在连接和节点概念的自然图数据（如社交网络）相比，从规则网格数据构建图缺乏统一的原则且严重依赖于特定的领域知识。另一方面，某些视觉数据格式（例如点云和网格）并非在笛卡尔网格上定义的，并且涉及复杂的关系信息。因此，规则和不规则的视觉数据格式都将受益于拓扑结构和关系的探索，特别是对于具有挑战性的任务，例如理解复杂场景、从有限的经验中学习以及跨领域进行知识传递。

在计算机视觉领域，目前许多与 GNN 相关的研究都有以下两个目标之一：(1) GNN 和 CNN 主干的混合，以及 (2) 用于表示学习的纯 GNN 架构。前者通常旨在提高基于 CNN 的特征的远程建模能力，并适用于以前使用纯 CNN 架构解决的视觉任务，例如图像分类和语义分割。后者用作某些视觉数据格式（例如点云）的特征提取器。尽管取得了丰硕的进展，但仍然没有一篇综述能够系统、及时地回顾基于 GNN 的计算机视觉的发展情况。

在本文中，我们首先介绍了图神经网络的发展史和最新进展，包括最常用、最经典的图神经网络和图 Transformers。然后，我们以任务为导向对计算机视觉中基于图神经网络（包括图 Transformers）的方法和最新进展进行了全面且详细的调研。具体来说，我们根据输入数据的模态将图神经网络在计算机视觉中的应用大致划分为五类：自然图像（二维）、视频、视觉 + 语言、三维数据（例如，点云）以及医学影像。在每个类别中，我们再根据视觉任务的不同对方法和应用进一步分类。这种以任务为导向的分类法使我们能够研究不同的基于图神经网络的方法是如何处理每个任务的，以及较为公平地比较这些方法在不同数据集上的性能，在内容上我们同时还涵盖了基于 Transformers 的图神经网络方法。对于不同的任务，我们系统性地总结了其统一的数学表达，阐明了我们组织这些文章的逻辑关系，突出了该领域的关键挑战，展示了图神经网络在应对这些挑战的独特优势，并讨论了它的局限和未来发展路线。

图神经网络发展史

GNN 最初以循环 GNN 的形式发展，用于从有向无环图中提取节点表示。随着研究的发展，GNN 逐渐扩展到更多类型的图结构，如循环图和无向图。受到深度学习中 CNN 的启发，研究人员开发了将卷积概念推广到图域的方法，主要包括基于频域的方法和基于空域的方法。频域方法依赖于图的拉普拉斯谱来定义图卷积，而空域方法则通过聚合节点邻居的信息来实现图卷积。这些方法为处理复杂的图结构和不规则拓扑提供了有效的工具，极大地推动了 GNN 在多个领域，尤其是计算机视觉中的应用和发展。

具体来说，我们详尽地调查了如下这些任务：

建立在自然图像（二维）上的视觉任务包括 Image Classification (multi-label、few-shot、zero-shot、transfer learning)，Object Detection，Semantic Segmentation，和 Scene Graph Generation。
建立在视频上的视觉任务包括 Video Action Recognition，Temporal Action Localization，Multi-Object Tracking，Human Motion Prediction，和 Trajectory Prediction。
视觉 + 语言方向的任务包括 Visual Question Answering，Visual Grounding，Image Captioning，Image-Text Matching，和 Vision-Language Navigation。
建立在三维数据上的视觉任务包括 3D Representation Learning (Point Clouds、Meshes)，3D Understanding (Point Cloud Segmentation、3D Object Detection、3D Visual Grounding)，和 3D Generation (Point Cloud Completion、3D Data Denoising、3D Reconstruction)。
建立在医学影像上的任务包括 Brain Activity Investigation，Disease Diagnosis (Brain Diseases、Chest Diseases)，Anatomy Segmentation (Brain Surfaces、Vessels、etc)。

总结来说，尽管在感知领域取得了突破性的进展，如何赋予深度学习模型推理能力仍然是现代计算机视觉系统面临的巨大挑战。在这方面，图神经网络和图 Transformers 在处理 “关系” 任务方面表现出了显著的灵活性和优越性。为此，我们从面向任务的角度首次对计算机视觉中的图神经网络和图 Transformers 进行了全面的综述。各种经典和最新的算法根据输入数据的模态（如图像、视频和点云）分为五类。通过系统地整理每个任务的方法，我们希望本综述能够为未来的更多进展提供启示。通过讨论关键的创新、局限性和潜在的研究方向，我们希望读者能够获得新的见解，并朝着类似人类的视觉理解迈进一步。

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

计算机视觉研究院主要涉及AI视觉领域和大模型研究，致力于目标检测、目标分类、图像分割、OCR、模型量化、模型部署等方向。

应用于园区人脸人体检测、车辆车牌检测识别、烟雾烟火检测、抽烟等行为检测

应用于景区溺水检测、丢失儿童询查、车辆违停检测、垃圾满溢检测、烟火检测、人流量统计等

应用于工厂中的入侵检测、周界巡检、工服检测、产品缺陷检测、产品计件统计、AGV自动搬运等

应用于林业畜牧业中的无人机实时检测、牲畜计数、林业面积测量、枯黄枯死树木检测定位、烟雾烟火检测、垃圾检测等

研究院承接各种AI视觉类项目，还有更多领域业务可落地，欢迎来咨询！

往期推荐

🔗

http://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247537816&idx=2&sn=6f3e8c4be88de91e3c27624069a38691

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

大型视觉语言模型OMG-LLaVA：图像级、目标级和像素级的推理和理解任务统一

PE-YOLO：解决黑夜中的目标检测难点

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

人脸识别精度提升 | 基于Transformer的人脸识别（附源码）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

FP-DETR：通过完全预训练提升transformer目标检测器

3D大模型助力，15分钟即可训练高质量、个性化的数字人模型，代码已开放

顶会新方向！全新多模态大模型统一分割框架

微软新出框架：Transformer扩展到10亿token（附代码下载）

Drone-YOLO：一种有效的无人机图像目标检测

26申博时间规划！别再按老套路来了，没用

“计算机视觉研究院”商务合作

一文读懂模型的可解释性（附代码）

首个快速知识蒸馏的视觉框架：ResNet50 80.1%精度，训练加速30%

劲爆！YOLOv6又快又准的目标检测框架开源啦（附源代码下载）

今天面试了一个字节女生，当场想给她offer

三区idea最后发了顶会！

特别小的目标检测识别（附论文下载）

基于Transformer的跨模态3D点云目标检测SOTA！易复现！

NeurIPS 2024 | 消除多对多问题，清华提出大规模细粒度视频片段标注新范式VERIFIED

“计算机视觉研究院”商务合作

机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

不需要标注了？看自监督学习框架如何助力目标检测

RestoreDet：低分辨率图像中目标检测

目标检测创新：一种基于区域的半监督方法，部分标签即可（附原论文下载）

又快又准，即插即用！清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！

MIT韩松团队长上下文LLM推理高效框架DuoAttention：单GPU实现330万Token上下文推理

50K*16薪，进字节了！

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

“计算机视觉研究院”商务合作

RestoreDet：低分辨率图像中目标检测

CVPR’24｜PanoOcc基于相机的3D全景分割最强SOTA！

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

245个目标检测开源项目合集，建议收藏！

“计算机视觉研究院”商务合作

完爆YOLO家族？新一代目标检测器又有新突破！

NeurIPS 2024 Oral | 小参数，大作为！揭秘非对称 LoRA 架构的高效性能

YOLO-SLD：一种改进的注意机制YOLO车牌检测

“计算机视觉研究院”商务合作

欢迎加入“计算机视觉研究院”学习群

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

Kaggle金牌和CCF A一作哪个更有用？

“计算机视觉研究院”商务合作

发论文别太老实，用对方法一年三篇SCI！

AI智能体引擎加持：天玑9400让「完全体」AI手机提前问世了

大规模参数的更强、更鲁棒的视觉基础模型

多尺度特征融合：为检测学习更好的语义信息（附论文下载）

VB-LoRA高效登顶！仅需0.4%参数量，极限超越LoRA！

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉