TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

科技   2024-09-09 16:00   江苏  

点击蓝字 关注我们

关注并星标

从此不迷路

计算机视觉研究院


公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式



  • 论文标题:A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective

  • 论文地址:

    https://arxiv.org/abs/2209.13232(预印版)

    https://ieeexplore.ieee.org/document/10638815(IEEE 版)


计算机视觉研究院专栏

Column of Computer Vision Institute

近年来,由于在图表示学习(graph representation learning)和非网格数据(non-grid data)上的性能优势,基于图神经网络(Graph Neural Networks,GNN)的方法被广泛应用于不同问题并且显著推动了相关领域的进步,包括但不限于数据挖掘(例如,社交网络分析、推荐系统开发)、计算机视觉(例如,目标检测、点云处理)和自然语言处理(例如,关系提取、序列学习)。
考虑到图神经网络已经取得了丰硕的成果,一篇全面且详细的综述可以帮助相关研究人员掌握近年来计算机视觉中基于图神经网络的方法的进展,以及从现有论文中总结经验和产生新的想法。可惜的是,我们发现由于图神经网络在计算机视觉中应用非常广泛,现有的综述文章往往在全面性或者时效性上存在不足,因此无法很好的帮助科研人员入门和熟悉相关领域的经典方法和最新进展。同时,如何合理地组织和呈现相关的方法和应用是一个不小的挑战。
尽管基于卷积神经网络(CNN)的方法在处理图像等规则网格上定义的输入数据方面表现出色,研究人员逐渐意识到,具有不规则拓扑的视觉信息对于表示学习至关重要,但尚未得到彻底研究。与具有内在连接和节点概念的自然图数据(如社交网络)相比,从规则网格数据构建图缺乏统一的原则且严重依赖于特定的领域知识。另一方面,某些视觉数据格式(例如点云和网格)并非在笛卡尔网格上定义的,并且涉及复杂的关系信息。因此,规则和不规则的视觉数据格式都将受益于拓扑结构和关系的探索,特别是对于具有挑战性的任务,例如理解复杂场景、从有限的经验中学习以及跨领域进行知识传递。

在计算机视觉领域,目前许多与 GNN 相关的研究都有以下两个目标之一:(1) GNN 和 CNN 主干的混合,以及 (2) 用于表示学习的纯 GNN 架构。前者通常旨在提高基于 CNN 的特征的远程建模能力,并适用于以前使用纯 CNN 架构解决的视觉任务,例如图像分类和语义分割。后者用作某些视觉数据格式(例如点云)的特征提取器。尽管取得了丰硕的进展,但仍然没有一篇综述能够系统、及时地回顾基于 GNN 的计算机视觉的发展情况。

在本文中,我们首先介绍了图神经网络的发展史和最新进展,包括最常用、最经典的图神经网络和图 Transformers。然后,我们以任务为导向对计算机视觉中基于图神经网络(包括图 Transformers)的方法和最新进展进行了全面且详细的调研。具体来说,我们根据输入数据的模态将图神经网络在计算机视觉中的应用大致划分为五类:自然图像(二维)、视频、视觉 + 语言、三维数据(例如,点云)以及医学影像。在每个类别中,我们再根据视觉任务的不同对方法和应用进一步分类。这种以任务为导向的分类法使我们能够研究不同的基于图神经网络的方法是如何处理每个任务的,以及较为公平地比较这些方法在不同数据集上的性能,在内容上我们同时还涵盖了基于 Transformers 的图神经网络方法。对于不同的任务,我们系统性地总结了其统一的数学表达,阐明了我们组织这些文章的逻辑关系,突出了该领域的关键挑战,展示了图神经网络在应对这些挑战的独特优势,并讨论了它的局限和未来发展路线。


图神经网络发展史

GNN 最初以循环 GNN 的形式发展,用于从有向无环图中提取节点表示。随着研究的发展,GNN 逐渐扩展到更多类型的图结构,如循环图和无向图。受到深度学习中 CNN 的启发,研究人员开发了将卷积概念推广到图域的方法,主要包括基于频域的方法和基于空域的方法。频域方法依赖于图的拉普拉斯谱来定义图卷积,而空域方法则通过聚合节点邻居的信息来实现图卷积。这些方法为处理复杂的图结构和不规则拓扑提供了有效的工具,极大地推动了 GNN 在多个领域,尤其是计算机视觉中的应用和发展。



具体来说,我们详尽地调查了如下这些任务:

  • 建立在自然图像(二维)上的视觉任务包括 Image Classification (multi-label、few-shot、zero-shot、transfer learning),Object Detection,Semantic Segmentation,和 Scene Graph Generation。
  • 建立在视频上的视觉任务包括 Video Action Recognition,Temporal Action Localization,Multi-Object Tracking,Human Motion Prediction,和 Trajectory Prediction。
  • 视觉 + 语言方向的任务包括 Visual Question Answering,Visual Grounding,Image Captioning,Image-Text Matching,和 Vision-Language Navigation。
  • 建立在三维数据上的视觉任务包括 3D Representation Learning (Point Clouds、Meshes),3D Understanding (Point Cloud Segmentation、3D Object Detection、3D Visual Grounding),和 3D Generation (Point Cloud Completion、3D Data Denoising、3D Reconstruction)。
  • 建立在医学影像上的任务包括 Brain Activity Investigation,Disease Diagnosis (Brain Diseases、Chest Diseases),Anatomy Segmentation (Brain Surfaces、Vessels、etc)。

总结来说,尽管在感知领域取得了突破性的进展,如何赋予深度学习模型推理能力仍然是现代计算机视觉系统面临的巨大挑战。在这方面,图神经网络和图 Transformers 在处理 “关系” 任务方面表现出了显著的灵活性和优越性。为此,我们从面向任务的角度首次对计算机视觉中的图神经网络和图 Transformers 进行了全面的综述。各种经典和最新的算法根据输入数据的模态(如图像、视频和点云)分为五类。通过系统地整理每个任务的方法,我们希望本综述能够为未来的更多进展提供启示。通过讨论关键的创新、局限性和潜在的研究方向,我们希望读者能够获得新的见解,并朝着类似人类的视觉理解迈进一步。

© THE END 

转载请联系本公众号获得授权


计算机视觉研究院学习群等你加入!


ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
计算机视觉研究院主要涉及AI视觉领域大模型研究,致力于目标检测、目标分类、图像分割、OCR、模型量化、模型部署等方向。
  • 应用于园区人脸人体检测、车辆车牌检测识别、烟雾烟火检测、抽烟等行为检测

  • 应用于景区溺水检测、丢失儿童询查、车辆违停检测、垃圾满溢检测、烟火检测、人流量统计等

  • 应用于工厂中的入侵检测、周界巡检、工服检测、产品缺陷检测、产品计件统计、AGV自动搬运等

  • 应用于林业畜牧业中的无人机实时检测、牲畜计数、林业面积测量、枯黄枯死树木检测定位、烟雾烟火检测、垃圾检测等

研究院承接各种AI视觉类项目,还有更多领域业务可落地,欢迎来咨询!

  


 往期推荐 

🔗

计算机视觉研究院
计算机视觉研究院主要涉及AI研究和落地实践,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”!
 最新文章