点击下方“深度学习爱好者”,选择加p"星标"或“置顶”
论文信息
题目:Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation
Hyper-YOLO: 当视觉目标检测遇到超图计算
作者:Yifan Feng,Jiangang Huang,Shaoyi Du,Shihui Ying,Jun-Hai Yong,Yipeng Li,Guiguang Ding,Rongrong Ji,Yue Gao
源码:https://github.com/iMoonLab/Hyper-YOLO
论文创新点
- 超图计算增强的语义收集和分散(HGC-SCS)框架:作者提出了一个新颖的框架,该框架通过将视觉特征图转换到语义空间并构建超图结构来增强特征提取,使模型能够同时吸收语义和复杂结构信息,从而克服了传统以特征为中心学习的局限性。
- 基于超图的跨层级和跨位置表示网络(HyperC2Net):作为HGC-SCS框架的实例,HyperC2Net能够捕获语义空间中的潜在高阶相关性,与传统的“颈部”设计相比,它允许在不同层级和位置之间进行复杂的高阶交互。
- 混合聚合网络(MANet):在骨干网络中,作者引入了MANet,它结合了三种不同的基础结构来丰富信息流,并增强特征提取能力。这种设计提高了模型在不同尺度上的特征提取效率和效果。
- Hyper-YOLO模型:该模型整合了上述创新点,通过在“颈部”组件中集成超图计算,显著提高了目标检测性能。特别是在不同尺度模型上的实验结果表明,Hyper-YOLO在性能和参数效率方面都优于现有的先进YOLO系列方法。
摘要
作者介绍了Hyper-YOLO,这是一种新的目标检测方法,它整合了超图计算来捕捉视觉特征之间复杂的高阶相关性。虽然传统的YOLO模型功能强大,但它们的“颈部”设计存在局限性,限制了跨层级特征的整合和高阶特征相互关系的利用。为了解决这些挑战,我们提出了一个超图计算增强的语义收集和分散(HGCSCS)框架,它将视觉特征图转换到语义空间并构建一个超图以进行高阶信息传递。这使得模型能够同时获取语义和结构信息,超越了传统的以特征为中心的学习。Hyper-YOLO在其骨干网络中集成了所提出的混合聚合网络(MANet)以增强特征提取,并在其“颈部”引入了基于超图的跨层级和跨位置表示网络(HyperC2Net)。HyperC2Net在五个尺度上运作,并打破了传统的网格结构,允许在层级和位置之间进行复杂的高阶交互。这些组件的协同作用使Hyper-YOLO成为一个最先进的架构,在各种尺度模型中都表现出色,这一点通过其在COCO数据集上的卓越性能得到了证实。具体来说,HyperYOLO-N与先进的YOLOv8-N和YOLOv9-T相比,在APval上分别提高了12%和9%。关键字
方法
在本节中,我们首先介绍YOLO符号的基础知识以及所提出的HyperYOLO框架。接下来,我们详细说明Hyper-YOLO的两个核心模块,包括基本块(MANet)和“颈部”(HyperC2Net)。最后,我们分析Hyper-YOLO与其他YOLO方法之间的关系。预备知识
YOLO系列方法通常由两个主要部分组成:骨干网络和“颈部”。骨干网络负责提取基本视觉特征,而“颈部”则促进多尺度特征的融合,以实现最终的目标检测。本文提出了针对这两个组件的增强策略。为了在本文中便于描述,我们将“颈部”的三个尺度输出记为{N3, N4, N5},分别对应小尺度、中尺度和大尺度检测。在骨干网络的特征提取阶段,我们进一步将其分为五个阶段:{B1, B2, B3, B4, B5},这些代表不同语义级别的特征。数字越大,表示该特征是由网络的更深层提取的更高级别的语义特征。更多细节将在A节提供。Hyper-YOLO概述
我们的Hyper-YOLO框架保持了典型YOLO方法的总体架构,包括骨干网络和“颈部”。给定一张图像,Hyper-YOLO的骨干网络利用所提出的MANet作为其核心计算模块,从而增强了传统C2f模块在YOLOv8中发现的特征辨识能力。与YOLO传统架构不同,Hyper-YOLO接收了五个主要特征集{B1, B2, B3, B4, B5}。在一个新颖的步幅中,“颈部”(HyperC2Net)基于超图计算理论,整合了这些五重特征集之间的跨层级和跨位置信息,最终生成了三个不同尺度的最终语义特征{N3, N4, N5}。这些层次结构化的语义特征随后被用于最终的目标检测任务。混合聚合网络
至于我们的Hyper-YOLO的骨干网络,为了增强基础网络的特征提取能力,我们设计了混合聚合网络(MANet),如图2所示。这种架构融合了三种典型的卷积变体:用于通道间特征重新校准的1×1旁路卷积,用于高效空间特征处理的深度可分离卷积(DSConv),以及用于增强特征层次整合的C2f模块。这种融合在训练阶段产生了更多样化和丰富的梯度流,显著增强了每个五个关键阶段的基本特征中包含的语义深度。我们的MANet可以表述如下:其中,Xmid的通道数为2c。而X1, X2, ..., X4+n每个特征的通道数为c。最后,我们通过连接操作后跟1×1卷积来融合和压缩三种类型特征的语义信息,生成通道数为2c的Xout,如下所示:基于超图的跨层级和跨位置表示网络
至于我们的Hyper-YOLO的“颈部”,在本小节中,为了全面融合来自骨干网络的跨层级和跨位置信息,我们进一步提出了基于超图的跨层级和跨位置表示网络(HyperC2Net),如图4所示。HyperC2Net是所提出的HGC-SCS框架的实现,能够捕获语义空间中的潜在高阶相关性。- 超图构建。:如图S1所示,我们的骨干网络被划分为五个独立的阶段。这些阶段的特征图被表示为{B1, B2, B3, B4, B5}。为了利用超图计算来阐明基础特征之间的复杂高阶关系,我们首先执行五重基础特征的通道间连接,从而合成跨层级视觉特征。超图G =V, E}通常由其顶点集V和超边集E定义。在我们的方法中,我们将基于网格的视觉特征分解以构成超图的顶点集V。为了在语义空间内建模邻域关系,使用距离阈值来构建每个特征点的ϵ-ball,这将作为超边,如图3所示。ϵ-ball是一个包含所有在某个中心特征点一定距离阈值内的特征点的超边。超边集的整体构建可以定义为E = {ball(v, ϵ),其中ball(v, ϵ) =u表示指定顶点v的邻域顶点集。||x - y||_d是距离函数。在计算中,超图G通常由其关联矩阵H表示。
- 超图卷积。:为了促进超图结构上的高阶消息传递,我们使用典型的空间域超图卷积,并增加额外的残差连接来执行顶点特征的高阶学习,如下所示:
其中N_v(e)和N_e(v)是两个邻域指示函数,定义见[18]:N_v(e) =v和N_e(v) =e。Θ是可训练参数。为了计算方便,两个阶段的超图消息传递的矩阵表述可以定义为:其中D_v和D_e分别代表顶点和超边的对角度数矩阵。3) HGC-SCS框架的一个实例。:通过结合前面定义的超图构建和卷积策略,我们引入了一个HGC-SCS框架的简洁实例,称为基于超图的跨层级和跨位置表示网络(HyperC2Net),其总体定义如下:其中·||·表示矩阵连接操作。ϕ是图4中所示的融合函数(语义散布模块和自底向上模块)。在我们的HyperC2Net中,Xmixed本质上包含了跨层级信息,因为它是来自多个层级骨干特征的融合。此外,通过将基于网格的特征分解为语义空间中的一组特征点,并基于距离构建超边,我们的方法允许点集内不同位置的顶点之间进行高阶消息传递。这种能力促进了跨位置信息的捕获,丰富了模型对语义空间的理解。实验
声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。在「深度学习爱好者」公众号后台回复:Pytorch常用函数手册,即可下载全网第一份Pytorch常用函数手册,涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~