超图计算+目标检测，性能新SOTA！清华发布Hyper-YOLO：用超图捕捉高阶视觉关联

科技 2024-12-12 22:32 江苏

点击上方↑↑↑“OpenCV学堂”关注我

来源：公众号新智元授权

【新智元导读】Hyper-YOLO是一种新型目标检测方法，通过超图计算增强了特征之间的高阶关联，提升了检测性能，尤其在识别复杂场景下的中小目标时表现更出色。

YOLO（You Only Look Once）系列是目标检测领域中的主流方法，以其高效性和实时性而著称。然而，现有的YOLO模型在处理跨层特征融合和复杂的高阶特征关系时存在局限，无法充分捕捉跨位置和跨尺度的复杂特征关联。

为了解决这一难点，清华大学提出了Hyper-YOLO：一种基于超图计算的目标检测方法。Hyper-YOLO首次将超图计算集成到目标检测网络，对特征图中的复杂高阶关联进行建模，实现了高阶信息的跨层次和跨位置传播。

作者列表：Yifan Feng, Jiangang Huang, Shaoyi Du, Shihui Ying, Junhai Yong, Yipeng Li, Guiguang Ding, Rongrong Ji, Yue Gao.

论文地址：https://arxiv.org/abs/2408.04804

Github仓库：https://github.com/iMoonLab/Hyper-YOLOv1.1

零代码平台：http://hyperyolo.gaoyue.org:28501/#/predict

使用超图计算结合YOLO，性能在各种规模模型中都达到顶尖，在COCO数据集上的表现明显优于其他模型，尤其是对中小目标提升更加显著。其中，相比于最新的YOLOv9-T、YOLO11-S，同规模的Hyper-YOLO分别实现了2%和1%的平均精度提升。

目标检测的困境

近年来，随着深度学习的快速发展，YOLO（You Only Look Once）系列模型凭借其高效的单阶段检测架构，在目标检测领域中脱颖而出。YOLO模型通过将目标检测简化为回归问题，在保持高精度的同时实现了实时检测能力，受到了广泛关注和应用。

然而，随着应用场景的复杂化，现有的YOLO模型在处理跨层次特征融合和高阶特征关系时暴露出了一定的局限性。

下图展示了几个典型的案例 (YOLOv8为例)。在打网球的场景中，现有模型将网球拍误判为了棒球棒；在冲浪的场景中，现有模型将冲浪板误判为了风筝。这种错误正是由于现有的模型难以捕捉视觉对象之间的复杂关系。

因而，不同目标间的高阶语义关联推理限制了目标检测的性能。

高阶关联的建模方法

为了解决这些问题，学术界一直在探索更加先进的模型设计与优化方法。其中，超图计算作为一种能够捕捉多方关系的数学工具，逐渐被应用于包括社交网络、脑网络等复杂数据结构分析中。

超图覆盖了多种关联，是复杂关联计算的有效方法。在Hyper-YOLO中，作者首次将超图计算引入目标检测领域，以实现视觉高阶语义关联的建模与学习。

模型效果

该工作在COCO数据集上进行了丰富的实验。Hyper-YOLOv1.1提供了3种规模的版本（Tiny, Small , Medium），在对比实验中，均明显优于最新的YOLO模型。

其中，Tiny版本的平均精度（mAP）指标相比于YOLOv8、YOLOv9、YOLO11的同规模版本分别提升3.0%、2.0%、0.8%；Small版本的mAP指标相比于YOLOv8、YOLOv9、YOLO11的同规模版本分别提升3.1%、1.2%、1.0%。此外，对于骨干网络、Kernel大小、特征增强策略、超图构建策略的消融实验证明了所提出的方法的先进性。

以下两图为YOLOv8、Hyper-YOLO在目标检测和实例分割任务下的可视化结果。

下图为使用高阶关联学习对特征图增强前后的可视化图（通过HyperC2Net前后的特征图）。

上述实验结果证明，Hyper-YOLO具有目前最先进的检测性能，尤其对场景中不同视觉对象的高阶关系具有更准确的理解能力。

Hyper-YOLO零代码平台

智能媒体与认知实验室还推出了一款基于Hyper-YOLO的零代码训练平台。在该平台上，无需配置环境、修改配置文件等繁琐操作，既可以一键上传图像利用训练好的Hyper-YOLO模型进行推理，也可以上传数据集自定义训练、直观展示训练过程。(推荐使用PC端chrome/Edge浏览器）

项目链接：http://hyperyolo.gaoyue.org:28501/#/predict

项目支持自定义训练。

在训练完成后，可以对验证数据进行推理和评估，并可视化检测结果：

方法概述

超图计算

超图是图的推广形式，是一种高效的特征表示学习方法。在超图中，一条超边可以连接多个顶点，从而表示对象之间的高阶关联。超图神经网络作为超图计算的核心方法，通常包含以下几个步骤：

1. 从原始数据构建超边

2. 从顶点到超边的消息聚合（超边卷积）

3. 从超边到顶点的消息分发（节点卷积）

超图神经网络由于其灵活性和丰富的表达能力，广泛应用于社交网络分析、生物信息学、推荐系统等领域，能够更有效地建模和分析复杂的多层次数据关联。

Hyper-YOLO整体架构

Hyper-YOLO 继承了典型的 YOLO 架构，骨干网络通过引入混合聚合网络（MANet）来增强特征提取能力，从五个特征层中获取信息。

颈部网络（Neck）采用基于超图的跨层次和跨位置表示网络（HyperC2Net），通过超图计算集成多尺度特征，实现高阶信息的跨层次和跨位置传播，从而生成适用于目标检测的语义特征，显著提升模型的检测性能。

基于超图的跨层次和跨位置表示网络

在传统YOLO模型中，颈部为连接骨干网络和预测头之间的部分，通常采用类似PANet的结构，承担多尺度特征提取与融合的功能。虽然这类结构能够进行一定的多尺度特征融合，但直接的信息交互局限在相邻层之间。

而基于超图的跨层次跨位置表示网络（Hypergraph-Based Cross-Level and Cross-Position Representation Network, HyperC2Net）则突破了这一瓶颈，主要过程如下：

1. 超图构建：HyperC2Net将来自不同层次的特征图进行拼接，形成跨层次的视觉特征集合。然后通过计算特征点之间的距离，构建一个超图，其中每个超边连接多个顶点，代表多个特征点之间的高阶关系。超图能够表达跨层次和跨位置的复杂关系，而非简单的相邻层信息融合。

2. 超图卷积：在构建超图后，HyperC2Net利用超图卷积在特征图上进行消息传播。通过这种方式，不同位置和层次的特征点可以相互传递信息，建模特征点之间的高阶关联，增强了模型对于复杂场景中目标的识别能力。特别是在跨位置特征交互方面，相比于传统的卷积操作，超图卷积能够捕捉到更广泛和复杂的特征关联。

总结

Hyper-YOLO通过引入超图计算方法，突破了传统YOLO模型在多尺度特征融合上的局限。超图的高阶关联建模能力使得HyperC2Net能够在跨层次和跨位置的信息传播中表现出色，不仅在特征点之间实现高效的信息聚合和分发，还通过跨层次的消息传递显著提升了目标检测性能，尤其在处理复杂场景和多目标检测任务中表现优异。

参考资料：

[1] Feng Y, Huang J, Du S, et al. Hyper-YOLO: When visual object detection meets hypergraph computation[J]. arXiv preprint arXiv:2408.04804, 2024.

[2] Feng Y, You H, Zhang Z, et al. Hypergraph neural networks[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 3558-3565.

[3] Gao Y, Feng Y, Ji S, et al. HGNN+: General hypergraph neural networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(3): 3181-3199.

OpenCV4系统化学习

深度学习系统化学习

推荐阅读

OpenCV4.8+YOLOv8对象检测C++推理演示

ZXING+OpenCV打造开源条码检测应用

攻略 | 学习深度学习只需要三个月的好方法

三行代码实现 TensorRT8.6 C++ 深度学习模型部署

实战 | YOLOv8+OpenCV 实现DM码定位检测与解析

对象检测边界框损失 – 从IOU到ProbIOU

初学者必看 | 学习深度学习的五个误区

OpenCV学堂

三本书《Java数字图像处理-编程技巧与应用实践》、《OpenCV Android开发实战》、《OpenCV4应用开发-入门、进阶与工程化实践》作者。OpenCV实验大师平台软件作者，OpenCV开发专家、OpenCV研习社创始人。

最新文章

QT5+ 工业相机 + OpenCV工作流集成演示

Pytorch轻松实现经典视觉任务

正式发布 | QT5 + OpenCV4.8从入门到实战路线图

十种主流模型C++部署演示

OpenCV案例 | 生物检测-提取脂肪球

注册NVIDIA DLI新用户，免费领取价值600元的课程，写评语有好礼

视频一键拆分PS层！DeepMind新模型效果碾压同级，物体、背景完美分离，还能脑补

OpenCV4+QT5 深度学习应用开发演示

LSTM之父：我也是注意力之父！1991年就发表线性复杂度，遥遥领先Transformer 26年

OpenCV4 | 怎么学才能找到工作

超图计算+目标检测，性能新SOTA！清华发布Hyper-YOLO：用超图捕捉高阶视觉关联

Pytorch轻松实现经典视觉任务

OpenCV4+QT5 深度学习应用开发演示

YOLOv8与YOLO11自定义数据集迁移学习效果对比

OpenCV实现各种图形绘制、图像调色

推荐 | OpenCV算法开发能力暴涨十倍的方法

YOLOv8 + OpenVINO + QT5 打造电子围栏预警系统

推荐 | OpenCV算法开发能力暴涨十倍的方法

编程高薪神话末日来临？23届计算机本科就业率狂掉3.2%，AI技能成救命稻草

福利 | OpenCV4+深度学习+QT5全系课程

YOLOv8+PyQT5打造安全帽检测预警应用

Pytorch轻松实现经典视觉任务

关于Pytorch导出ONNX格式模型的Tips

正式发布 | QT5 + OpenCV4.8从入门到实战路线图

YOLOv8与YOLO11自定义数据集迁移学习效果对比

正式发布 | QT5 + OpenCV4.8从入门到实战路线图

C#与OpenCV C++导出DLL调用与数据交互

十种主流模型C++部署演示

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

Pytorch轻松实现经典视觉任务

OpenCV案例 | 角点检测

Pytorch轻松实现经典视觉任务

正式发布 | QT5 + OpenCV4.8从入门到实战路线图

YOLOv8的 Web端网页推理演示

常识 | 机器视觉算法如何选择相机分辨率

Pytorch轻松实现经典视觉任务

Torchvision框架学习之FCOS模型及其训练

福利 | OpenCV4+深度学习+QT5全系课程

图像编辑器 Monica 之实现好玩的人脸替换功能

OpenCV4 | 怎么学才能找到工作

Numpy包从1.x升级到2.x以后的几个注意点

福利 | OpenCV4+深度学习+QT5全系课程

OpenCV案例 | 基于轮廓分析对象提取

AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

Pytorch轻松实现经典视觉任务

OpenCV4 | 怎么学才能找到工作

十种主流模型C++部署演示

深度学习入门必学之Pytorch框架实战课程

正式发布 | QT5 + OpenCV4.8从入门到实战路线图

福利 | OpenCV4+深度学习+QT5全系课程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉