超图计算+目标检测，性能新SOTA！清华发布Hyper-YOLO：用超图捕捉高阶视觉关联

科技 2024-12-12 11:17 北京

新智元报道

编辑：LRST

【新智元导读】Hyper-YOLO是一种新型目标检测方法，通过超图计算增强了特征之间的高阶关联，提升了检测性能，尤其在识别复杂场景下的中小目标时表现更出色。

YOLO（You Only Look Once）系列是目标检测领域中的主流方法，以其高效性和实时性而著称。然而，现有的YOLO模型在处理跨层特征融合和复杂的高阶特征关系时存在局限，无法充分捕捉跨位置和跨尺度的复杂特征关联。

为了解决这一难点，清华大学提出了Hyper-YOLO：一种基于超图计算的目标检测方法。Hyper-YOLO首次将超图计算集成到目标检测网络，对特征图中的复杂高阶关联进行建模，实现了高阶信息的跨层次和跨位置传播。

作者列表：Yifan Feng, Jiangang Huang, Shaoyi Du, Shihui Ying, Junhai Yong, Yipeng Li, Guiguang Ding, Rongrong Ji, Yue Gao.

论文地址：https://arxiv.org/abs/2408.04804

Github仓库：https://github.com/iMoonLab/Hyper-YOLOv1.1

零代码平台：http://hyperyolo.gaoyue.org:28501/#/predict

使用超图计算结合YOLO，性能在各种规模模型中都达到顶尖，在COCO数据集上的表现明显优于其他模型，尤其是对中小目标提升更加显著。其中，相比于最新的YOLOv9-T、YOLO11-S，同规模的Hyper-YOLO分别实现了2%和1%的平均精度提升。

目标检测的困境

近年来，随着深度学习的快速发展，YOLO（You Only Look Once）系列模型凭借其高效的单阶段检测架构，在目标检测领域中脱颖而出。YOLO模型通过将目标检测简化为回归问题，在保持高精度的同时实现了实时检测能力，受到了广泛关注和应用。

然而，随着应用场景的复杂化，现有的YOLO模型在处理跨层次特征融合和高阶特征关系时暴露出了一定的局限性。

下图展示了几个典型的案例 (YOLOv8为例)。在打网球的场景中，现有模型将网球拍误判为了棒球棒；在冲浪的场景中，现有模型将冲浪板误判为了风筝。这种错误正是由于现有的模型难以捕捉视觉对象之间的复杂关系。

因而，不同目标间的高阶语义关联推理限制了目标检测的性能。

高阶关联的建模方法

为了解决这些问题，学术界一直在探索更加先进的模型设计与优化方法。其中，超图计算作为一种能够捕捉多方关系的数学工具，逐渐被应用于包括社交网络、脑网络等复杂数据结构分析中。

超图覆盖了多种关联，是复杂关联计算的有效方法。在Hyper-YOLO中，作者首次将超图计算引入目标检测领域，以实现视觉高阶语义关联的建模与学习。

模型效果

该工作在COCO数据集上进行了丰富的实验。Hyper-YOLOv1.1提供了3种规模的版本（Tiny, Small , Medium），在对比实验中，均明显优于最新的YOLO模型。

其中，Tiny版本的平均精度（mAP）指标相比于YOLOv8、YOLOv9、YOLO11的同规模版本分别提升3.0%、2.0%、0.8%；Small版本的mAP指标相比于YOLOv8、YOLOv9、YOLO11的同规模版本分别提升3.1%、1.2%、1.0%。此外，对于骨干网络、Kernel大小、特征增强策略、超图构建策略的消融实验证明了所提出的方法的先进性。

以下两图为YOLOv8、Hyper-YOLO在目标检测和实例分割任务下的可视化结果。

下图为使用高阶关联学习对特征图增强前后的可视化图（通过HyperC2Net前后的特征图）。

上述实验结果证明，Hyper-YOLO具有目前最先进的检测性能，尤其对场景中不同视觉对象的高阶关系具有更准确的理解能力。

Hyper-YOLO零代码平台

智能媒体与认知实验室还推出了一款基于Hyper-YOLO的零代码训练平台。在该平台上，无需配置环境、修改配置文件等繁琐操作，既可以一键上传图像利用训练好的Hyper-YOLO模型进行推理，也可以上传数据集自定义训练、直观展示训练过程。(推荐使用PC端chrome/Edge浏览器）

项目链接：http://hyperyolo.gaoyue.org:28501/#/predict

项目支持自定义训练。

在训练完成后，可以对验证数据进行推理和评估，并可视化检测结果：

方法概述

超图计算

超图是图的推广形式，是一种高效的特征表示学习方法。在超图中，一条超边可以连接多个顶点，从而表示对象之间的高阶关联。超图神经网络作为超图计算的核心方法，通常包含以下几个步骤：

1. 从原始数据构建超边

2. 从顶点到超边的消息聚合（超边卷积）

3. 从超边到顶点的消息分发（节点卷积）

超图神经网络由于其灵活性和丰富的表达能力，广泛应用于社交网络分析、生物信息学、推荐系统等领域，能够更有效地建模和分析复杂的多层次数据关联。

Hyper-YOLO整体架构

Hyper-YOLO 继承了典型的 YOLO 架构，骨干网络通过引入混合聚合网络（MANet）来增强特征提取能力，从五个特征层中获取信息。

颈部网络（Neck）采用基于超图的跨层次和跨位置表示网络（HyperC2Net），通过超图计算集成多尺度特征，实现高阶信息的跨层次和跨位置传播，从而生成适用于目标检测的语义特征，显著提升模型的检测性能。

基于超图的跨层次和跨位置表示网络

在传统YOLO模型中，颈部为连接骨干网络和预测头之间的部分，通常采用类似PANet的结构，承担多尺度特征提取与融合的功能。虽然这类结构能够进行一定的多尺度特征融合，但直接的信息交互局限在相邻层之间。

而基于超图的跨层次跨位置表示网络（Hypergraph-Based Cross-Level and Cross-Position Representation Network, HyperC2Net）则突破了这一瓶颈，主要过程如下：

1. 超图构建：HyperC2Net将来自不同层次的特征图进行拼接，形成跨层次的视觉特征集合。然后通过计算特征点之间的距离，构建一个超图，其中每个超边连接多个顶点，代表多个特征点之间的高阶关系。超图能够表达跨层次和跨位置的复杂关系，而非简单的相邻层信息融合。

2. 超图卷积：在构建超图后，HyperC2Net利用超图卷积在特征图上进行消息传播。通过这种方式，不同位置和层次的特征点可以相互传递信息，建模特征点之间的高阶关联，增强了模型对于复杂场景中目标的识别能力。特别是在跨位置特征交互方面，相比于传统的卷积操作，超图卷积能够捕捉到更广泛和复杂的特征关联。

总结

Hyper-YOLO通过引入超图计算方法，突破了传统YOLO模型在多尺度特征融合上的局限。超图的高阶关联建模能力使得HyperC2Net能够在跨层次和跨位置的信息传播中表现出色，不仅在特征点之间实现高效的信息聚合和分发，还通过跨层次的消息传递显著提升了目标检测性能，尤其在处理复杂场景和多目标检测任务中表现优异。

参考资料：

[1] Feng Y, Huang J, Du S, et al. Hyper-YOLO: When visual object detection meets hypergraph computation[J]. arXiv preprint arXiv:2408.04804, 2024.

[2] Feng Y, You H, Zhang Z, et al. Hypergraph neural networks[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 3558-3565.

[3] Gao Y, Feng Y, Ji S, et al. HGNN+: General hypergraph neural networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(3): 3181-3199.

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

27亿刀天价员工首个成果，谷歌版o1算出最难高考数学题！物理代码难题闪电秒解

刚刚，GPT开山一作被曝离职OpenAI！被Ilya感谢，ChatGPT无名英雄选择单飞

2025英伟达奖学金名单公布，7位华人入选！中科大浙大校友在列，人均6万美元

全球百模争霸，国产大模型拿下多个冠军！智源FlagEval全球评测榜单出炉

一键生成万字专利！中科院发布多智能体框架AutoPatent，含1933个「草稿-专利」数据对

Meta斯坦福全新多模态Apollo，60分钟视频轻松理解！7B性能超越30B

招人！新智元邀你勇闯ASI之巅

OpenAI开通ChatGPT热线了！美国电话就能打，老人机也能玩，15分钟免费

全球最强GPU订单曝光，TOP 1微软一年买爆近50万块！xAI晒首批GB200提前过年

28年数据枯竭？AI炼出数据飞轮2.0，智能体+多模态数据湖硬核掘金

AI改变数学的一年！黎曼假说、朗兰兹猜想，盘点2024年数学里程碑

全面超越CoT！Meta田渊栋团队新作：连续思维链

2025年，AI Agent还会是风口吗？11个问题揭秘智能体技术发展全貌

招人！新智元邀你勇闯ASI之巅

OpenAI圣诞第9天：满血o1 API放出，开发者大狂欢！实时API升级音频token暴降60%

Pika 2.0横扫Sora惊艳全网，一键颠覆广告业！上传自拍秒变好莱坞大片，和明星同框不是梦

用上AI，升职提前4年？清华等分析6790万篇论文：科学界收缩，不用AI的领域无人问津

稳定学习预后标志物，多种癌症生存曲线证实！清华最新成果登Nature顶级子刊

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

招人！新智元邀你勇闯ASI之巅

谷歌逆风翻盘暴击OpenAI，90天王者归来！44页报告押注25年三大技术前沿

举报人「自杀」，OpenAI表示震惊！NYU教授发长文悼念：警钟仍在回响

谷歌版Sora来了，4K高清暴击OpenAI！视频生图新卷王，更理解物理世界

ChatGPT搜索，全球免费！Her动嘴实时搜，暴打谷歌边聊边搜

北大开源全新图像压缩感知网络：参数量、推理时间大幅节省，性能显著提升 | 顶刊TPAMI

语言游戏让AI自我进化，谷歌DeepMind推出苏格拉底式学习

招人！新智元邀你勇闯ASI之巅

视频一键拆分PS层！DeepMind新模型效果碾压同级，物体、背景完美分离，还能脑补

图像领域再次与LLM一拍即合！idea撞车OpenAI强化微调，西湖大学发布图像链CoT

Nature再发招聘调查：学术界和工业界大不同，帮你避坑从简历到面试的N个细节

招人！新智元邀你勇闯ASI之巅

MIT教授NeurIPS歧视言论炸雷，中国女学生霸气反击！AI大佬集体痛斥，道歉信来了

OpenAI官方爆料，长文开怼马斯克：靠打官司实现不了AGI！

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI！估值180亿初创3年颠覆硅谷

招人！新智元邀你勇闯ASI之巅

「中美科技合作协定」终于续签！但AI半导体等关键技术却遭排除

Ilya向全世界宣布：预训练结束了！全球AI数据耗尽，超级智能才是未来

26岁OpenAI举报人疑自杀！死前揭ChatGPT训练黑幕

欧洲万亿美元科技巨头为0，被美国「泰坦」无情碾压！LeCun转评

招人！新智元邀你勇闯ASI之巅

ChatGPT「睁眼」了！OpenAI版「Her」满血上线，还有圣诞限定彩蛋

LSTM之父：我也是注意力之父！1991年就发表线性复杂度，遥遥领先Transformer 26年

再也不怕显存爆炸了！高效重建「几何精准」的大规模复杂三维场景，中科院提出CityGaussianV2

Meta公布黑科技：戴上腕带即可隔空打字，引领神经接口AR革命

招人！新智元邀你勇闯ASI之巅

ChatGPT崩溃4小时！DDL打工人、期末大学生全慌了

2024 ACL Fellow名单出炉！微软高剑峰等4位华人科学家入选

OpenAI深夜被狙，谷歌Gemini 2.0掀翻牌桌！最强智能体组团击毙o1

谷歌Gemini再添猛将！GPA 5.0毕业即DeepMind高级科学家，开挂博士给科研新人7点建议

超图计算+目标检测，性能新SOTA！清华发布Hyper-YOLO：用超图捕捉高阶视觉关联

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉