大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

科技 2024-11-26 09:30 江苏

欢迎关注“

计算机视觉研究院

”

计算机视觉研究院专栏

使用常规深度神经网络到脉冲神经网络转换方法应用于脉冲神经网络域时，性能下降的很多，深入分析后提出了可能的解释：一是来自逐层归一化的效率低，二是用于leaky-ReLU函数的负激活缺乏表示。

1.前言

在过去的十年中，深度神经网络(DNNs)在各种应用中表现出显著的性能。当我们试图解决更艰难和最新的问题时，对计算和电力资源的需求增加已经成为不可避免的。

Spiking neural networks(SNNs)作为第三代神经网络，由于其事件驱动（event-driven）和低功率特性，引起了广泛的兴趣。

然而，SNN很难训练，主要是因为它们的神经元复杂的动力学和不可微的尖峰操作。此外，它们的应用仅限于相对简单的任务，如图像分类。

在今天的分享中，作者研究了SNN在一个更具挑战性的回归问题（即对象检测)。通过深入分析，引入了两种新的方法：channel-wise normalization和signed neuron with imbalanced threshold，这两种方法都为深度SNN提供了快速的信息传输。因此，提出了第一个基于尖峰的目标检测模型，称为Spiking-YOLO。

2.新框架贡献

尽管SNN有很多好处，但目前仅能处理相对简单的任务，由于神经元复杂的动态性以及不可导的操作，暂时没有一个可扩展的训练方法。DNN-to-SNN是近期广泛的SNN训练方法，该方法将目标DNN转化成SNN的中间DNN网络进行训练，然后转成SNN并复用其训练的参数，在小数据集分类上能达到不错的性能，但是在大数据集上分类结果不太理想
论文打算使用DNN-to-SNN转化方法将SNN应用到更复杂的目标检测领域中，图片分类只需要选择分类就好，而目标检测则需要神经网络进行高度准确的数字预测，难很多。在深入分析后，论文实现YOLO的转换主要面临以下两个问题：

常用的SNN归一化方法过于低效，导致脉冲发射频率过低。由于SNN需要设定阈值进行脉冲发射，所以要对权值进行归一化，这样有利于阈值的设定，而常用的SNN归一化方法在目标检测中显得过于低效，后面会详细阐述
在SNN领域，没有高效leaky-ReLU的实现，因为要将YOLO转换为SNN，YOLO中包含大量leaky-ReLU，这是很重要的结构，但目前还没有高效的转换方法

来自韩国的比较冷门或者前沿一点的文章，研究方向是脉冲神经网络（Spiking Neural Networks）与YOLO算法的融合，发现韩国人特别擅长对YOLO，SSD等算法进行魔改啊。

提出一种在深度SNN中能够进行快速精确信息传输的Spiking-YOLO算法。这是第一次将深度SNN成功应用于目标检测任务的工作；
为深度SNN开发了一种成为逐通道归一化的精细归一化技术。所提出的方法使得在多个神经元中更高的发射率成为可能，这促成了快速并且精确的信息传输；
提出了一种新颖的方法，其特点在于具有不平衡阈值的带符号神经元，这些神经元让SNNs中的leakyReLU得以实现。这给深度SNN应用于各种模型和应用创造了机会。

3.新框架

Channel-wise data-based normalization

在SNN中，根据输入的幅度产生脉冲序列进行无损的内容传递是极为重要的。但在固定时间，激活过度或激活不足的神经元内将可能导致内容损失，这和临界电压的设置有关。设置过高，神经元需要累积很长时间的电压才能发射脉冲，相反则会过多地发射脉冲。发射频率通常定义为，为个timestep的脉冲发射总数，最大的发射率为100%，即每个timestep都发射脉冲：

为了防止神经元的激活过度和激活不足，权值和临界电压都需要精心地选择。为此，很多研究提出了归一化的方法，比如常用的Layer-wise normalization(layer-norm)。该方法通过该层的最大化激活值来归一化层的权值，如上公式，和为权重，为输出特征图最大值。

经过归一化后，神经元的输出就归一到，方便设定临界电压。由于最大激活值从训练集得到的，所以测试集和训练集需要有相同的分布，但论文实验发现这种常规的归一化方法在目标检测任务上会导致明显的性能下降。

基于数据的逐通道归一化

传统的脉冲神经网络中，需要确保神经元根据其输入大小产生脉冲序列，其中权值和阈值电压分别负责神经元激活的充足度和平衡度，这会导致要么欠激活要么过激活，从而使信息丢失和性能不佳。

作者深入分析并证明了细粒度的通道正则化可以通过极小的激活来提高神经元的发射率。换句话说，非常小的激活被正确归一化，将在更短的时间内准确地传输信息。文章认为通道正则化的应用可以带来更快更准确的深度SNN，这将使深度SNN应用于更高级机器学习问题成为可能。

上图展示了通过layer-norm后的各层每个channel的最大激活值，蓝色和红色的线分别为每层的平均激活值和最小激活值。可以看到每层的归一化后的激活值偏差较大，总体而言，layer-norm使得神经元的channel偏向激活不足，这在仅需选择分类的图片分类任务是不被察觉的，但对于需要预测准确值的检测任务的回归则不一样。比如传递0.7，则需要在10个timestep脉冲7次，0.007则需要在1000timestep脉冲7次。当tempstep本身就很少时，过低的发射率可能会因发射不到足够的脉冲而导致信息丢失。

Proposed normalization method

整个流程如下：

具体的逻辑如上图和算法，channel-wise的归一化方法能够消除激活值特别小的问题，即得到更高但合适的发射频率，在短时间内也能准确地传递信息。

Signed neuron featuring imbalanced threshold

具有不平衡阈值特征的带符号神经元

引入了一种具有不平衡阈值（即IBT）的带符号神经元，它不仅可以对正负激活进行解释，还可以对leakyReLU负激活值区域的渗漏项进行补偿。如下图所示，作者增加了另外一个Vth负责对负激活响应。

其中，具有IBT的带符号神经元的基本动力学公式如下所示。

通过使用上述具有IBT的带符号神经元，可以在SNN中使用leakyReLU，从而将各种DNN模型转换为广泛应用的SNN。

4.实验结果与评估

作者使用Tiny YOLO的实时目标检测模型，在脉冲神经网络中实现最大池化层和BN层。模型在PASCAL VOC2007和2012上训练，在PASCAL VOC2007上测试。所有代码基于Tensorflow Eager框架，在V100的GPU上进行实验。

文章通过实验的设计验证并分析了使用通道正则化和有符号神经元的IBT存在的用处。如下图所示，当通道正则化和有符号神经元都使用时，脉冲-YOLO能够达到51.61%的mAP，这个性能比较高了。

此外，逐层正则化的mAP仅仅46.98%，而通道正则化优势明显，收敛速度也更快。如果不使用本文提出的这两种方法，Spiking-YOLO无法检测目标，如果仅仅使用有符号神经元的话，mAP仅仅7.3%，这表明有符号神经元可以补偿leakyReLU的不足项，并且在解决深度SNN中这种高数值精度问题中起着关键作用。

在上图中，作者还在两种输出编码方案上进行了额外的对比实验，一种基于累计Vth，一种基于脉冲数量。实验结果表明基于Vth的输出编码方案在解释尖峰序列时将更精确，也体现出收敛更快的特点。

实验的目的是无损地将Tiny-YOLO的转移为SNN，结果如上图所示，使用channel-norm和IBT能有效地提升性能，且使用的timestep更少。

作者尝试了不同的解码方式，分别为膜电压和脉冲数，由于脉冲数的余数要舍弃，这会带来误差和信息损失，所以基于膜电压进行解压会更准确。

5.总结

在今天分享中，作者提出了Spiking-YOLO，第一个SNN模型，通过在non-trivial datasets、PASCALVOC和MSCO上获得与原始DNN相似的结果来成功地执行目标检测。

我认为，这项研究代表了解决深度SNN中更高级的机器学习问题的第一步。

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

计算机视觉研究院

长按扫描二维码关注我们

回复“SYolo”获取论文

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

独自一人，怒发顶会！

除了Yolo的其他选择，轻量级检测网络层出不穷（框架解析及部署实践）

AI顶会ICML收了一篇论文：没算法没实验，全靠idea思路好

QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）

YoloV：视频中目标实时检测依然很棒（附源代码下载）

图像自适应YOLO：恶劣天气下的目标检测（附源代码）

ResNet超强变体：京东AI新开源的计算机视觉模块！（附源代码）

最高加速9倍！字节跳动开源8比特混合精度Transformer引擎

水下检测+扩散模型：或成明年CVPR最大惊喜！

2024新技术：远距离的小目标也可以准确检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

欢迎加入“计算机视觉研究院”学习群

机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

视觉语言大模型新SOTA！高效微调方法性能碾压LoRA

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

旋转角度目标检测的重要性！！！（附源论文下载）

245个目标检测开源项目合集，建议收藏！

新技术：高效的自监督视觉预训练，局部遮挡再也不用担心！

最近几篇较好论文实现代码（附源代码下载）

华科&字节提出目标感知基础模型GLEE，一统所有目标感知任务

比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

NeurIPS 2024｜杜克大学&谷歌提出SLED解码框架，无需外部数据与额外训练，有效缓解大语言模型幻觉，提高事实准确性

ICLR'25 惊现满分论文！！！走对捷径，高分论文并不难

大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

EdgeYOLO：边缘设备上实时运行的目标检测器及Pytorch实现

实用教程详解：模型部署，用DNN模块部署YOLOv5目标检测（附源代码）

半监督辅助目标检测：自训练+数据增强提升精度（附源码下载）

为什么制造业都在用低代码提效？

欢迎加入“计算机视觉研究院”学习群

从源头消除大模型“幻觉”，性价比吊打传统微调方法

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

旋转角度目标检测的重要性！！！（附源论文下载）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

最后征稿+连续8届检索 | 第九届控制工程与人工智能国际会议(CCEAI 2025)会议地点已定！

智慧建筑：基于YOLOv7的建筑外墙缺陷检测

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

欢迎加入“计算机视觉研究院”学习群

年薪百万or惨遭裁员，AIGC开发者如何破局？

陈天奇团队LLM结构化生成新引擎XGrammar：百倍加速、近零开销

2024全球无人机市场洞察报告

粉丝福利！免费赠书中奖名单

凭什么YOLO是最强目标检测器，一文读懂！

大改Yolo框架 | 能源消耗极低的目标检测新框架（附论文下载）

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

史上最通俗易懂的YOLO系列（v1-v10）模型解读！

更快、更灵活的Transformer图像去雾网络

“计算机视觉研究院”商务合作

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉