首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

NeurlPS 2024 Oral｜多模态融合检测端到端算法E2E-MFD来了！

科技 2024-10-29 22:00 广东

↑ 点击蓝字关注极市平台

作者丨E2E-MFD团队

来源丨量子位

编辑丨极市平台

极市导读

西安电子科大、上海AI Lab等提出多模态融合检测算法E2E-MFD，将图像融合和目标检测整合到一个单阶段、端到端框架中，简化训练的同时，提升目标解析性能。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

恶劣天气下，自动驾驶汽车也能准确识别周围物体了？！

西安电子科大、上海AI Lab等提出多模态融合检测算法E2E-MFD，将图像融合和目标检测整合到一个单阶段、端到端框架中，简化训练的同时，提升目标解析性能。

相关论文已入选顶会NeurlPS 2024 Oral，代码、模型均已开源。

论文链接（非最终版本）：
https://arxiv.org/abs/2403.09323

代码链接：
https://github.com/icey-zhang/E2E-MFD

其中图像融合是指，把不同来源（比如可见光和红外相机）的图像合并成一张，这样就能在一张图像中同时看到不同相机捕捉到的信息；目标检测即找出并识别图像中的物体。

端到端意味着，E2E-MFD算法可以一次性处理这两个任务，简化训练过程。

而且，通过一种特殊的梯度矩阵任务对齐 （GMTA） 技术，这两个任务还能互帮互助，互相优化。

最终实验结果显示，E2E-MFD在信息传递、图像质量、训练时间和目标检测方面均优于现有方法。

E2E-MFD：多模态融合检测端到端算法

众所周知，精确可靠的目标解析在自动驾驶和遥感监测等领域至关重要。

仅依赖可见光传感器可能会导致在恶劣天气等复杂环境中的目标识别不准确。

可见光-红外图像融合作为一种典型的多模态融合（MF）任务，通过利用不同模态的信息互补来解决这些挑战，从而促进了多种多模态图像融合技术的快速发展。

诸如CDDFuse和DIDFuse方法采用两步流程：

首先训练多模态融合网络（MF），然后再训练目标检测（OD）网络，用来分别评估融合效果。

尽管深度神经网络在学习跨模态表征能力上取得了显著进展，并带来了多模态融合的良好结果，但大多数研究主要集中在生成视觉上吸引人的图像，而往往忽略了改进下游高级视觉任务的能力，如增强的目标解析。

最近的研究开始设计联合学习方法，将融合网络与目标检测和图像分割等高级任务结合在一起。

其中，多模态融合检测（MFD）方法中MF与OD的协同已成为一个活跃的研究领域。

这种协同作用使得MF能够生成更丰富、更有信息量的图像，从而提升OD的性能，而OD则为MF提供了有价值的目标语义信息，从而准确地定位和识别场景中的物体。

通常，MFD网络采用一种级联设计，其中联合优化技术使用OD网络来引导MF网络创建便于目标检测的图像。

但是依旧存在以下问题：

1）当前的优化方法依赖于多步骤、渐进的联合方法，影响训练效率；

2）这些方法过于依赖目标检测（OD）信息来增强融合，导致参数平衡困难并易于陷入单个任务的局部最优解。

因此，寻求一个统一的特征集，同时满足每个任务的需求，仍然是一项艰巨的任务。

为此，研究提出了一种名为E2E-MFD的端到端多模态融合检测算法。

（1）这是一种高效同步联合学习的方法，将图像融合和目标检测创新性地整合到一个单阶段、端到端的框架中，这种方法显著提升了这两项任务的成果。

（2）引入了一种新的GMTA技术，用于评估和量化图像融合与目标检测任务的影响，帮助优化训练过程的稳定性，并确保收敛到最佳的融合检测权重配置。

（3）通过对图像融合和目标检测的全面实验验证，展示了所提出方法的有效性和稳健性。在水平目标检测数据集M3FD和有向目标检测数据集DroneVehicle上与最先进的融合检测算法相比，E2E-MFD表现出强大的竞争力。

其整体架构如下：

展开来说，E2E-MFD通过同步联合优化，促进来自两个领域的内在特征的交互，从而实现简化的单阶段处理。为了协调细粒度的细节与语义信息，又提出了一种全新的对象-区域-像素系统发育树 （ORPPT）概念 ，并结合粗到细扩散处理 （CFDP）机制 。

该方法受视觉感知自然过程的启发，专为满足多模态融合（MF）和目标检测（OD）的具体需求而设计。

此外，研究引入了梯度矩阵任务对齐（GMTA）技术，以微调共享组件的优化，减少传统优化过程中固有的挑战。

这确保了融合检测权重的最优收敛，增强了多模态融合检测任务的准确性和有效性。

实验

实验细节

展开来说，E2E-MFD通过同步联合优化，促进来自两个领域的内在特征的交互，从而实现简化的单阶段处理。为了协调细粒度的细节与语义信息，又提出了一种全新的对象-区域-像素系统发育树 （ORPPT）概念 ，并结合粗到细扩散处理 （CFDP）机制 。

实验结果

研究提供了不同融合方法在TNO、RoadScene和M3FD数据集上的定量结果。

模型的训练（Tr.）和测试（Te.）时间均在NVIDIA GeForce RTX 3090上统计。

可以看出，E2E-MFD在MI指标上普遍获得了最佳度量值，表明其在信息传递方面比其他方法从两个源图像中提取了更多有用的信息。

EN值进一步显示，E2E-MFD能够生成包含清晰边缘细节且对象与背景对比度最高的图像。

较高的VIF值则表明，E2E-MFD的融合结果不仅具有高质量的视觉效果，同时在失真度方面较低。

此外，该方法的训练时间最快，表明在新的数据集上能够实现更快速的迭代更新。

生成融合图像的测试时间在所有方法中排名第三。

定性结果如下图所示，所有融合方法均在一定程度上融合了红外和可见光图像的主要特征，但E2E-MFD具备两个显著优势。

首先，它能够有效突出红外图像的显著特征，例如在M3FD数据集中，E2E-MFD捕捉到了骑摩托车的人员。

与其他方法相比，E2E-MFD展示了更高的物体对比度和识别能力。

其次，它保留了可见图像中的丰富细节，包括颜色和纹理。

在M3FD数据集中，E2E-MFD的优势尤为明显，比如能够清晰显示白色汽车的后部以及骑摩托车的人。

E2E-MFD在保留大量细节的同时，保持了图像的高分辨率，并且没有引入模糊现象。而其他方法则未能同时实现这些优势。

为了更有效地评估融合图像对下游检测任务的影响，研究在M3FD数据集上使用了YOLOv5s检测器对所有SOTA方法进行了测试，结果如表所示。

与单模态检测相比，SOTA方法在融合图像上的表现明显提升，表明良好融合的图像能够有效地支持下游检测任务。

E2E-MFD生成的融合图像在YOLOv5s检测器上表现最佳，同时在DiffusionDet检测器上也取得了出色的成绩。

即使与端到端目标检测方法（E2E-OD）相比，E2E-MFD的方法仍显示出了显著的性能提升，充分证明了其训练范式和方法的有效性。

检测结果的可视化如下图所示。

当仅使用单模态图像作为输入时，检测结果较差，常常漏检诸如摩托车和骑手等目标，尤其是在图像右侧靠近汽车和行人的区域。

几乎所有的融合方法都通过融合两种模态的信息，减少了漏检现象并提升了检测的置信度。

通过设计端到端的融合检测同步优化策略，E2E-MFD生成了在视觉上和检测上都非常友好的融合图像，尤其在处理遮挡和重叠的目标时表现出色，比如图像右侧蓝色椭圆中的摩托车和重叠的行人。

在DroneVehicle数据集上的目标检测定量结果多模态如表所示，E2E-MFD达到了最高的精度。

此外，使用生成的融合图像在YOLOv5s-OBB和LSKNet上进行检测时，较单一模态至少提高了5.7%和3.1%的AP值，验证了方法的鲁棒性。

这证明了融合图像的优异质量，表明它们不仅在视觉上令人满意，还为检测任务提供了丰富的信息。

小结

研究提出了多模态融合检测算法E2E-MFD，仅以单步训练过程同时完成融合和检测任务。

引入了一个系统发育树结构和粗到细扩散处理机制，来模拟在不同任务需求下，不同视觉感知中需要完成的这两项任务。

此外，研究对融合检测联合优化系统中的任务梯度进行了对齐，消除联合优化过程中两个任务的梯度优化冲突。

通过将模型展开到一个设计良好的融合网络和检测网络，可以以高效的方式生成融合与目标检测的视觉友好结果，而无需繁琐的训练步骤和固有的优化障碍。

更多细节欢迎查阅原论文。

作者主页：
https://icey-zhang.github.io/
https://yangxue0827.github.io/

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

http://mp.weixin.qq.com/s?__biz=MzI5MDUyMDIxNA==&mid=2247698411&idx=2&sn=9a384594243dd8d7ef7c617ad82c9aac

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

最新文章

DuoDiff: 提升浅层 Transformer 性能的扩散模型，双 Backbone 件扩散模型在图像处理中的应用！

Windows + VSCode 配置 OpenCV C++ 一站式开发调试环境教程

我为什么离开OpenAI？六年元老发离职长文：AGI将至，我们远没准备好

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

NeurIPS 2024｜RoPINN: 局域优化的物理信息神经网络，PINN的新训练范式

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer-GameGen-X

NeurIPS 2024｜观物取象，穷理尽性：从视觉观测中推理物理运动规律

vLLM这一年的新特性以及后续规划（总结版!）

中国断臂女子，拿到了这场「赛博奥运会』的冠军！人机共生的时代已来

精英齐聚芜湖，大赛成果分享｜邀您参加2024长三角（芜湖）算力算法创新应用大赛颁奖典礼！

复旦提出 CTA-Net：卷积与Transformer的协同，通过轻量级多尺度特征融合提升视觉识别！

NeurIPS 2024｜浙大、微信提出精确反演采样器新范式，彻底解决扩散模型反演问题

90后上海女生，成美国数学大奖首位女性华人得主！获评委陶哲轩盛赞

finetune后的模型参数，还可以继续怎么玩？

ECCV'24｜SAM4MLLM：结合多模态大型语言模型和SAM实现高精度引用表达分割

CPU也能跑模型：OpenVINO模型部署入门教程

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

TPAMI 2024｜解耦图神经网络：同时训练多个简单的GNN而不是一个

ECCV 2024｜谷歌提出LookupViT：全新通用视觉Transformer块

只要两张3090就可复现！Vision Search Assistant开源：VLM与Web搜索能力的巧妙结合

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

NeurIPS 2024｜浙大/微信/清华提出：彻底解决扩散模型反演问题

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了

实践教程｜CUDA C++编程指北-编程接口与硬件实现

刚刚，阿里全球数学竞赛决赛结果公布，姜萍违反预选赛规则未获奖

从0开始用 PyTorch 构建完整的 NeRF

NeurIPS 2024｜自监督湍流分析，减少99%标注数据需求

边缘检测算法综合指南

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

100+深度学习各方向数据集资源大盘点

CLIPFit：不绕弯子，直接微调比提示微调和适配器微调更好｜EMNLP'24

NeurIPS 2024｜机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

融合 Mamba 与 Transformer｜MaskMamba 引领非自回归图像合成,推理速度提升 54.44% !

NeurIPS2024｜提高专业生产力，让你的AI画作布局可控，360 AI Research开源新模型HiCo

如何优雅地测量GPU CUDA Kernel耗时？

全球最大AI超算内部首次曝光！马斯克19天神速组装10万块H100，未来规模还将扩大一倍

一文看完多模态：从视觉表征到多模态大模型

NeurIPS 2024｜字节联合华师提出统一的多模态文字理解与生成大模型

零基础万字长文实践diffusion模型

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

NeurlPS 2024 Oral｜多模态融合检测端到端算法E2E-MFD来了！

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

ECCV 2024｜SegVG：刷新视觉定位新SOTA！将视觉定位的目标边界框转化为分割信号

NeurIPS 2024｜TextHarmony: 基于统一架构的视觉文本理解与生成模型

全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

陶哲轩神预言！Transformer破解百年三体难题，凭数学直觉找到李雅普诺夫函数

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉