NeurlPS 2024 Oral | 多模态融合检测端到端算法E2E-MFD来了！

文摘 2024-10-29 09:05 上海

点击下方卡片，关注计算机视觉Daily

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

E2E-MFD团队投稿
转载自：量子位（QbitAI）

恶劣天气下，自动驾驶汽车也能准确识别周围物体了？！

西安电子科大、上海AI Lab等提出多模态融合检测算法E2E-MFD，将图像融合和目标检测整合到一个单阶段、端到端框架中，简化训练的同时，提升目标解析性能。

相关论文已入选顶会NeurlPS 2024 Oral，代码、模型均已开源。

论文链接（非最终版本）：
https://arxiv.org/abs/2403.09323
代码链接：
https://github.com/icey-zhang/E2E-MFD

其中图像融合是指，把不同来源（比如可见光和红外相机）的图像合并成一张，这样就能在一张图像中同时看到不同相机捕捉到的信息；目标检测即找出并识别图像中的物体。

端到端意味着，E2E-MFD算法可以一次性处理这两个任务，简化训练过程。

而且，通过一种特殊的梯度矩阵任务对齐（GMTA）技术，这两个任务还能互帮互助，互相优化。

最终实验结果显示，E2E-MFD在信息传递、图像质量、训练时间和目标检测方面均优于现有方法。

E2E-MFD：多模态融合检测端到端算法

众所周知，精确可靠的目标解析在自动驾驶和遥感监测等领域至关重要。

仅依赖可见光传感器可能会导致在恶劣天气等复杂环境中的目标识别不准确。

可见光-红外图像融合作为一种典型的多模态融合（MF）任务，通过利用不同模态的信息互补来解决这些挑战，从而促进了多种多模态图像融合技术的快速发展。

诸如CDDFuse和DIDFuse方法采用两步流程：

首先训练多模态融合网络（MF），然后再训练目标检测（OD）网络，用来分别评估融合效果。

尽管深度神经网络在学习跨模态表征能力上取得了显著进展，并带来了多模态融合的良好结果，但大多数研究主要集中在生成视觉上吸引人的图像，而往往忽略了改进下游高级视觉任务的能力，如增强的目标解析。

最近的研究开始设计联合学习方法，将融合网络与目标检测和图像分割等高级任务结合在一起。

其中，多模态融合检测（MFD）方法中MF与OD的协同已成为一个活跃的研究领域。

这种协同作用使得MF能够生成更丰富、更有信息量的图像，从而提升OD的性能，而OD则为MF提供了有价值的目标语义信息，从而准确地定位和识别场景中的物体。

通常，MFD网络采用一种级联设计，其中联合优化技术使用OD网络来引导MF网络创建便于目标检测的图像。

但是依旧存在以下问题：

1）当前的优化方法依赖于多步骤、渐进的联合方法，影响训练效率；

2）这些方法过于依赖目标检测（OD）信息来增强融合，导致参数平衡困难并易于陷入单个任务的局部最优解。

因此，寻求一个统一的特征集，同时满足每个任务的需求，仍然是一项艰巨的任务。

为此，研究提出了一种名为E2E-MFD的端到端多模态融合检测算法。

（1）这是一种高效同步联合学习的方法，将图像融合和目标检测创新性地整合到一个单阶段、端到端的框架中，这种方法显著提升了这两项任务的成果。

（2）引入了一种新的GMTA技术，用于评估和量化图像融合与目标检测任务的影响，帮助优化训练过程的稳定性，并确保收敛到最佳的融合检测权重配置。

（3）通过对图像融合和目标检测的全面实验验证，展示了所提出方法的有效性和稳健性。在水平目标检测数据集M3FD和有向目标检测数据集DroneVehicle上与最先进的融合检测算法相比，E2E-MFD表现出强大的竞争力。

其整体架构如下：

展开来说，E2E-MFD通过同步联合优化，促进来自两个领域的内在特征的交互，从而实现简化的单阶段处理。

为了协调细粒度的细节与语义信息，又提出了一种全新的对象-区域-像素系统发育树（ORPPT）概念，并结合粗到细扩散处理（CFDP）机制。

该方法受视觉感知自然过程的启发，专为满足多模态融合（MF）和目标检测（OD）的具体需求而设计。

此外，研究引入了梯度矩阵任务对齐（GMTA）技术，以微调共享组件的优化，减少传统优化过程中固有的挑战。

这确保了融合检测权重的最优收敛，增强了多模态融合检测任务的准确性和有效性。

实验

实验细节

E2E-MFD在多个常用数据集（TNO、RoadScene、M3FD 和 DroneVehicle）上进行了实验，实验运行在一张 GeForce RTX 3090 GPU上。

模型基于PyTorch框架实现，部分代码在M3FD数据集上使用了Detectron2框架，并通过预训练的DiffusionDet初始化目标检测网络。

优化器采用AdamW，批量大小为1，学习率设为2.5×10⁻⁵，权重衰减为1e-4。

模型共训练了15,000次迭代。

在DroneVehicle数据集上，实验基于MMRotate 0.3.4框架，使用预训练的LSKNet模型进行初始化，并通过12个 epoch的微调进行优化，批量大小为4。

实验结果

研究提供了不同融合方法在TNO、RoadScene和M3FD数据集上的定量结果。

模型的训练（Tr.）和测试（Te.）时间均在NVIDIA GeForce RTX 3090上统计。

可以看出，E2E-MFD在MI指标上普遍获得了最佳度量值，表明其在信息传递方面比其他方法从两个源图像中提取了更多有用的信息。

EN值进一步显示，E2E-MFD能够生成包含清晰边缘细节且对象与背景对比度最高的图像。

较高的VIF值则表明，E2E-MFD的融合结果不仅具有高质量的视觉效果，同时在失真度方面较低。

此外，该方法的训练时间最快，表明在新的数据集上能够实现更快速的迭代更新。

生成融合图像的测试时间在所有方法中排名第三。

定性结果如下图所示，所有融合方法均在一定程度上融合了红外和可见光图像的主要特征，但E2E-MFD具备两个显著优势。

首先，它能够有效突出红外图像的显著特征，例如在M3FD数据集中，E2E-MFD捕捉到了骑摩托车的人员。

与其他方法相比，E2E-MFD展示了更高的物体对比度和识别能力。

其次，它保留了可见图像中的丰富细节，包括颜色和纹理。

在M3FD数据集中，E2E-MFD的优势尤为明显，比如能够清晰显示白色汽车的后部以及骑摩托车的人。

E2E-MFD在保留大量细节的同时，保持了图像的高分辨率，并且没有引入模糊现象。而其他方法则未能同时实现这些优势。

为了更有效地评估融合图像对下游检测任务的影响，研究在M3FD数据集上使用了YOLOv5s检测器对所有SOTA方法进行了测试，结果如表所示。

与单模态检测相比，SOTA方法在融合图像上的表现明显提升，表明良好融合的图像能够有效地支持下游检测任务。

E2E-MFD生成的融合图像在YOLOv5s检测器上表现最佳，同时在DiffusionDet检测器上也取得了出色的成绩。

即使与端到端目标检测方法（E2E-OD）相比，E2E-MFD的方法仍显示出了显著的性能提升，充分证明了其训练范式和方法的有效性。

检测结果的可视化如下图所示。

当仅使用单模态图像作为输入时，检测结果较差，常常漏检诸如摩托车和骑手等目标，尤其是在图像右侧靠近汽车和行人的区域。

几乎所有的融合方法都通过融合两种模态的信息，减少了漏检现象并提升了检测的置信度。

通过设计端到端的融合检测同步优化策略，E2E-MFD生成了在视觉上和检测上都非常友好的融合图像，尤其在处理遮挡和重叠的目标时表现出色，比如图像右侧蓝色椭圆中的摩托车和重叠的行人。

在DroneVehicle数据集上的目标检测定量结果多模态如表所示，E2E-MFD达到了最高的精度。

此外，使用生成的融合图像在YOLOv5s-OBB和LSKNet上进行检测时，较单一模态至少提高了5.7%和3.1%的AP值，验证了方法的鲁棒性。

这证明了融合图像的优异质量，表明它们不仅在视觉上令人满意，还为检测任务提供了丰富的信息。

小结

研究提出了多模态融合检测算法E2E-MFD，仅以单步训练过程同时完成融合和检测任务。

引入了一个系统发育树结构和粗到细扩散处理机制，来模拟在不同任务需求下，不同视觉感知中需要完成的这两项任务。

此外，研究对融合检测联合优化系统中的任务梯度进行了对齐，消除联合优化过程中两个任务的梯度优化冲突。

通过将模型展开到一个设计良好的融合网络和检测网络，可以以高效的方式生成融合与目标检测的视觉友好结果，而无需繁琐的训练步骤和固有的优化障碍。

更多细节欢迎查阅原论文。

作者主页：
https://icey-zhang.github.io/
https://yangxue0827.github.io/

绘图神器下载
后台回复：绘图神器，即可下载绘制神经网络结构的神器！
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
CVPR 2024 论文和代码下载
在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立
扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群
▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzU4OTg3Nzc3MA==&mid=2247496597&idx=2&sn=21769f7924ce46f141ccfa96c4ce237e

计算机视觉Daily

一个专注于计算机视觉开源项目的公众号，涵盖CV、传统图像处理、OpenCV、深度学习、机器学习代码实战和相关资料等内容

最新文章

Mamba作者点赞！清华团队深入分析长上下文建模中的状态崩溃

CVPR 2025 坐等Rebuttal，ICLR 2025和AAAI 2025投稿微信群来了！

突发！AI科学家重返谷歌！

微软亚洲研究院MSRA招聘实习生

AAAI 2025 开奖倒计时！CVPR 2025、ICLR 2025 投稿微信群来了！

重磅发布！最新版《深度学习》书籍开放下载

NeurIPS 2024 | 收敛加快8倍，准确率提升超30%！华科大提出MoE Jetpack框架

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

发一篇CVPR真不难

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

博士延毕，师兄终于毕业了。。。

NeurIPS 2024 Oral | 大模型量化新工作！4bit达到新SOTA！

ICLR 2025 分数出炉！附AAAI 2025和CVPR 2025投稿微信群

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

CVPR 2025 正式截稿！ICLR 2025和AAAI 2025投稿微信群成立！

突发！谷歌宣布35岁Keras之父Francois Chollet离职！

面完腾讯算法岗，心态崩了。。。

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

ICLR 2025 分数出炉！附ICLR 2025和CVPR 2025投稿微信群

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN：填补周期性特征建模缺陷

ICLR 2025 即将开分！ICLR 2025和CVPR 2025投稿微信群来了！

这本大模型书籍可以下载了！

即插即用！加速扩散Transformer！Meta提出自适应缓存新方法，视频生成加快2.6倍！

多模态大模型最新研究进展！OpenAI、谷歌、Meta和微软杀疯了！

AAAI 2025 分数出炉！附微信群！

顶刊TPAMI 2024！解耦图神经网络：同时训练多个简单的GNN，而不是一个！

AAAI 2025 即将开奖！附微信群！

Copilot一夜杀死编程助手！GitHub官宣接入Claude和谷歌Gemini！OpenAI沦为备胎。。。

AAAI 2025 投稿微信群成立！

10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成，比现有技术快100倍！

CVPR 2025 投稿微信群成立！

黄仁勋预言成真了！！

NeurlPS 2024 Oral | 多模态融合检测端到端算法E2E-MFD来了！

CVPR 2025 投稿交流群成立！

Transformer杀疯了！跨模态3D目标检测SOTA！易复现！

NeurIPS 2024 | 免训练！超强！FreeLong：长视频生成框架

CVPR 2025 投稿交流群来了！

LeCun锐评诺奖：出于压力才颁给AI，但两个成果已经完全无用！玻尔兹曼机和Hopefield网络

敲响警钟！首例大模型卷进青少年自杀案？明星AI创业公司面临诉讼。。。

ECCV 2024 | 谷歌提出LookupViT：全新通用视觉Transformer块

ICLR 2025 投稿交流群来了！

OpenAI满血版o1剧透：数学代码能力再破天花板！已开启测试评估！

ECCV 2024 | ClearCLIP：删除两个组件，可以提升语义分割性能！

AAAI 2025 投稿交流群成立！

Apple AI落后两年？库克回应：“不抢首发，只做最好”。。。

异常检测和缺陷检测微信群成立！

AI解决132年数学难题！Transformer成功寻找新的李雅普诺夫函数，三体问题相关

AAAI 2025 投稿交流群来了！

DenseNet作者刘壮官宣！将入职普林斯顿大学助理教授！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

NeurlPS 2024 Oral | 多模态融合检测端到端算法E2E-MFD来了！

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

E2E-MFD团队 投稿转载自：量子位（QbitAI）

E2E-MFD：多模态融合检测端到端算法

实验

实验细节

实验结果

小结

绘图神器下载

后台回复：绘图神器，即可下载绘制神经网络结构的神器！

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

▲扫码加入星球学习

整理不易，请赞和在看

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

E2E-MFD团队投稿
转载自：量子位（QbitAI）