今天给大家推荐一个好发CCF-A的方向:多模态融合!
众所周知,多模态是当下的大趋势!而多模态融合则是其中的关键研究!它通过利用多个数据流之间的互补特性,融合不同类型的数据,在提高模型的准确性、鲁棒性、改善生成任务质量方面优势显著。自动驾驶、医疗影像、情感分析和人机交互等领域都离不开它。
但也面临设备性能限制、信息缺失和数据噪声等挑战。因而对它的研究成为了迫切需求,CVPR、NeurIPS、ACM等都有多篇成果!像是标注数据减少99.8%,性能依旧飙升的M3L;误差直降66%的ER-F2D……
目前主要的融合方法有:早期融合、深度融合、晚期融合、混合融合、Transformer时代的改进等。为方便大家研究的进行,每种方法,我都给大家准备了必读论文和源码,共26篇!
扫描下方二维码,回复「26多模融合」
免费获取全部论文合集及项目代码
早期融合
也被称为特征级融合。这种方法通过提取每种模态的特征,并在输入层面将它们合并,构建一个联合表示,并在此基础上进行分类。
Bridging the Gap between Multi-focus and Multi-modal: A Focused Integration Framework for Multi-modal Image Fusion
内容:论文提出了一个多模态图像融合(MMIF)框架,旨在解决多焦点和多模态图像融合中的挑战,特别是可见光图像与红外图像的融合问题。研究者们通过半稀疏平滑滤波器将图像分解为结构和纹理成分,然后利用多尺度算子融合纹理成分,并考虑像素焦点属性和不同模态图像中的相关信息。此外,还考虑了结构成分中能量信息的分布,以实现场景亮度的有效捕获和合理对比度的保持。实验结果表明,该算法在视觉感知和定量评估方面超越了现有的最先进方法。
深度融合
在特征提取阶段混合多模态数据以获得融合特征,通过其他模态补偿缺失特征,并在预测阶段应用融合特征执行分类或回归任务。
VoxelNextFusion: A Simple, Unified and Effective Voxel Fusion Framework for Multi-Modal 3D Object Detection
内容:文章提出了一个用于多模态3D目标检测的简单、统一且有效的体素融合框架。该框架通过将稀疏的激光雷达点云和丰富的图像特征结合起来,有效地弥合了这两种之间的差距,特别是在远距离检测方面表现出色。VoxelNextFusion通过提出一种基于体素的图像处理流程,包括将点云投影到图像上以获取像素级和块级特征,然后使用自注意力机制进行融合,以及一个特征重要性模块来区分前景和背景特征,从而提高了3D目标检测的性能。
扫描下方二维码,回复「26多模融合」
免费获取全部论文合集及项目代码
晚期融合
也称为决策级融合,是一种先对每种模态分别进行分析,然后将这些单模态决策整合成最终决策的方法。
M2Doc: A Multi-Modal Fusion Approach for Document Layout Analysis
内容:文章介绍了一种名为M2Doc的多模态融合方法,用于文档布局分析。M2Doc通过在像素级和块级对视觉和文本特征进行对齐和融合,提高了布局检测的性能。该方法包含两个可插拔的多模态融合模块,即早期融合和晚期融合,可以轻松应用于不同的检测器,包括两阶段和端到端的目标检测器。实验结果表明,M2Doc在DocLayNet和M6Doc等数据集上显著提升了检测器的性能,并与DINO检测器结合,在DocLayNet、M6Doc和PubLayNet数据集上取得了最先进的结果。
混合融合
通常将一个分支的决策级信息与来自其他分支的数据级或特征级信息结合起来,建立多个模态之间的级联关系。
MMBee:Live Streaming Gift-Sending Recommendations via Multi-Modal Fusion and Behaviour Expansion
内容:文章介绍了一个名为MMBee的模型,它通过实时多模态融合和行为扩展来预测直播流中的送礼行为。MMBee包含两个主要模块:一个可学习的查询多模态融合模块(MFQ)和一个图引导的兴趣扩展模块(GIE),它们共同作用于提高礼物通过率(GTR)预测的性能。MFQ模块处理直播流中的图像、文本评论和语音,而GIE模块则在大规模送礼图上学习用户和主播的表示,以解决送礼行为的稀疏性问题。MMBee在Kuaishou的真实世界数据集和公共数据集上都取得了显著的性能提升,并通过在线A/B测试进一步验证了其有效性。
Transformer时代的改进
DiaMond: Dementia Diagnosis with Multi-Modal Vision Transformers Using MRI and PET
内容:文章介绍了一个名为DiaMond的新型框架,它利用视觉Transformer(ViT)有效地整合了磁共振成像(MRI)和正电子发射断层扫描(PET)数据,以提高痴呆症的诊断准确性。DiaMond框架通过自注意力机制和一种新颖的双注意力机制来协同结合MRI和PET数据,并采用多模态归一化技术来减少冗余依赖,从而提升性能。在多个数据集上,DiaMond在阿尔茨海默病(AD)诊断、AD与轻度认知障碍(MCI)分类以及AD与额颞叶痴呆(FTD)的鉴别诊断中均取得了显著的性能提升。此外,文章还通过全面的消融研究验证了DiaMond的鲁棒性,并展示了其在不同人群中的公平性。
扫描下方二维码,回复「26多模融合」
免费获取全部论文合集及项目代码