论文速递｜追踪多模态机器学习领域最新研究动态！

文摘 2024-08-20 17:56 英国

点击上方蓝字关注我们

多模态机器学习最新论文分享

多模态机器学习与大模型专注于分享、推荐多模态大语言模型领域的前沿论文成果，本期精选了近一周内（2024年8月13日-2024年8月19日）最新发布的多模态机器学习相关论文，便于读者交流与学习～本期论文的关键词集中于多模态表示、模态对齐、多模态融合、多模态目标检测、多模态大语言模型、多模态视觉文本数学推理、模态缺失、多模态医学图像分割、多模态信息压缩等

1

标题: Prompt Learning for Multimodal Intent Recognition with Modal Alignment Perception

论文链接：

https://link.springer.com/article/10.1007/s12559-024-10328-7

摘要： 多模态意图识别分析是在现实世界的多模态环境中通过语音、肢体动作、语调和其他模态理解用户意图的关键任务。然而，由于模态内和跨模态意图的隐藏性，大多数现有方法在挖掘和整合多模态意图信息方面仍然存在局限性。本文提出了一种基于模态对齐感知的快速学习 (PMAP) 方法来应对这些挑战。首先，为了挖掘深层语义信息，构建意图模板进行快速学习以增强文本表示。然后，利用跨模态对齐感知来消除模态差异，同时从非文本模态中挖掘一致的隐藏意图信息。通过多模态语义交互，对文本在语义空间中的位置进行微调，从而有效地聚合来自多个模态的意图细节。

2

标题: Graph and text multi-modal representation learning with momentum distillation on Electronic Health Records

论文链接：

https://doi.org/10.1016/j.knosys.2024.112373

代码链接：

https://github.com/deepEMR/GTMMRL

摘要： 电子健康记录 (EHR) 在现代医疗保健系统中的出现和广泛采用产生了大量数据，这些数据有可能显著改善患者的治疗效果。然而，由于 EHR 数据量巨大且本身就很复杂，目前对医疗代码中隐藏的图形结构和非结构化文本之间的多模态关系的研究忽视了固有的差异和不一致。为了解决这一重大差距，本文引入了一种预训练方法，称为基于电子健康记录的 动量蒸馏的图形和文本多模态表示学习 (GTMMRL) 。这种方法使用大型开源 EHR 数据集 MIMIC-III 进行预训练，解决了标签嘈杂且不可靠的问题。采用了五个精心挑选的代理任务，每个任务都通过教师模型生成的伪目标来指导学生模型的学习，这是学生模型的指数移动平均值，从而减轻了过度拟合的趋势。

3

标题: Disentangled variational auto-encoder for multimodal fusion performance analysis in multimodal sentiment analysis

论文链接：

https://doi.org/10.1016/j.knosys.2024.112372

摘要： 多模态情绪分析 (MSA) 具有广泛的适用性，因为它能够通过整合来自多种模态的互补信息来分析和解释用户的情绪、感受和观点。然而，低效和不平衡的跨模态信息融合严重损害了 MSA 模型的准确性和可靠性。本文提出了一种基于解缠结的变分自编码器 (Disentanglement-based Variable Auto-Encoder, DVAE)，用于系统地评估融合性能并研究促进多模态融合的因素。具体而言，提出了一个分布约束模块来解耦融合矩阵并生成多个低维且可信的解缠结潜向量，这些向量遵循真实的单模态输入分布。此外，修改了组合损失项以有效平衡归纳偏差、信号重构和分布约束项，以促进神经网络权重和参数的优化。利用所提出的评估方法，我们可以通过对比解缠隐表示和联合表示得到的分类退化率来评估多模态模型的融合效果。在 CMU-MOSEI 和 CMU-MOSEI 基准数据集上使用八种最先进的多模态融合方法进行的实验表明，DVAE 能够有效地评估多模态融合的效果。

4

标题: KCDNet: Multimodal Object Detection in Modal Information Imbalance Scenes

论文链接：

https://ieeexplore.ieee.org/document/10632179

摘要： 受人类使用多种感官感知世界的启发，多模态目标检测方法能够通过整合不同模态的信息来适应环境。然而，由于数据采集仪器和测量方式的差异，不同模态容易表现出明显的模态异质性，这种异质性导致同一场景下不同模态所包含的任务相关信息量存在明显差异，即模态信息不平衡场景。针对该问题，我们创新性地将模态信息不平衡分为局部模态信息不平衡和全局模态信息不平衡两类，并有针对性地提出了一种知识互补检测网络（KCDNet）。具体而言，首先设计了信息熵评估机制，通过量化多模态数据中任务相关信息量来实现模态信息不平衡的识别；其次设计了知识互补机制，通过类别知识互补和空间知识互补来缓解局部模态信息不平衡，从而抑制模态间信息干扰。最后，提出动态平衡机制，在模型学习过程中动态监控和平衡模型对不同模态的偏好，以缓解全局模态信息不平衡。上述操作可以保证多模态特征学习的同步，并提高模型挖掘互补信息的能力。各种物体检测器的适用性表明，KCDNet 的表现明显优于现有的最佳方法。

5

标题: mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

论文链接：

https://arxiv.org/pdf/2408.04840

摘要： 多模态大型语言模型 (MLLM) 在执行各种单图像任务的指令方面表现出了卓越的能力。尽管取得了这些进展，但在对长图像序列进行建模方面仍然存在重大挑战。在这项工作中，我们引入了多功能多模态大型语言模型 mPLUG-Owl3，它增强了在结合检索到的图像文本知识、交错的图像文本和长视频的场景中对长图像序列的理解能力。具体而言，我们提出了新的超注意力模块，以有效地将视觉和语言整合到一个共同的语言引导的语义空间中，从而促进扩展的多图像场景的处理。大量的实验结果表明，mPLUG-Owl3 在单图像、多图像和视频基准上实现了与尺寸相似的模型中最先进的性能。此外，我们提出了一项具有挑战性的长视觉序列评估，称为“干扰抵抗力” ，以评估模型在干扰中保持专注的能力。最后，基于所提出的架构，mPLUG-Owl3 在超长视觉序列输入上表现出色。我们希望 mPLUG-Owl3 能够为开发更高效、更强大的多模态大型语言模型做出贡献。

6

标题: GroundingGPT: Language Enhanced Multi-modal Grounding Model

论文链接：

https://aclanthology.org/2024.acl-long.360.pdf

代码链接：

https://lzw-lzw.github.io/GroundingGPT.github.io/

摘要： 多模态大型语言模型 (MLLM) 在各种任务中都表现出色。然而，这些模型通常优先捕获全局信息，而忽略了感知局部信息的重要性。这种限制阻碍了它们有效理解细粒度细节和处理需要细致理解的基础任务的能力。尽管最近的一些研究在这方面取得了进展，但它们主要集中在单模态输入上。因此，我们提出了GroundingGPT，一种端到端语言增强的多模态基础模型。它旨在为三种模态执行细粒度的基础任务：图像、视频和音频。为了提高模型的性能，我们采用了由粗到细的训练策略，利用三阶段训练方法逐步增强模型的语义感知和细粒度理解能力。此外，我们采用了多样化的阶段特定数据集构建管道，开发了一个多模态、多粒度的数据集，用于在不同阶段训练模型。在多个多模态基准上进行的大量实验表明，我们的模型实现了对多模态输入的细粒度理解，同时保持或提高了其全局理解能力。

7

标题: DeepInteraction++: Multi-Modality Interaction for Autonomous Driving

论文链接：

https://arxiv.org/pdf/2408.05075

代码链接：

https://github.com/fudan-zvg/DeepInteraction

摘要： 现有的顶级自动驾驶系统通常依靠多模态融合策略来实现可靠的场景理解。然而，由于忽略了特定模态的优势，这种设计从根本上受到了限制，并最终阻碍了模型性能。为了解决这一限制，在这项工作中，我们引入了一种新颖的模态交互策略，允许在整个过程中学习和维护单个模态表示，从而能够在整个感知管道中利用它们的独特特性。为了证明所提策略的有效性，我们设计了 **DeepInteraction++**，这是一个多模态交互框架，其特点是多模态表征交互编码器和多模态预测交互解码器。具体而言，编码器实现为双流 Transformer，具有专门的注意操作，用于不同模态特定表示之间的信息交换和集成。我们的多模态表征学习结合了以对象为中心、基于精确采样的特征对齐和全局密集信息传播，这对于更具挑战性的规划任务至关重要。解码器旨在通过以统一的模态无关方式交替聚合来自不同表示的信息来迭代细化预测，实现多模态预测交互。大量实验证明了所提出的框架在 3D 物体检测和端到端自动驾驶任务上的卓越性能。

8

标题: VITA: Towards Open-Source Interactive Omni Multimodal LLM

论文链接：

https://arxiv.org/pdf/2408.05211

代码链接：

https://vita-home.github.io/

摘要： GPT-4o 卓越的多模态能力和交互体验凸显了它们在实际应用中的必要性，但开源模型很少在这两个方面都表现出色。本文介绍了第一个开源多模态大型语言模型 (MLLM) VITA，它擅长同时处理和分析视频、图像、文本和音频模态，同时具有先进的多模态交互体验。从 Mixtral 8×7B 作为语言基础开始，扩展了它的中文词汇量，然后进行了双语指令调整。通过多模态对齐和指令调整的两阶段多任务学习，进一步赋予语言模型视觉和音频功能。VITA 展示了强大的多语言、视觉和音频理解基础能力，这一点从它在一系列单模态和多模态基准测试中的强劲表现可以看出。除了基础能力之外，我们在增强自然多模态人机交互体验方面取得了长足的进步。据我们所知，我们是第一个在MLLM中利用非唤醒交互和音频中断的人。 我们设计了额外的状态标记以及相应的训练数据和策略来感知各种交互场景。VITA的部署采用双工方案，其中一个模型负责生成对用户查询的响应，另一个模型持续跟踪环境输入，有选择地输出具有更新交互的新响应。这使得VITA具有令人印象深刻的人机交互功能，例如非唤醒交互和音频中断交互。VITA是开源社区探索多模态理解和交互无缝集成的第一步。虽然在VITA上还有很多工作要做才能接近同行，但我们希望它作为先驱者的角色可以成为后续研究的基石。

9

标题: Revisiting Multi-Modal LLM Evaluation

论文链接：

https://arxiv.org/pdf/2408.05334

代码链接：

https://kevinlujian.github.io/MLLM_Evaluations/

摘要： 随着多模态大型语言模型 (MLLM) 的出现，用于视觉问答 (VQA) 和指称表达理解的数据集重新流行起来。然而，用于评估 MLLM 的最流行的数据集是一些最早创建的数据集，它们存在许多已知问题，包括极端偏见、虚假相关性以及无法进行细粒度分析。在本文中，我们率先在旨在解决早期 MLLM 弱点的数据集上评估了最近的MLLM (LLaVA 1.5、LLaVANeXT、BLIP2、InstructBLIP、GPT-4V 和 GPT-4o)。我们评估了三个 VQA 数据集：1) TDIUC，它允许对 12 种问题类型进行细粒度分析；2) TallyQA，它有简单和复杂的计数问题；3) DVQA，它需要光学字符识别才能理解图表。我们还研究了 VQDv1，这是一个需要识别满足给定查询的所有图像区域的数据集。实验揭示了许多以前未曾报道过的 MLLM 的弱点。我们的代码集成到广泛使用的 LAVIS 框架中，用于 MLLM 评估，从而能够快速评估未来的 MLLM。

10

标题: CROME: Cross-Modal Adapters for Efficient Multimodal LLM

论文链接：

https://arxiv.org/pdf/2408.06610

摘要： 多模态大语言模型 (MLLM) 展示了卓越的图像语言能力，但它们的广泛使用面临着成本效益训练和适应方面的挑战。现有方法通常需要昂贵的语言模型再训练和有限的适应性。此外，当前对零样本性能改进的关注不足以为特定任务的调整提供足够的指导。我们提出了 CROME，一种高效的视觉语言指令调整框架。它具有一种新颖的门控跨模态优化器，可在输入冻结的 LLM 之前有效地结合视觉和文本表示。这种轻量级优化器经过最少参数训练，可实现高效的跨模态理解。值得注意的是，CROME 在标准视觉问答和指令跟踪基准上表现出色。此外，它以出色的参数效率实现微调，可与特定任务专家的最先进的方法相媲美。CROME 展示了pre-LM 对齐在构建可扩展、适应性强且参数高效的多模态模型方面的潜力。

11

标题: MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark

论文链接：

https://arxiv.org/pdf/2408.07543

代码链接：

https://github.com/PKU-BaichuanMLSystemLab/MathScape

摘要： 随着多模态大语言模型 (MLLM) 的发展，在数学问题背景下对多模态模型的评估已成为一个有价值的研究领域。多模态视觉文本数学推理是评估 MLLM 的理解能力和复杂的多步骤定量推理能力的关键指标。然而，以前的多模态数学基准测试没有充分整合视觉和文本信息。为了弥补这一差距，我们提出了 MathScape，这是一个新的基准测试，强调对视觉和文本信息的综合理解和应用。MathScape 旨在评估基于照片的数学问题场景，通过分类分层方法评估 MLLM 的理论理解和应用能力。

12

标题: Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach

论文链接：

https://arxiv.org/pdf/2408.07445

摘要： 多模态网络与单模态网络相比，性能有了显著提升。现有的多模态网络采用多分支方式设计，由于依赖融合策略，如果缺少一个或多个模态，性能会下降。本文提出了一种模态不变的多模态学习方法，该方法不易受到缺失模态的影响。它由一个跨多个模态共享权重的单分支网络组成，以学习模态间表示，从而最大限度地提高性能以及对缺失模态的鲁棒性。在四个具有挑战性的数据集上进行了广泛的实验，包括文本-视觉（UPMC Food-101、Hateful Memes、Ferramenta）和视听模态（VoxCeleb1）。与现有的最先进方法相比，所提出的方法在所有模态都存在以及在训练或测试期间缺少模态的情况下都实现了卓越的性能。

13

标题: Robust Semi-supervised Multimodal Medical Image Segmentation via Cross Modality Collaboration

论文链接：

https://arxiv.org/pdf/2408.07341

代码链接：

https://github.com/med-air/CMC

摘要： 多模态学习利用来自不同模态的互补信息，从而提高医学图像分割的性能。然而，现行的多模态学习方法严重依赖来自各种模态的大量注释良好的数据来实现准确的分割性能。由于此类数据的可用性有限，这种依赖性在临床环境中往往带来挑战。此外，不同成像模态之间固有的解剖错位进一步使提高分割性能的努力复杂化。为了解决这个问题，我们提出了一种新颖的半监督多模态分割框架，该框架对稀缺的标记数据和错位模态具有鲁棒性。该框架采用一种新颖的跨模态协作策略来提取与每种模态固有相关的模态独立知识，并将这些信息集成到统一的融合层中以进行特征融合。通过通道语义一致性损失，所提出框架确保从跨模态的特征角度对齐模态独立信息，从而增强其在多模态场景中的错位能力。此外，该框架有效地整合了对比一致性学习来调节解剖结构，促进了半监督分割任务中未标记数据的解剖预测对齐。与其他多模态方法相比，我们的方法在三个任务中实现了竞争性的性能：心脏、腹部多器官和甲状腺相关眼眶病分割。它还在涉及稀缺标记数据和错位模态的场景中表现出色。

14

标题: Learned Multimodal Compression for Autonomous Driving

论文链接：

https://arxiv.org/pdf/2408.08211

摘要： 自动驾驶传感器会产生大量数据。本文探索了用于自动驾驶的多模态压缩，特别是针对 3D目标检测。我们专注于摄像头和激光雷达模态，并探索了几种编码方法。一种方法涉及融合模态的联合编码，而其他方法则涉及先对一种模态进行编码，然后对另一种模态进行条件编码。在 nuScenes 数据集上评估了这些编码方案的性能。实验结果表明，与其他方法相比，融合模态的联合编码可以产生更好的结果。

15

标题: Airborne Small Target Detection Method Based on Multi-modal and Adaptive Feature Fusion

论文链接：

https://ieeexplore.ieee.org/document/10637455

摘要： 在杂乱环境中检测空中小目标是一项艰巨的挑战。由于单张 RGB 图像在目标检测中易受环境干扰，以及在检测中难以保留小目标信息等因素，需要开发一种新方法来提高空中小目标检测的准确性和鲁棒性。本文提出了一种通过融合 RGB 和红外 (IR) 图像来实现这一目标的新方法，该方法基于现有的融合策略并增加了注意机制。所提出的方法采用 YOLO-SA 网络，该网络将针对下采样步骤优化的 YOLO 模型与增强的图像集相结合。融合策略采用早期融合方法，以尽可能多地保留小目标检测的目标信息。为了改进特征提取过程，我们引入了自适应特征聚合融合 (SACAF) 模块，协同利用空间和通道注意机制来关注关键特征信息。自适应加权可确保有效增强有效特征，同时抑制不相关特征。实验结果表明，与 LRAF-Net 模型和 Infusion-Net 检测网络相比，mAP 分别提高了 1.8% 和 3.5%。此外，消融研究验证了所提算法网络结构的有效性。

16

标题: DistTrain: Addressing Model and Data Heterogeneity with Disaggregated Training for Multimodal Large Language Models

论文链接：

https://arxiv.org/pdf/2408.04275

摘要： 多模态大语言模型 (LLM) 在广泛的 AI 应用中展现出巨大潜力。然而，由于不同模态之间固有的模型异构性和数据异构性，训练多模态 LLM 的效率和可扩展性较低。我们提出了 DistTrain，这是一个高效且自适应的框架，用于改革大规模集群上多模态大型语言模型的训练。DistTrain 的核心是分解训练技术，该技术利用多模态 LLM 训练的特点来实现高效率和可扩展性。具体而言，它利用分解模型编排和分解数据重新排序分别解决模型和数据异构性问题。我们还针对多模态 LLM 训练定制系统优化，以重叠 GPU 通信和计算。在具有数千个 GPU 的大规模生产集群上对不同大小的多模态 LLM 的 DistTrain 进行评估。实验结果表明，在 1172 个 GPU 上训练 72B 多模态 LLM 时，DistTrain 实现了 54.7% 的模型 FLOP 利用率 (MFU)，吞吐量比 Megatron-LM 高出 2.2 倍。

喜欢的话，请别忘记点赞👍➕关注哦

ICML2023重磅！清华、UC、MIT强强联手—突破性提出监督多模态学习中的单模态特征新范式！

震撼发布！低质量多模态数据融合方法最新进展！天津大学携手顶尖高校推出重磅综述！

IJCAI2024-连续多模态知识图谱构建，实现动态场景中新实体和关系的添加

ICML 2024｜多模态数据融合理论创新！天津大学提出预测多模态动态融合框架

ICML2024 多模态大语言模型相关论文集锦！！大模型热度不减！

地表最强模型GPT4o-latest模型重夺第一，力压谷歌！

TPAMI 2024｜跨模态联邦学习！中科院自动化所提出跨模态联邦人类活动识别方法

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

牛津大学发布Nature新作！教你如何使用语义熵检测大语言模型中的幻觉

CVPR2024—重磅来袭！西工大团队提出通用多模态医学数据表示学习方法！持续自监督学习！

AI 之王 GPT-6 猎户座来了！大模型杀疯了

CVPR 2024｜北大携手阿里巴巴提出幻觉增强对比学习的多模态大模型

大模型顶级瘦身术！知识蒸馏联合提示学习！

ECCV 2024 | 如何利用自监督学习强化多模态模型的领域泛化和自适应

ECCV 2024｜奥秘揭晓：小样本学习突破，跨领域多模态知识蒸馏动作识别

ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集

ACL 2024｜抢先知！多模态大语言模型最新综述！

火遍科研圈！中国科学院「紫东太初」如何打破机器幻觉之谜？

中山大学、鹏城实验室等首发！CVPR 2024| DMR：分解多模态表示——视觉强化学习中帧和事件融合

CVPR 2024｜中国人民大学创新基于样本级模态评估的多模态协作增强方法

ACL 2024｜机器学习新纪元！多模态机器学习火热论文汇总特辑！（下）

大神李宏毅“机器学习”课程集结成书，Datawhale新书出版了！

2024年了，Diffusion模型还有哪些能做的？

ACL 2024｜机器学习新纪元！多模态机器学习火热论文汇总特辑！（上）

又一种新的通用世界模型！WorldDreamer：通过预测屏蔽token带来新颖的视频生成方法！

AAAI 2024｜Structure-CLIP—利用场景图知识增强多模态结构化表示

论文速递｜追踪多模态机器学习领域最新研究动态！

北航、小米EV创新MV2DFusion多模态3D检测框架，自动驾驶技术新飞跃！

文末赠书｜作者硬核，内容透彻接地气的多模态大模型通识读本！国家队大模型紫东太初负责人王金桥力作

ECCV 2024｜多模态学习新突破！中国人民大学、清华大学等提出诊断和再学习方法平衡多模态训练

投稿必读

又一篇多模态顶会！这个idea简直“ 杀疯了 ” ....

ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集

多模态再次爆发！

TPAMI 2024|华南理工大学等继PMF后提出改进版本EPMF！高效感知多传感器融合，解决3D语义分割问题

ACL 2024 ｜南京大学与上海AI Lab提出多模态GUI智能体，像人一样操作手机电脑

TIP 2024｜Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

中科院深圳研究院发布多模态医学图像分割新进展！MICFormer：多模态信息交互!

中山大学、鹏城实验室等首发！CVPR 2024| DMR：分解多模态表示——视觉强化学习中帧和事件融合

ICML2023| 解密冻结大语言模型引导视觉-语言预训练前沿技术，弥补多模态差距

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

AAAI2024-南京大学、腾讯联合发表--MmAP：跨域多任务学习的多模态对齐提示

CVPR2024—重磅来袭！西工大团队提出通用多模态医学数据表示学习方法！持续自监督学习！

CVPR2024-多模态MLM新SOTA，因果上下文生成解决视觉问答任务

CVPR2023-动态多模态特征融合！模态级分类！融合级语义分割！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉