点击上方蓝字关注我们
点击上方蓝字关注我们
神经信息处理系统大会(Neural Information Processing Systems,简称 NeurIPS)是全球机器学习和人工智能领域最具影响力的学术会议之一,与国际机器学习大会(ICML)和国际学习表征会议(ICLR)并列为“机器学习三大顶会”。NeurIPS 的研究涵盖从理论到应用的广泛领域,包括深度学习、强化学习、计算神经科学等。NeurIPS 2024 将于 12 月 9 日至 15 日 在加拿大温哥华的 Vancouver Convention Center 举行,预计将汇聚来自世界各地的顶尖研究人员和行业专家,共同探讨机器学习领域的最新进展与突破。
NeurIPS 每年都会吸引大量高水平论文投稿,2024 年共接收了 15,671 篇 论文,录取率为25.8%。本文汇总了paper list中与多模态相关的 15篇论文,供读者探讨学习~更多内容请参阅上篇。
1. Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight
论文链接:
https://arxiv.org/pdf/2407.15819
摘要: 本文介绍了一种视觉语言桥接模块Chain-of-Sight,可加速多模态大型语言模型 (MLLM) 的预训练。采用了一系列视觉重采样器,可捕捉各种空间尺度的视觉细节。该架构不仅有效地利用了全局和局部视觉上下文,而且还通过复合标记缩放策略促进了视觉标记的灵活扩展,允许预训练后的标记数量增加 16 倍。因此,与微调阶段相比,Chain-of-Sight 在预训练阶段需要的视觉标记要少得多。在预训练期间有意减少视觉标记可显著加快预训练过程,将挂钟训练时间缩短73%。
2. Coupled Mamba: Enhanced Multimodal Fusion with Coupled State Space Model
论文链接:
https://arxiv.org/pdf/2405.18014
摘要: 多模态融合的本质在于利用不同模态中固有的互补信息。然而,大多数流行的融合方法依赖于传统的神经架构,不足以捕捉跨模态交互的动态,特别是在存在复杂的模态内和模态间相关性的情况下。本文提出了耦合状态空间模型 (SSM),用于耦合多种模态的状态链,同时保持模态内状态过程的独立性。具体而言,设计了一种模态间隐藏状态转换方案,其中当前状态取决于其自身链的状态以及前一时间步的相邻链的状态。为了完全遵循硬件感知的并行性,引入历史状态并推导状态方程来获得全局卷积核。在三个数据集上分别将F1-Score提高了0.4%,0.9%和2.3%,推理速度提高了49%,GPU内存节省了83.7%。结果表明,耦合Mamba模型能够增强多模态融合。
3. Single Image Unlearning: Efficient Machine Unlearning in Multimodal Large Language Models
论文链接:
https://arxiv.org/pdf/2405.12523
摘要: 机器遗忘 (MU) 赋予个人“被遗忘的权利”,即删除机器学习模型中编码的私人或敏感信息。然而,MU 是否能有效应用于多模态大型语言模型 (MLLM) 仍不确定,特别是在遗忘泄露的概念视觉数据的情况下。为了克服这一挑战,提出了单图像遗忘 (SIU),通过几个步骤对单个相关图像进行微调来遗忘概念的视觉识别。SIU 包含两个关键方面:(i) 构建多方面微调数据。我们引入了四个目标,并在此基础上构建要遗忘概念的微调数据;(ii) 联合训练损失。为了同步遗忘概念的视觉识别并保留 MLLM 的效用通过一种新颖的双掩蔽 KL 散度损失与交叉熵损失相结合来对 MLLM 进行微调。此外,我们意外地发现 SIU 可以避免侵入性成员推理攻击和越狱攻击。据我们所知,我们是第一个探索 MLLM 中 MU 的人。
4. Multimodal foundation world models for generalist embodied agents
论文链接:
https://arxiv.org/pdf/2406.18043
摘要: 提出多模态基础世界模型,够将基础 VLM 的表示与 RL 的生成世界模型的潜在空间连接和对齐,而无需任何语言注释。由此产生的代理学习框架 GenRL 允许人们通过视觉和/或语言提示指定任务,将它们扎根于具身领域的动态中,并在想象中学习相应的行为。通过大规模多任务基准测试评估,GenRL 在多个运动和操作领域表现出强大的多任务泛化性能。此外,通过引入无数据 RL 策略,它为通用化智能体基于基础模型的 RL 奠定了基础。
5. Propensity Score Alignment of Unpaired Multimodal Data
论文链接:
https://arxiv.org/pdf/2404.01595
摘要: 多模态表征学习技术通常需要配对样本来学习共享表征,但在生物学等领域,收集配对样本可能具有挑战性,因为测量设备经常会破坏样本。本文提出了一种方法来解决多模态表征学习中跨不同模态对齐未配对样本的挑战。将因果推理中的潜在结果与多模态观察中的潜在观点进行了类比,利用 Rubin 的框架来估计匹配样本的共同空间。假设样本受到治疗的实验干扰,并利用这一点来估计每种模态的倾向得分。倾向得分囊括了潜在状态和治疗之间的所有共享信息,可用于定义样本之间的距离。
6. Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning
论文链接:
https://arxiv.org/pdf/2406.15334
摘要: 多样本多模态 ICL 设置有一个关键问题:它从根本上受到预训练时设置的模型上下文长度的限制。在这项工作中,利用多模态任务向量 (MTV)——模型注意力头中压缩的上下文示例的紧凑隐式表示——使 LMM 能够执行多模态、多样本上下文学习。具体而言,首先证明 LMM 中存在这样的 MTV,然后利用这些提取出的 MTV 为各种视觉和语言任务实现多样本上下文学习。实验表明,MTV 可以随着压缩镜头的数量而扩展性能,并可以推广到类似的域外任务,而无需额外的上下文长度进行推理。
7. Unity by Diversity: Improved Representation Learning for Multimodal VAEs
论文链接:
https://arxiv.org/pdf/2403.05300
摘要: 用于多模态数据的变分自动编码器有望用于数据分析中的许多任务,例如表示学习、条件生成和插补。当前的架构要么跨模态共享编码器输出、解码器输入,要么两者兼而有之,以学习共享表示。这种架构对模型施加了硬约束。在这项工作中表明可以通过用软约束替换这些硬约束来获得更好的潜在表示。我们提出了一种新的混合专家先验,将每种模态的潜在表示软引导至共享的聚合后验。这种方法可以产生更优越的潜在表示,并允许每种编码更好地从未压缩的原始特征中保留信息。与现有方法相比,改进学习潜在表示和缺失数据模态的插补。
8. E2E-MFD: Towards End-to-End Synchronous Multimodal Fusion Detection
论文链接:
https://arxiv.org/pdf/2403.09323
摘要: 多模态图像融合和物体检测对于自动驾驶至关重要。虽然当前的方法已经推进了纹理细节和语义信息的融合,但它们复杂的训练过程阻碍了更广泛的应用。为了应对这一挑战,我们引入了一种用于多模态融合检测的新型端到端算法 E2E-MFD。E2E-MFD 简化了流程,通过单个训练阶段实现了高性能。它采用跨组件的同步联合优化,以避免与单个任务相关的次优解决方案。此外,它在共享参数的梯度矩阵中实现了全面的优化策略,确保收敛到最佳融合检测配置。与最先进的方法相比,水平物体检测数据集 M3FD 和定向物体检测数据集 DroneVehicle 上的准确率分别有所提高。
9. HEALNet: Multimodal Fusion for Heterogeneous Biomedical Data
论文链接:
https://arxiv.org/pdf/2311.09115
摘要: 大多数多模态深度学习方法使用特定于模态的架构,这些架构通常是单独训练的,无法捕获促使不同数据源集成的关键跨模态信息。本文介绍了混合早期融合注意力学习网络 (HEALNet)——一种灵活的多模态融合架构,它 a) 保留特定于模态的结构信息,b) 在共享潜在空间中捕获跨模态交互和结构信息,c) 可以在训练和推理期间有效处理缺失的模态,以及 d) 通过学习原始数据输入而不是不透明的嵌入来实现直观的模型检查。HEALNet 实现了最先进的性能,比单模态和多模态融合基线有了显著的改进,同时在缺少模态的场景中也具有很强的稳健性。
10. Balancing Multimodal Learning with Classifier-guided Gradient Modulation
论文链接: 无
摘要: 近年来,多模态学习发展迅速。然而,在多模态训练过程中,模型往往只依赖于一种模态,从而可以更快地学习,从而导致其他模态的使用不足。现有的平衡训练过程的方法总是对损失函数、优化器和模态数量有一些限制,并且只考虑调节梯度的大小而忽略梯度的方向。为了解决这些问题,本文提出了一种平衡多模态学习的新方法,即分类器引导梯度调制( CGGM ) ,同时考虑梯度的大小和方向。
11. Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
论文链接:
https://arxiv.org/pdf/2408.03615
摘要: 现有的agent缺乏必要的世界知识和多模态经验来指导代理完成各种长期任务。在本文中,提出了一个混合多模态记忆模块来解决上述挑战。它 1)将知识转换为分层有向知识图谱,使代理能够明确地表示和学习世界知识;2)将历史信息总结到抽象多模态经验池中,为代理提供丰富的情境学习参考。在混合多模态记忆模块之上,多模态代理 Optimus-1 构建了专用的知识引导规划器和经验驱动反射器,有助于在 Minecraft 中面对长期任务时进行更好的规划和反思。大量实验结果表明,Optimus-1 在具有挑战性的长视界任务基准上显著优于所有现有智能体,并且在许多任务上表现出接近人类水平的表现。
12. Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models
论文链接:
https://arxiv.org/pdf/2403.07304
摘要: 当前的LLM方法遵循将视觉任务输出调整为语言模型格式的范式,语言模型是 LMM 的主要组成部分。这种调整使得此类 LMM 的开发变得方便,只需进行最少的修改,但是,它忽略了各种视觉任务的内在特征,阻碍了感知能力的学习。为了解决这个问题,提出了一种名为 Lumen 的新型 LMM 架构,这是一种具有多功能视觉中心能力增强功能的大型多模态模型。将 LMM 的感知能力学习分解为任务无关和任务特定阶段。Lumen 首先促进细粒度的视觉语言概念对齐,这是各种视觉任务的基本能力。因此,任务无关阶段的输出是我们在本文中讨论的所有任务的共享表示。然后,通过将共享表示灵活地路由到轻量级任务解码器(训练工作量几乎可以忽略不计)来执行特定于任务的解码。
13. MoVA: Adapting Mixture of Vision Experts to Multimodal Context
论文链接:
https://arxiv.org/pdf/2404.13046
摘要: 尽管一些大规模预训练视觉编码器(如 CLIP 和 DINOv2 中的视觉编码器)已经带来了令人鼓舞的性能,但我们发现仍然没有单一的视觉编码器可以主导各种图像内容理解,为了缓解 CLIP 视觉编码器的偏差,首先深入研究不同预训练视觉编码器的固有行为,然后提出了一种强大而新颖的 MLLM MoVA,通过由粗到细的机制自适应地路由和融合特定任务的视觉专家。在粗粒度阶段,设计了一种上下文感知专家路由策略,根据用户指令、输入图像和视觉专家的专业知识动态选择最合适的视觉专家。在细粒度阶段,设计了混合视觉专家适配器 (MoV-Adapter),以提取和融合来自不同专家的特定任务知识。这种由粗到细的范式有效地利用了基于多模态背景和模型专业知识的专家表示,进一步增强了泛化能力。
14. Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient
论文链接:
https://arxiv.org/pdf/2406.00681
摘要: 深度强化学习 (RL) 算法通常将策略参数化为深度网络,该网络输出确定性动作或以高斯分布建模的随机动作,从而将学习限制为单一行为模式。与此同时,扩散模型成为多模态学习的强大框架。然而,扩散策略在在线 RL 中的使用受到策略似然近似的难处理性以及 RL 方法的贪婪目标的阻碍,这些目标很容易将策略偏向单一模式。本文提出了深度扩散策略梯度 (DDiffPG),这是一种新颖的演员评论家算法,它从头开始学习参数化为扩散模型的多模态策略,同时发现和保持多种行为。DDiffPG 通过现成的无监督聚类结合基于新颖性的内在动机来探索和发现多种模式。DDiffPG 形成多模态训练批次并利用模式特定的 Q 学习来减轻 RL 目标的固有贪婪性,确保在所有模式下改进扩散策略。我们的方法进一步允许策略以模式特定的嵌入为条件,以明确控制学习到的模式。
15. Towards Robust Multimodal Sentiment Analysis with Incomplete Data
论文链接:
https://arxiv.org/pdf/2409.20012
摘要: 多模态情绪分析 (MSA) 领域最近出现了一个新兴方向,旨在解决数据不完整问题。认识到语言模态通常包含密集的情绪信息,我们将其视为主导模态,并提出一种创新的语言主导抗噪学习网络 (LNLN) 来实现稳健的 MSA。所提出的 LNLN 具有主导模态校正 (DMC) 模块和基于主导模态的多模态学习 (DMML) 模块,通过确保主导模态表示的质量来增强模型在各种噪声场景中的稳健性。实验结果表明,LNLN 始终优于现有基线,在这些具有挑战性和广泛的评估指标中表现出色。
致谢作者,转载请注明出处,关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
NeurIPS 2024|多模态学习重磅论文全览!最新研究集锦,不容错过!(上)
TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习