点击上方蓝字关注我们
点击上方蓝字关注我们
神经信息处理系统大会(Neural Information Processing Systems,简称 NeurIPS)是全球机器学习和人工智能领域最具影响力的学术会议之一,与国际机器学习大会(ICML)和国际学习表征会议(ICLR)并列为“机器学习三大顶会”。NeurIPS 的研究涵盖从理论到应用的广泛领域,包括深度学习、强化学习、计算神经科学等。NeurIPS 2024 将于 12 月 9 日至 15 日 在加拿大温哥华的 Vancouver Convention Center 举行,预计将汇聚来自世界各地的顶尖研究人员和行业专家,共同探讨机器学习领域的最新进展与突破。
NeurIPS 每年都会吸引大量高水平论文投稿,2024 年共接收了 15,671 篇 论文,录取率为25.8%。本文汇总了paper list中与多模态相关的 16篇论文,供读者探讨学习~
1. Toward Robust Incomplete Multimodal Sentiment Analysis via Representation Factorization and Alignment
论文链接:
https://arxiv.org/pdf/
摘要: 许多不可避免的因素可能导致不确定模态缺失的情况,从而阻碍多模态建模的有效性并降低模型的性能。为此,提出了一个表示分解和对齐 (ReFA) 框架,用于不确定缺失模态下的多模态情感分析(MSA) 任务。具体而言,提出了一个细粒度的表示分解模块,通过跨模态翻译和情绪语义重建将模态分解为情绪相关和模态特定的表示,从而充分提取有价值的情绪信息。此外,引入了一种分层互信息最大化机制,以逐步最大化多尺度表示之间的互信息,以对齐和重建表示中的高级语义。最后,提出了一种分层对抗学习机制,该机制逐步调整和调整表示的潜在分布,以产生稳健的联合多模态表示。在三个数据集上进行的综合实验表明,该框架在缺失模态不确定和完整模态不确定测试条件下显著提高了 MSA 性能。
2. Unsupervised Homography Estimation on Multimodal Image Pair via Alternating Optimization
论文链接: 无
摘要: 估计两幅图像之间的单应性是各种任务(例如图像拼接、重建)的关键过程。基于无监督学习的方法大多数都假设给定的图像对来自同一台相机或在光照方面略有不同。虽然这些研究在这些假设下表现有效,但当输入对图像来自不同域(称为多模态图像对)时,它们通常会失败。为了克服这些限制,提出了一个使用无监督学习估计多模态图像对中单应性的学习框架,这不需要真实数据。采用了类似于期望最大化 (EM) 的两阶段优化框架,其特点是减少几何差距和捕捉模态差距的阶段。
3. MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models
论文链接:
https://arxiv.org/html/2407.12709v1
摘要: 在大多数 VL 任务上,通用型 MLLM 的表现通常不如专家型 MLLM,这可以归因于任务干扰。本文提出了一种多模态专家混合模型 (MoME) 来减轻任务干扰并获得通用型 MLLM。MoME 由两个关键组件组成,即视觉专家混合模型 (MoVE) 和语言专家混合模型 (MoLE)。MoVE 可以自适应地调节从各种视觉编码器转换的特征,并且在转换架构中具有很强的兼容性。MoLE 将稀疏门控专家整合到 LLM 中,以在推理成本大致不变的情况下实现无痛改进。为了应对任务干扰, MoME 专注于视觉和语言模态,以适应任务差异。
4. Facilitating Multimodal Classification via Dynamically Learning Modality Gap
论文链接: 无
摘要: 多模态学习由于模态不平衡现象陷入最优化困境,导致实际应用中的效果不理想。模态不平衡的一个核心原因是各模态的模型收敛速度不同,很多尝试自然而然地集中在自适应地调整学习过程。本质上,模型收敛速度不同的原因是学习过程中各模态拟合类别标签的难度不一致。从标签拟合的角度,我们发现适当的积极干预标签拟合可以纠正这种学习能力的差异。通过利用对比学习干预类别标签拟合学习的能力,提出了一种新颖的多模态学习方法,该方法动态地集成无监督对比学习和有监督多模态学习来解决模态不平衡问题。我们发现一种简单而启发式的集成策略可以显著缓解模态不平衡现象。此外,设计了一种基于学习的集成策略来动态整合两个损失,进一步提升性能。
5. InstructG2I: Synthesizing Images from Multimodal Attributed Graphs
论文链接:
https://arxiv.org/pdf/2410.07157
摘要:
本文探讨了一个被忽视但至关重要的任务 Graph2Image:从多模态属性图 (MMAG) 生成图像。由于图大小的激增、图实体之间的依赖关系以及图条件的可控性需求,这项任务带来了重大挑战。为了应对这些挑战,提出了一种称为 InstructG2I 的图形上下文条件扩散模型。InstructG2I 首先利用图结构和多模态信息,通过结合基于视觉语言特征的个性化页面排名和重新排名来进行信息邻居采样。然后,Graph-QFormer 编码器自适应地将图节点编码为辅助图提示集,以指导扩散的去噪过程。最后,提出了无分类器图指导,通过改变图指导的强度和连接到节点的多个边来实现可控生成。
6. Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs
论文链接:
https://arxiv.org/pdf/2405.16700
摘要: LLM 在多模态任务上表现出色,无需任何多模态微调。本文将冻结的 LLM 暴露于图像、视频、音频和文本输入,并分析它们的内部表示,旨在了解它们在文本输入之外的泛化。(1)我们发现隐式对齐分数与任务性能之间存在正相关关系,这表明这可以作为模型评估和选择的代理指标。(2)幻觉存在负相关性,表明该问题主要是由于内部感知和文本表示不一致造成的。(3)感知标记在整个模型中略有变化,因此,我们提出了不同的方法来跳过计算(例如在 FFN 层中),并显着降低推理成本。(4)由于跨层的嵌入变化缓慢,以及文本和多模态激活权重之间的高度重叠,我们通过仅保留 1 个在广泛的多模态任务中运行良好的子网络来压缩 LLM。
7. CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts
论文链接:
https://arxiv.org/pdf/2405.05949
摘要: MLLM的最新进展主要集中在通过增加文本-图像对数据和增强 LLM 来提高多模态任务的性能,从而实现扩展。然而,这些扩展方法在计算上成本高昂,并且忽视了从视觉方面提高模型能力的重要性。受到混合专家 (MoE) 在 LLM 中的成功应用的启发,提出了 CuMo,该技术在训练期间提高了模型的可扩展性,同时保持推理成本与较小模型相似。CuMo 将共同上行的 Top-K 稀疏门控混合专家块合并到视觉编码器和 MLP 连接器中,从而在推理过程中以最少的额外激活参数增强多模态 LLM。CuMo 首先预训练 MLP 块,然后在视觉指令调整阶段从预训练的 MLP 块初始化 MoE 块中的每个专家。辅助损失用于确保专家的均衡负载。
8. Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model
论文链接:
https://arxiv.org/pdf/2405.17815
摘要: 在MLLM领域,视觉语言连接器在连接预训练的视觉编码器和大型语言模型 (LLM) 方面起着至关重要的作用。尽管视觉语言连接器非常重要,但对其的探索相对较少。在本研究中提出一种强大的视觉语言连接器,使 MLLM 能够同时实现高精度和低计算成本。首先揭示了 Vision Transformer 中视觉锚点的存在,并提出了一种经济高效的搜索算法来逐步提取它们。基于这些发现,引入了 Anchor Former (AcFormer),这是一种新颖的视觉语言连接器,旨在利用在预训练期间从这些视觉锚点获得的丰富先验知识来指导信息的聚合。通过大量实验,证明所提出的方法显着降低了近三分之二的计算成本,同时优于基线方法。这凸显了 AcFormer 的有效性和效率。
9. MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model
论文链接:
https://arxiv.org/pdf/2408.12321
摘要: 本文介绍了一种创新的多粒度视觉编码框架 MaVEn,旨在增强多模态大型语言模型 (MLLM) 在多图像推理中的能力。当前的 MLLM 主要关注单图像视觉理解,这限制了它们解释和整合多图像信息的能力。MaVEn 通过将抽象粗粒度语义概念的离散视觉符号序列与模拟细粒度特征的传统连续表示序列相结合来解决这一限制。这种双重方法弥合了视觉和文本数据之间的语义鸿沟,从而提高了模型有效处理和解释多图像信息的能力。此外,设计了一种针对长序列连续特征的动态缩减机制,以提高多图像处理效率。实验结果表明,MaVEn 显著增强了 MLLM 在复杂多图像场景中的理解能力,同时也提高了单图像环境中的性能。
10. VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks
论文链接:
https://arxiv.org/pdf/2406.08394
摘要: 提出了一种端到端的通用多模态大型模型 (MLLM),VisionLLM v2,将视觉感知、理解和生成统一在一个框架内。与仅限于文本输出的传统 MLLM 不同,VisionLLM v2 大大拓宽了其应用范围。提出了一种新的信息传输机制,称为“VisionLLM v2”的超级链接,作为连接MLLM与任务特定解码器的媒介,不仅可以实现MLLM与多个下游解码器之间任务信息和梯度反馈的灵活传输,还可以有效解决多任务场景下的训练冲突。
11. Don't Just String Tokens, Stack Them! Improving Multimodal Transformers with Layer Stack
论文链接: 无
摘要: 目前,大多数大型多模态模型 (LMM)研究都试图通过将从预训练视觉编码器(CLIP)中提取的一串视觉标记输入大型语言模型 (LLM) 来连接视觉和 LLM。然而,由于额外的视觉标记,这种策略会给原始 LLM 带来相当大的计算和内存开销,这对于高分辨率图像和视频尤其重要。尽管通过复杂的标记压缩来缓解这种情况,但这些方法通常难以在功效和效率之间取得良好的平衡。本文提出了一种在LMM 中连接视觉和语言transformer的新策略。不是将视觉标记串成一个序列,而是将视觉标记堆叠到多个层中,然后将每层的子集输入到 LLM 中相应的transformer层中。最后,提出了 一种在 LMM 上下文中连接视觉和语言的新架构。这种简单的策略显著释放了 LLM 的强大功能,用于对大量视觉标记之间的依赖关系进行建模,同时保持计算量略有变化。
12. Training-Free Visual Prompt Learning for Multimodal Large Language Models
论文链接:
https://arxiv.org/pdf/2407.21534
摘要: 提出了一种无需训练的方法,通过可学习的视觉标记优化将视觉指涉注入多模态大型语言模型 (MLLM)。该方法涉及在推理过程中调整来自 MLP 输出的视觉标记,控制哪些文本提示标记关注哪些视觉标记。基于能量函数优化可学习的视觉标记,增强注意力图中指涉区域的强度。这使得详细的区域描述和推理成为可能,而无需大量的训练成本或模型再训练。
13. QUEST: Quadruple Multimodal Contrastive Learning with Constraints and Self-Penalization
论文链接: 无
摘要: 多模态对比学习 (MCL) 最近在各种任务中表现出显著的成功。然而,现有的 MCL 对所有负样本一视同仁,忽略了与正样本的潜在语义关联,这限制了模型实现细粒度对齐的能力。在多视图场景中,MCL 倾向于优先考虑共享信息,而忽略不同视图之间特定于模态的独特信息,导致特征抑制和下游任务中的次优性能。为了解决这些限制,提出了一种新颖的对比框架,名为 QUEST:带约束和自我惩罚的四重多模态对比学习。在 QUEST 框架中,提出了四元数对比目标和正交约束来提取足够的独特信息。同时,引入了共享信息引导的惩罚,以确保共享信息不会过度影响独特信息的优化。
14. A Concept-Based Explainability Framework for Large Multimodal Models
论文链接:
https://arxiv.org/pdf/2406.08074
摘要: 尽管最近在解释LMM模型方面取得了进展,但理解 LMM 的内部表示在很大程度上仍然是一个谜。本文提出了一个用于解释 LMM 的新框架。提出了一种基于词典学习的方法,应用于标记的表示。学习词典的元素与提出的概念相对应。本文表明这些概念在视觉和文本中都有很好的语义基础。因此,文中将它们称为“多模态概念”,表明提取的多模态概念对于解释测试样本的表示很有用。最后,评估了不同概念之间的解缠以及视觉和文本上基础概念的质量。
15. Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models
论文链接:
https://arxiv.org/pdf/2407.18999
摘要: 解缠表征学习 (DRL) 旨在识别和分解观察背后的潜在因素,从而促进数据感知和生成。然而,当前的 DRL 方法通常依赖于不切实际的假设,即语义因素在统计上是独立的。实际上,这些因素可能表现出相关性,而现成的解决方案尚未妥善解决这一问题。为了应对这一挑战,引入了一个双向加权图框架,以学习复杂数据中的分解属性及其相互关系。具体来说,提出了一个β-基于 VAE 的模块提取因子作为图的初始节点,并利用多模态大型语言模型 (MLLM) 发现和排序潜在相关性,从而更新加权边。通过集成这些互补模块,该模型成功实现了细粒度、实用和无监督的解缠。
16. Wings: Learning Multimodal LLMs without Text-only Forgetting
论文链接:
https://arxiv.org/pdf/2406.03496
摘要: MLLM以经过训练的 LLM 为起点,首先将图像与文本对齐,然后对多模态混合输入进行微调。然而,MLLM 会彻底忘记纯文本指令,这些指令不包含图像,可以在初始 LLM 中解决。本文介绍了 Wings,这是一种新型 MLLM,在纯文本对话和多模态理解方面都表现出色。分析多模态指令中的 MLLM 注意力表明,纯文本遗忘与注意力从前图像文本转移到后图像文本有关。文中构建了额外的模块,作为增强学习器来补偿注意力转移。互补的视觉和文本学习器就像两边的“翅膀”,在每一层的注意力块中并行连接。最初,图像和文本输入与与主要注意力一起运行的视觉学习器对齐,平衡对视觉元素的关注。文本学习器随后与基于注意力的路由协作集成,以融合视觉和文本学习器的输出。实验结果表明,无论是在纯文本问答任务中,还是在视觉问答任务中,Wings 的表现都优于同等规模的 MLLM。
致谢作者,转载请注明出处,关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
ECCV 2024|多模态学习不鲁棒?表示解耦打造稳健多模态学习新纪元
NeurIPS 2024 | 像素级MLLM: Vitron, 实现图像视频的理解、生成、分割、编辑大一统
TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习