点击上方蓝字关注我们
点击上方蓝字关注我们
EMNLP 2024(Empirical Methods in Natural Language Processing)由国际计算语言学协会ACL举办,是自然语言处理和人工智能领域重要的学术会议之一,将于2024年11月12日至16日在美国佛罗里达州迈阿密的Hyatt Regency酒店举办。EMNLP 2024 总共有 1271 篇论文被主会议接受,主会议论文的接受率为 20.8% ,今年的热词包括多模态整合、生成式AI、伦理与公平性、低资源方法、模型量化、解释性分析等,这些议题反映了自然语言处理与多模态系统的前沿发展方向。
本文汇总了Main Conference中与多模态相关的 19篇论文,供读者探讨学习~
1. RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models
论文链接:
https://arxiv.org/pdf/2407.05131
摘要:
当前的医学大型视觉语言模型 (Med-LVLM)经常遇到事实问题,生成的响应通常与既定的医学事实不符。文中引入了一种可证明有效的策略,通过校准选择检索到的上下文数量来控制事实风险。其次,基于过度依赖检索上下文导致错误的样本,整理了一个偏好数据集来微调模型,平衡其对固有知识和检索上下文的依赖以进行生成。在三个数据集上展示了 RULE 在医疗 VQA 和报告生成任务上的有效性,平均事实准确率提高了 47.4%。
2. UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation
论文链接:
https://arxiv.org/pdf/2408.11305
摘要: 由于多模态时尚领域的多样性,从这个角度来看,涉及嵌入的任务(例如图像到文本或文本到图像的检索)在很大程度上被忽视了。目前对多任务单一模型的研究缺乏对图像生成的关注。在这项工作中,我们提出了 UniFashion,这是一个统一的框架,它同时解决了时尚领域内多模态生成和检索任务的挑战,将图像生成与检索任务和文本生成任务相结合。UniFashion 通过集成扩散模型和 LLM 统一了嵌入和生成任务,实现了可控和高保真生成。我们的模型在各种时尚任务中的表现明显优于之前的单任务先进模型,并且可以轻松适应管理复杂的视觉语言任务。
3. EFUF: Efficient Fine-Grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models
论文链接:
https://arxiv.org/pdf/2402.09801
摘要:
为了消除多模态大语言模型(MLLM)的幻觉问题,现有方法手动注释有幻觉和无幻觉的成对响应,然后采用各种对齐算法来提高图像和文本之间的对齐能力。然而,它们不仅在微调阶段需要大量计算资源,而且还需要昂贵的人工注释来构建对齐算法所需的成对数据。因此,文中提出了一种高效的细粒度遗忘框架(EFUF),利用三个定制损失执行梯度上升,以消除没有配对数据的幻觉。大量的实验表明,该方法可以持续减少幻觉,同时以适中的计算开销保持生成质量。
论文解读:EMNLP 2024|南京大学重磅推出EFUF:高效细粒度unlearning框架,全面破解多模态大语言模型“幻觉”难题!
4. By My Eyes: Grounding Multimodal Large Language Models with Sensor Data via Visual Prompting
论文链接:
https://arxiv.org/pdf/2407.10385
摘要:
将 LLM 用于无处不在的传感应用仍然具有挑战性,因为现有的文本提示方法在处理长传感器数据序列时会显著降低性能。我们提出了一种使用多模态 LLM (MLLM) 的传感器数据视觉提示方法。设计了一个视觉提示,指示 MLLM 在目标传感任务描述的同时使用可视化的传感器数据。此外,引入了一个可视化生成器,自动创建针对给定传感任务的最佳可视化,而无需事先了解特定于任务的知识。在涉及四种传感模态的九个传感任务上评估了我们的方法,平均比基于文本的提示高出 10% 的准确率,并将token成本降低了 15.8 倍。
5. MPT: Multimodal Prompt Tuning for Zero-shot Instruction Learning
论文链接:
https://arxiv.org/pdf/2409.15657
摘要: 多模态大语言模型 (MLLM) 越来越重视增强其在各种模态中对未见过的任务的零样本泛化能力。随着 MLLM 规模的不断增长,参数高效的微调变得越来越重要。然而,大多数现有的参数高效方法仅关注单一模态,并且在微调过程中经常忽略多模态特性。在这项工作中,我们引入了一种新颖的多模态提示调整 (M2PT)方法对MLLM进行有效的指令调整。M2PT 在微调过程中有效地将视觉和文本提示分别集成到视觉编码器和语言处理器中,从而促进跨模态特征的提取和对齐。在各种多模态评估数据集上的经验结果表明,与几种最先进的基线相比,我们的方法具有更优异的性能。
6. MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension
论文链接:
https://arxiv.org/pdf/2409.13609
摘要: 参照表达理解 (REC) 旨在通过自然语言确定局部视觉区域,是一项严重依赖多模态对齐的任务。大多数现有方法利用强大的预训练模型通过完全微调来传输视觉/语言知识。然而,对整个主干进行完全微调不仅会破坏预训练中嵌入的丰富先验知识,而且还会产生大量计算成本。因此,我们提出了一种新的多模态先验引导参数高效调整框架,即 MaPPER。具体而言,MaPPER 包括由对齐先验引导的动态先验适配器和局部卷积适配器,以提取精确的局部语义以获得更好的视觉感知。此外,还提出了 Prior-Guided Text 模块,以进一步利用先验来促进跨模态对齐。在三个广泛使用的基准上的实验结果表明,与完全微调和其他 PETL 方法相比,MaPPER 仅具有 1.41% 的可调主干参数,实现了最佳准确率。
7. How Does the Textual Information Affect the Retrieval of Multimodal In-Context Learning?
论文链接:
https://arxiv.org/pdf/2404.12866
摘要: MLLM参数大小的增加带来了显著的功能,尤其是上下文学习,MLLM 无需更新预训练参数即可提高任务性能。然而,这种有效性取决于对上下文示例的适当选择,而这一过程目前偏向于视觉数据,而忽略了文本信息。此外,MLLM 的监督检索器领域(对于最佳上下文示例选择至关重要)仍未得到研究。我们的研究深入评估了文本信息对多模态上下文中无监督选择上下文示例的影响,揭示了检索器性能对所采用的模态的显著敏感性。针对此,我们引入了一种新型监督 MLLM 检索器 MSIER,它使用神经网络来选择可提高多模态上下文学习效率的示例。通过对三个不同任务的广泛测试验证了该方法的有效性。
8. From Coarse to Fine: Impacts of Feature-Preserving and Feature-Compressing Connectors on Perception in Multimodal Models
论文链接:
https://arxiv.org/pdf/2410.06765
摘要: 在构建 MLLM 架构方面仍然存在相当大的争议,特别是关于为不同粒度的感知任务选择合适的连接器。本文系统地研究了连接器对 MLLM 性能的影响。具体来说,我们将连接器分为特征保留型和特征压缩型。利用统一的分类标准,将三个综合基准 MMBench、MME 和 SEED-Bench 中的子任务分为三种任务类型:粗粒度感知、细粒度感知和推理,并评估其性能。我们的研究结果表明,特征保留型连接器在细粒度感知任务中表现出色,因为它们能够保留详细的视觉信息。相比之下,特征压缩连接器虽然在细粒度感知任务中效率较低,但在粗粒度感知和** 推理** 任务中具有显著的速度优势,且性能相当。这些见解对于指导 MLLM 架构设计和推进 MLLM 架构的优化至关重要。
9. Unifying Multimodal Retrieval via Document Screenshot Embedding
论文链接:
https://arxiv.org/pdf/2406.11251
摘要: 在现实世界中,文档以不同的格式和不同的模态组织。传统的检索流程需要定制的文档解析技术和内容提取模块来准备索引输入。这个过程繁琐、容易出错,并且会丢失信息。为此,我们提出了文档截图嵌入(DSE),这是一种新颖的检索范式,它将文档截图视为统一的输入格式,不需要任何内容提取预处理并保留文档中的所有信息(例如文本、图像和布局)。DSE 利用大型视觉语言模型将文档截图直接编码为密集表示以供检索。为了评估我们的方法,我们首先制作 Wiki-SS 数据集,这是一个 1.3M 维基百科网页截图作为语料库来回答来自 Natural Questions 数据集的问题。在这种文本密集型文档检索设置中,与依赖解析的其他文本检索方法相比,DSE 表现出了竞争性的效果。
10. mDPO: Conditional Preference Optimization for Multimodal Large Language Models
论文链接:
https://arxiv.org/pdf/2406.11839
摘要: 直接偏好优化 (DPO) 已被证明是一种有效的大型语言模型 (LLM) 对齐方法。最近的研究尝试将 DPO 应用于多模态场景,但发现很难实现持续改进。通过比较实验,我们发现了多模态偏好优化中的无条件偏好问题,其中模型忽略了图像条件。为了解决这个问题,我们提出了 mDPO,这是一个多模态 DPO 目标,它通过优化图像偏好来防止过度优先考虑语言偏好。此外,我们引入了一个奖励锚,强制奖励对所选响应为正,从而避免其可能性的降低——这是相对偏好优化的固有问题。在两个不同大小的多模态 LLM 和三个广泛使用的基准上进行的实验表明,mDPO 有效地解决了多模态偏好优化中的无条件偏好问题,并显着提高了模型性能,特别是在减少幻觉方面。
11. Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding Bridge
论文链接:
https://arxiv.org/pdf/2402.16050
摘要: MLLM解释长视频以响应语言查询的挑战仍然存在,这主要是由于时间基础效率低下和预训练上下文窗口大小有限。在这项工作中,我们引入了时间基础桥 (TGB),引导具有高级时间基础功能的 MLLM 并拓宽其上下文范围。我们的框架通过三个关键创新显著增强了当前 MLLM 的时间能力:一种应用于从流中投射的低维时间特征的高效多跨度时间基础算法;一种利用低维时间特征来扩展训练上下文窗口大小的多模态长度外推训练范式;以及一个引导框架,无需注释即可将我们的模型与可插入式 MLLM 连接起来。在七个视频基准上验证了 TGB,并展示了与之前的 MLLM 相比显着的性能改进。
12. MMOE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts
论文链接:
https://arxiv.org/pdf/2311.09580
摘要: 多模态模型主要关注图像和文本之间的对应关系,并将其用于图像文本匹配等任务。然而,这只涵盖了现实世界交互的一小部分。新颖的交互,例如通过对立的口头语言和手势表达的讽刺或通过话语和语调表达的幽默,仍然具有挑战性。本文介绍了一种增强多模态模型的方法,称之为多模态专家混合 (MMoE)。MMoE 的关键思想是为每种类型的多模态交互训练单独的专家模型,例如两种模态中都存在的冗余、一种模态中的独特性或两种模态融合时出现的协同作用。在讽刺检测任务 (MUStARD) 和幽默检测任务 (URFUNNY) 中,获得了新的最先进的结果。MMoE 还可以应用于各种类型的模型以获得改进。
13. VHASR: A Multimodal Speech Recognition System With Vision Hotwords
论文链接:
https://arxiv.org/pdf/2410.00822
摘要: 基于图像的多模态自动语音识别 (ASR) 模型通过结合与音频相关的图像来增强语音识别性能。然而,一些研究表明将图像信息引入模型无助于提高 ASR 性能。在本文中,提出了一种有效利用与音频相关的图像信息的新方法,并建立了一个使用视觉作为热词的多模态语音识别系统 VHASR,以增强模型的语音识别能力。我们的系统采用双流架构,首先分别在两个流上转录文本,然后合并输出。在四个数据集上评估了所提出的模型:Flickr8k、ADE20k、COCO 和 OpenImages。实验结果表明,VHASR 可以有效利用图像中的关键信息来增强模型的语音识别能力。其性能不仅超越了单模态 ASR,而且在现有的基于图像的多模态 ASR 中取得了 SOTA。
14. From LLMs to MLLMs: Exploring the Landscape of Multimodal Jailbreaking
论文链接:
https://arxiv.org/pdf/2406.14859
摘要: 大语言模型 (LLM) 和多模态大语言模型 (MLLM) 的快速发展暴露了其易受各种对抗性攻击的弱点。本文全面概述了针对 LLM 和 MLLM 的越狱研究,重点介绍了评估基准、攻击技术和防御策略方面的最新进展。与更先进的单模态越狱相比,多模态领域仍未得到充分探索。我们总结了多模态越狱的局限性和潜在的研究方向,旨在启发未来的研究并进一步增强 MLLM 的稳健性和安全性。
15. TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning
论文链接:
https://arxiv.org/pdf/2402.19467
摘要: 模型很难理解复杂的多模态内容(例如电视片段),部分原因是视频语言模型通常依赖于单模态推理并且缺乏可解释性。为了解决这些问题,我们提出了 TV-TREES,这是第一个多模态蕴涵树生成器。TV-TREES 是一种视频理解方法,通过搜索简单的文本视频证据与证明问答对的高级结论之间的蕴涵关系树来促进可解释的联合模态推理。我们还引入了多模态蕴涵树生成任务来评估推理质量。我们的方法在具有挑战性的 TVQA 基准上的表现展示了可解释的、最先进的完整片段零样本性能,说明多模态蕴涵树生成可以成为黑盒系统的两全其美的替代方案。
16. Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model
论文链接:
https://arxiv.org/pdf/2407.07053
摘要: LMM对抽象图像(例如图表、地图或布局)的理解和视觉推理能力仍然非常初级。它们通常难以完成简单的日常任务,例如从时钟读取时间、理解流程图或使用道路地图规划路线。鉴于此,我们设计了一个多模态自学系统,利用大型语言模型及其代码功能在日常场景中合成大量抽象图像和视觉推理指令。为八个视觉场景创建了一个包含 11,193 条指令的多模态基准:图表、表格、模拟地图、仪表板、流程图、关系图、平面图和视觉拼图。这个基准由简单的线条和几何元素构建,暴露了大多数先进 LMM(如 Claude-3.5-Sonnet 和 GPT-4o)在抽象图像理解、空间关系推理和视觉元素感应方面的不足。结果表明,图表理解和地图导航性能有所提高,并且还表明了对其他视觉推理任务的潜在好处.
17. Visual Text Matters: Improving Text-KVQA with Visual Text Entity Knowledge-aware Large Multimodal Assistant
论文链接:
https://arxiv.org/pdf/2410.19144
摘要: 根据大型多模态模型 (LMM) 的现代进步,重新审视了知识感知的基于文本的视觉问答 (也称为 Text-KVQA),并做出以下贡献:(i) 提出了 VisTEL——一种执行视觉文本实体链接的原则性方法。所提出的 VisTEL 模块利用最先进的视觉文本识别引擎和大型多模态模型的强大功能,使用图像中周围线索获得的文本和视觉上下文进行联合推理,将视觉文本实体链接到正确的知识库实体。(ii) 提出了 KaLMA——一个知识感知的大型多模态助手,使用与图像中的视觉文本实体相关的知识增强 LMM,以得出准确的答案。通过对 Text-KVQA 的三个部分进行平均,提出的方法在绝对规模上超越了之前的最佳方法,达到了 23.3%,并创造了新的最高水平。
18. Nearest Neighbor Normalization Improves Multimodal Retrieval
论文链接:
https://arxiv.org/pdf/2410.24114
摘要: 多模态模型利用大规模预训练在图像字幕、视觉问答和跨模态检索等任务上实现强大但仍然不完美的性能。在本文中,我们提出了一种简单有效的方法,无需额外训练即可纠正训练过的对比图像文本检索模型中的错误,称为 最近邻归一化(NNN) 。对于测试的所有对比模型(CLIP、BLIP、ALBEF、SigLIP、BEiT)以及两个数据集(MS-COCO 和 Flickr30k),都展示了文本检索和图像检索的检索指标的改进。NNN 需要一个参考数据库,但不需要对该数据库进行任何训练,甚至可以在微调后提高模型的检索准确率。
19. UOUO: Uncontextualized Uncommon Objects for Measuring Knowledge Horizons of Vision Language Models
论文链接:
https://arxiv.org/pdf/2407.18391
摘要: 较小规模的视觉语言模型 (VLM) 通常声称在通用领域的视觉基础和问答基准测试中表现与较大的模型相当,同时在计算效率和存储方面具有优势。然而,它们处理属于数据分布长尾的稀有对象的能力尚不明确。为了严格评估这方面,我们引入了“非语境化罕见对象”(UOUO) 基准测试。该基准测试侧重于系统地测试具有大参数计数和小参数计数的 VLM 在稀有和特殊对象上的表现。综合分析表明,虽然较小的 VLM 在常见数据集上保持了竞争性性能,但它们在涉及不常见对象的任务上表现明显不佳。我们还提出了一种先进的、可扩展的数据收集和清理流程,确保 UOUO 基准测试提供高质量、具有挑战性的实例。这些发现强调了在评估 VLM 的真正能力时需要考虑长尾分布。
致谢作者,转载请注明出处!关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️ /欢迎投稿
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
港中文、UCL、武大联手攻关!NeurIPS 2024 全新多模态情绪分析模型,精准应对不完整数据挑战!
NeurIPS 2024|多模态学习重磅论文全览!最新研究集锦,不容错过!(上)
NeurIPS 2024|多模态学习重磅论文全览!最新研究集锦,不容错过!(下)
CVPR 2024|拥抱单模态不确定性,实现稳健多模态融合!电子科大与同济等联手突破多模态技术瓶颈!
🌟投稿必读