「学术趋势」EMNLP 24 多模态 TOP15 被引论文盘点

科技   2024-11-20 20:24   广东  

SmartFlowAI


点击上方蓝字关注我们

作者:机智流顶会顶刊讨论组

字数:全文约 6500 字,预计阅读时间 8 分钟

本文精选了 EMNLP 2024 论文集中与多模态相关的、被引量最高的15篇论文。后续我们还会继续陆续发布不同领域的 EMNLP 2024 高引盘点,在机智流公众号后台对话框回复“盘点”,加入顶会论文盘点交流群。

*注:引用数据来自谷歌学术,数据统计截止 2024 年 11 月 13 日。

  1. Video-LLaVA: Learning United Visual Representation by Alignment Before Projection(258次被引)
  2. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model(62次被引)
  3. mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding(48次被引)
  4. Multimodal Procedural Planning via Dual Text-Image Prompting(32次被引)
  5. MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance(31次被引)
  6. LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference(10次被引)
  7. RAGAR, Your Falsehood Radar: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models(10次被引)
  8. ImageInWords: Unlocking Hyper-Detailed Image Descriptions(7次被引)
  9. MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase Understanding(7次被引)
  10. Benchmarking Vision Language Models for Cultural Understanding(6次被引)
  11. AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models(6次被引)
  12. TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning(5次被引)
  13. MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model(4次被引)
  14. TraveLER: A Modular Multi-LMM Agent Framework for Video Question-Answering(4次被引)
  15. TroL: Traversal of Layers for Large Language and Vision Models(4次被引)

Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

https://aclanthology.org/2024.emnlp-main.342.pdf

总结:《Video - LLaVA: Learning United Visual Representation by Alignment Before Projection》指出大型视觉 - 语言模型(LVLM)提升了视觉 - 语言理解中各项下游任务的性能。现有多数方法将图像和视频编码到不同特征空间再输入大型语言模型,但由于图像和视频缺乏统一标记化(投影前错位),大型语言模型(LLM)难以从几个不佳的投影层中学习多模态交互。

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

https://aclanthology.org/2024.emnlp-industry.98.pdf

总结:本文介绍了Any - Modality Augmented Language Model(AnyMAL),这是一个能处理多种输入模态信号(如文本、图像、视频、音频、IMU运动传感器)并生成文本响应的统一模型。AnyMAL继承了包括Llama - 3(70B)在内的最先进的大型语言模型(LLMs)强大的基于文本的推理能力,并通过预训练的对齐器模块将特定模态的信号转换到联合文本空间。文中详细介绍了为有效扩展训练流程而实施的优化措施,还给出了模型和训练配置的全面方案。作者进行了包括人工和自动评估在内的综合实证分析,证明与行业领先的模型相比,AnyMAL在各种多模态任务上达到了最先进的性能,尽管其可训练参数数量相对较少。

mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding

https://aclanthology.org/2024.findings-emnlp.175.pdf

总结:结构信息对理解文档、表格和图表等富含文本的图像语义至关重要,现有视觉文档理解的多模态大语言模型(MLLMs)具备文本识别能力,但缺乏对富含文本文档图像的通用结构理解能力。本文强调结构信息在视觉文档理解中的重要性,提出统一结构学习(Unified Structure Learning)以提升MLLMs的性能。统一结构学习涵盖5个领域(文档、网页、表格、图表和自然图像)的结构感知解析任务和多粒度文本定位任务。为更好编码结构信息,设计了简单有效的视觉到文本模块H - Reducer,它能通过卷积合并水平相邻块来保持布局信息并减少视觉特征长度,让LLM更高效理解高分辨率图像。还构建了结构感知文本序列和多粒度文本与边界框对的综合训练集DocStruct4M以支持结构学习,构建了小型高质量推理调优数据集DocReason25K以激发文档领域的详细解释能力。模型DocOwl 1.5在10个视觉文档理解基准测试中取得了最先进的性能,在5/10基准测试中将7B LLM的MLLMs的SOTA性能提高了10多个点,代码、模型和数据集可通过特定网址获取。

Multimodal Procedural Planning via Dual Text-Image Prompting

https://aclanthology.org/2024.findings-emnlp.641.pdf

总结:具身智能体在遵循人类指令完成任务方面表现突出,但利用图文信息辅助人类完成任务的潜力尚未充分发掘。为此提出多模态程序规划(MPP)任务,模型根据给定的高级目标生成图文步骤计划,这比单模态计划更具互补性和信息性。MPP面临确保跨模态计划的信息性、时间连贯性和准确性等挑战。解决方法是提出文本 - 图像提示(TIP)这一双模态提示法,利用大语言模型(LLM)的零样本推理能力和扩散模型的文本 - 图像生成能力,通过文到图和图到文的桥梁改善双模态交互。为解决相关数据集缺乏的问题,收集了WIKIPLAN和RECIPEPLAN作为MPP测试集,实验结果在信息性、时间连贯性和计划准确性方面,对比单模态和多模态基准有较好的人类偏好和自动评分,同时给出代码和数据的网址。

MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance

https://aclanthology.org/2024.emnlp-main.895.pdf

总结:多模态大语言模型(MLLMs)的部署带来独特漏洞,即易受视觉输入的恶意攻击。本文探讨防御MLLMs遭受此类攻击的新挑战。与大语言模型(LLMs)相比,MLLMs多了图像模态。图像像一种未在安全对齐中被考虑的“外语”,使MLLMs更易产生有害响应。图像信号的连续性带来对齐挑战,难以涵盖所有可能场景。多数先进MLLMs在有限图文对上微调,少于文本预训练语料,易在安全微调时灾难性遗忘原能力而加剧漏洞。为应对挑战,本文引入MLLM - Protector,这是一种即插即用策略,包含识别有害响应和将有害响应转化为无害响应两个子任务,可有效减轻恶意视觉输入风险且不损害MLLMs原性能,为MLLM安全中之前未解决的问题提供了可靠方案。

LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference

https://aclanthology.org/2024.findings-emnlp.235.pdf

总结:《LOOK - M:用于高效多模态长文本推理的KV缓存一次性优化》。长文本多模态大语言模型(MLLMs)的推理需要大量计算资源,因为随着输入长度增加,其多模态键值(KV)缓存增长,这对内存和时间效率带来挑战。与仅处理文本语境的单模态大语言模型不同,长文本MLLMs的KV缓存包含具有时空关系的多个图像的表征以及相关文本语境。

RAGAR, Your Falsehood Radar: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models

https://aclanthology.org/2024.fever-1.29.pdf

总结:随着政治话语中错误信息的挑战不断升级,多模态声明场景下更需先进的事实核查方案。本文利用多模态大语言模型结合检索增强生成(RAG)解决该问题,引入两种推理技术(链状与树状RAG),它们通过提取文本和图像内容、检索外部信息并依据先验证据推理后续待答问题来核查多模态声明,加权F1分数达0.85,超基线推理技术0.14分,人类评估也表明多数生成的事实核查解释包含了金标准数据中的所有信息。

ImageInWords: Unlocking Hyper-Detailed Image Descriptions

https://aclanthology.org/2024.emnlp-main.6.pdf

总结:《ImageInWords: Unlocking Hyper - Detailed Image Descriptions》指出生成准确的超详细图像描述仍是未解决的问题,视觉 - 语言模型常生成视觉不一致的不完整描述。本文通过精心设计的人工介入框架ImageInWords(IIW)的数据中心方法解决该问题。对IIW数据的人工评估显示,在全面性、特异性、幻觉等方面,较新数据集(提升66%)和GPT4V(提升48%)有重大改进。使用IIW数据微调较之前工作训练的模型在相关指标上提升31%(即使只有9k样本)。最后通过文生图和视觉 - 语言推理任务评估IIW模型,其生成的描述能得到最高保真度的图像,并在相关数据集上提升组合推理能力达6%,还发布带有人类判断标签等内容的IIW Eval基准。

MIND: Multimodal Shopping Intention Distillation from Large Vision-language Models for E-commerce Purchase Understanding

https://aclanthology.org/2024.emnlp-main.446.pdf

总结:在电商平台中,提升用户体验和提供个性化搜索结果非常依赖对购买意图的理解。现有获取大规模意图的方法依赖于通过人工标注来提炼大型语言模型以进行验证,这种方法倾向于生成以产品为中心的意图,忽视了产品图像中的视觉信息,且可扩展性成本高。为解决这些问题,本文引入了MIND多模态框架。

Benchmarking Vision Language Models for Cultural Understanding

https://aclanthology.org/2024.emnlp-main.329.pdf

总结:视觉语言模型(VLMs)在基础模型和视觉 - 语言预训练发展下可对视觉和语言数据进行多模态处理,但其性能评估多为一般场景理解而非文化理解。本研究推出CulturalVQA这一视觉问答基准,用于评估VLM对不同地域文化的理解。该基准包含2378个图像 - 问题对,问题涉及11个国家的文化多方面,答案1 - 5个不等。经CulturalVQA对包括GPT - 4V和Gemini在内的VLMs进行基准测试,发现其对不同地区文化理解水平存在差异,对北美文化理解能力强,对非洲表现差;在文化层面上表现也有差异,对服饰、仪式和传统理解表现优于食物和饮品。这些差异有助于找出VLMs缺乏文化理解的方面,也证明CulturalVQA可用于全面评估VLM在理解多元文化方面的进展。

AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models

https://aclanthology.org/2024.findings-emnlp.493.pdf

总结:大型视觉 - 语言模型(LVLMs)容易产生幻觉,现有检测其幻觉的基准测试存在依赖手工制作特殊情况(可能不具普遍性)、微调会破坏有效性等问题。为此提出AutoHallusion,这是首个自动生成基准的方法,采用多种策略创建多样化的幻觉示例,视觉 - 问答对给LVLMs带来挑战。AutoHallusion能低成本创建新基准,克服手工基准的脆弱性,揭示常见失败模式和原因。对顶尖LVLMs的综合评估表明,在AutoHallusion的合成和真实数据集上,幻觉诱导成功率分别为97.7%和98.7%,为应对幻觉的长期斗争铺平道路,代码库和数据可通过指定链接获取。

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning

https://aclanthology.org/2024.emnlp-main.1059.pdf

总结:对电视剪辑等复杂多模态内容进行问答具有挑战性,部分原因是当前视频 - 语言模型依赖单模态推理、长输入时性能降低且缺乏可解释性。我们提出首个多模态蕴含树生成器TV - TREES,它通过生成由简单前提之间蕴含关系构成的树来推动可解释的联合模态推理。

MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model

https://aclanthology.org/2024.emnlp-main.387.pdf

总结:《MMNeuron:在多模态大语言模型中发现神经元级别的特定领域解释》,将视觉特征投射到词嵌入空间是多模态大语言模型(MLLMs)的重要融合策略,但其内部机制有待探索。受多语言研究启发,在多模态大语言模型中识别特定领域的神经元,探究其分布及MLLMs处理不同领域特征的机制,提出MLLMs的语言模型模块处理投射图像特征的三阶段机制且用logit lens验证。大量实验表明,当前MLLMs虽有视觉问答(VQA)能力,但可能未充分利用特定领域信息,适当操纵特定领域神经元最多会使准确率改变10%,这对未来跨领域、全包含的MLLMs发展有启示,源代码可通过特定网址获取。

TraveLER: A Modular Multi-LMM Agent Framework for Video Question-Answering

https://aclanthology.org/2024.emnlp-main.544.pdf

总结:近期,基于图像的大型多模态模型(LMMs)在视频问答(VideoQA)方面通过逐帧方法利用大规模预训练以零次学习的方式取得了重大进展。然而,这些模型需要能够同时查找相关信息、提取信息并回答问题。目前,现有方法在单次处理中执行所有这些步骤,倘若收集到的信息不充分或不正确,它们无法进行适应性调整。为克服这一问题,引入了一个模块化的多大型多模态模型智能体框架,该框架基于多个承担不同角色的智能体,并由一个规划器智能体进行指导,规划器智能体利用来自其他智能体的共享反馈来更新其指令。具体而言,提出了 “TraveLER” 方法,该方法能够制定一个计划来 “遍历” 视频,针对各个视频帧提出问题以 “定位” 并存储关键信息,然后 “评估” 是否有足够的信息来回答问题。最后,如果信息不足,方法能够基于其已收集的知识进行 “重新规划”。通过大量实验,发现所提出的 “TraveLER” 方法在多个视频问答基准测试中提高了性能,且无需针对特定数据集进行微调。

TroL: Traversal of Layers for Large Language and Vision Models

https://aclanthology.org/2024.emnlp-main.633.pdf

总结:大型语言与视觉模型(LLVMs)受到了大型语言模型(LLMs)的泛化能力以及视觉指令微调出现的推动。除了直接对它们进行扩展之外,这些模型通过自然语言指令涵盖多样的任务,使大型语言与视觉模型能够展现出强大的视觉语言(VL)性能。然而,现有在性能上能与闭源大型语言与视觉模型(如 GPT-4V)相媲美的开源大型语言与视觉模型往往被认为体量过大(例如,拥有 260 亿、340 亿和 1100 亿参数,层数较多)。这些大型模型在训练和推理时都需要成本高昂的高端资源。为解决这一问题,推出了一个新的高效大型语言与视觉模型家族,其大型语言模型部分的尺寸分别为 18 亿、38 亿和 70 亿参数,即 “层遍历”(TroL)模型,它能够以词元(token)的方式对各层进行复用。这种层遍历技术模拟了回溯并重新追踪回答流程的效果,在不实际增加更多层数的情况下增加了前向传播的层数。证明了 “层遍历”(TroL)采用了一种简单的层遍历方法,但却能高效地超越具有更大模型尺寸的开源大型语言与视觉模型,并且能与规模可观的闭源大型语言与视觉模型的性能相匹敌。


往期 · 推荐

「学术趋势」EMNLP 24 智能体 TOP15 被引论文盘点

「学术趋势」EMNLP 24 复杂推理 Top15 被引盘点

「学术趋势」EMNLP 24 评测领域 Top15 被引盘点

「学术趋势」EMNLP 24 最佳论文盘点

🌠 后续我们还会继续陆续发布不同领域的 EMNLP 2024 高引盘点,在机智流公众号后台对话框回复“盘点”,加入顶会论文盘点交流群。

一起“点赞”三连👇

机智流
共赴 AI 时代浪潮~涉及涵盖计算机视觉、大语言模型、多模态模型等AI领域最新资讯知识分享~
 最新文章