ACL 2024|机器学习新纪元!多模态机器学习火热论文汇总特辑!(上)

文摘   2024-08-25 18:07   英国  


点击上方蓝字关注我们




第 62 届计算语言学协会年会(Annual Meeting of the Association for Computational Linguistics, ACL 2024)已于 2024 年 8 月 11 日至 16 日在泰国曼谷成功举行。据官方数据统计,ACL 2024的Main Conference接收率为 21.3%,Findings 录用率为 22.1%。
多模态大模型、对比学习、表示学习、生成模型等关键词仍居高频词榜单,热度不减,日渐攀升。多模态融合、跨模态检索与对齐、多模态表示学习、多模态模型解释性、模型效率与稳健性等仍是多模态机器学习领域关注的研究热点。多模态机器学习研究的重点不仅在于结合模态,还趋向于以更易于解释和更有效的方式理解和利用每种模态的独特优势。本文汇总了ACL 2024会议 long paper中多模态相关的论文,供读者参考学习~因为论文篇数较多,为了使读者具有更好的阅读体验,本期分为上下两集发布,感谢您的支持与关注!

也欢迎热爱科研的你投稿,期待你的来稿!

 


1. Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances

作者列表:

Hanlei Zhang, Hua Xu, Fei Long, Xin Wang, Kai Gao

作者单位: 清华大学、河北科技大学等

论文链接:

https://arxiv.org/pdf/2405.12775

代码地址:

https://github.com/thuiar/UMC

论文贡献:

针对现有方法在利用非语言信息辨别无监督场景中的复杂语义方面表现出的局限性, 提出了一种新颖的无监督多模态聚类方法(UMC),引入了一种独特的方法来构建多模态数据的增强视图,然后将其用于执行预训练以建立初始化良好的表示以供后续聚类。

2. Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences

作者列表:

Xiyao Wang, Yuhang Zhou, Xiaoyu Liu, Hongjin Lu, Yuancheng Xu, Feihong He, Jaehong Yoon, Taixi Lu, Fuxiao Liu, Gedas Bertasius, Mohit Bansal, Huaxiu Yao, Furong Huang

作者单位: University of Maryland、UNC-Chapel Hill

论文链接:

https://arxiv.org/pdf/2401.10529

代码地址:

https://github.com/umd-huang-lab/Mementos

论文贡献:

针对当前的 MLLM 基准测试主要用于评估基于单个图像的静态信息的推理能力,而现代MLLM 从图像序列中进行推断的能力(这对于理解我们不断变化的世界至关重要)尚未得到充分研究这一挑战,提出了Mementos,一个旨在评估 MLLM 顺序图像推理能力的新基准测试。

3. Multimodal Instruction Tuning with Conditional Mixture of LoRA

作者列表:

Ying Shen, Zhiyang Xu, Qifan Wang, Yu Cheng, Wenpeng Yin, Lifu Huang

作者单位:  Virginia Tech、Meta AI, etc.

论文链接:

https://arxiv.org/pdf/2402.15896

代码地址:

https://github.com/haotian-liu/LLaVA/

论文贡献:

在多模态指令调整中应用 LoRA 会带来任务干扰的挑战,这会导致性能下降,尤其是在处理广泛的多模态任务时。为了解决这个问题,提出了一种将多模态指令调整与条件混合 LoRA (MixLoRA) 相结合的新方法。它通过动态构建针对每个输入实例的独特需求的低秩自适应矩阵来创新 LoRA,旨在减轻任务干扰。

4. VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks

作者列表:

Jing Yu Koh, Robert Lo, Lawrence Jang, Vikram Duvvur, Ming Chong Lim, Po-Yu Huang, Graham Neubig, Shuyan Zhou, Ruslan Salakhutdinov, Daniel Fried

作者单位: Carnegie Mellon University

论文链接:

https://aclanthology.org/2024.acl-long.50.pdf

代码地址:

https://github.com/web-arena-x/visualwebarena

论文贡献:

现有的大多数基准测试主要关注基于文本的agent,而忽略了许多需要视觉信息才能有效解决的自然任务。为了弥补这一差距,提出了 VisualWebArena基准测试,旨在评估多模态agent在现实的视觉基础网络任务上的表现。VisualWebArena 包含各种复杂的基于网络的任务,可评估自主多模态代理的各种功能。

5. SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

作者列表:

Kanzhi Cheng, Qiushi Sun, Yougang Chu, Fangzhi Xu, Li YanTao, Jianbing Zhang, Zhiyong Wu

作者单位:

南京大学、上海AI Lab

论文地址:

https://arxiv.org/abs/2401.10935

项目地址:

https://github.com/njucckevin/SeeClick

更多相关工作:

https://huggingface.co/OS-Copilot

论文贡献:

构建了一个统一的多模态GUI智能体SeeClick,能够在各种GUI平台上通过观察屏幕执行点击、输入等操作。构建了首个大规模GUI Grounding预训练数据集用于增强视觉语言模型定位GUI元素的能力。创建了首个真实、多GUI平台的GUI Grounding评测基准ScreenSpot。

论文解读:

ACL 2024 |南京大学与上海AI Lab提出多模态GUI智能体,像人一样操作手机电脑

6.Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback

作者列表:

Daechul Ahn, Yura Choi, Youngjae Yu, Dongyeop Kang, Jonghyun Choi

作者单位: Yonsei University,University of Minnesota,etc

论文链接:

https://arxiv.org/pdf/2402.03746

代码地址:

https://github.com/yonseivnl/vlm-rlaif

论文贡献:

视频和文本多模态对齐仍然具有挑战性,主要是因为与纯文本数据相比,多模态指令调整数据的数量和质量不足。提出了一种新颖的对齐策略,该策略采用多模态 AI 系统来监督自己,称为 AI 反馈强化学习 (RLAIF),提供自我偏好反馈来完善自身并促进视频和文本模态的对齐

7. Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models

作者列表:

Lei Li, Yuqi Wang, Runxin Xu, Peiyi Wang, Xiachong Feng, Lingpeng Kong, Qi Liu

作者单位: 香港大学、北京大学

论文链接:

https://www.semanticscholar.org/reader/56994972adca9319577617345128e46803a4043f

代码地址:

https://mm-arxiv.github.io/

论文贡献:

由于科学领域的训练数据集稀缺,它们解释抽象图形(如几何形状和科学图表)的能力仍然有限。引入了由 ArXivCap 和 ArXivQA 组成的多模态 ArXiv,以增强 LVLM 的科学理解能力。ArXivCap 是一个图形标题数据集,包含 640 万张图像和 390 万条标题,来源于 572K 篇涵盖各个科学领域的 ArXiv 论文。

8. EasyGen: Easing Multimodal Generation with BiDiffuser and LLMs

作者列表:

Xiangyu Zhao, Bo LIU, Qijiong Liu, Guangyuan SHI, Xiao-Ming Wu

作者单位: 香港理工大学

论文链接:

https://aclanthology.org/2024.acl-long.74.pdf

代码地址:

https://github.com/xiangyu-mm/EasyGen

论文贡献:

提出了 EasyGen,旨在通过利用扩散模型和大语言模型 (LLM) 的功能来增强多模态理解和生成。与现有的主要依赖于 CLIP 或 ImageBind 等编码器并需要大量训练数据来桥接模态的多模态模型不同,EasyGen 利用双向条件扩散模型 BiDiffuser 来促进更有效的模态交互

9. Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition

作者列表:

Zirun Guo, Tao Jin, Zhou Zhao

作者单位: 浙江大学、上海AI Lab

论文链接:

https://aclanthology.org/2024.acl-long.94.pdf

代码地址:

https://github.com/zrguo/MPLMM

论文贡献:

在实际应用中,各种缺失模态情况的存在往往会导致模型性能下降。提出了一种新颖的多模态 Transformer 框架,使用提示学习来解决缺失模态的问题。该方法引入了三种类型的提示:生成提示、缺失信号提示和缺失类型提示。这些提示能够生成缺失的模态特征,并有助于学习模态内和模态间信息。

10. Unified Hallucination Detection for Multimodal Large Language Models

作者列表:

Xiang Chen, Chenxi Wang, Yida Xue, Ningyu Zhang, xiaoyan yang, Qiang Li, YUE SHEN, Lei Liang, Jinjie GU, Huajun Chen

作者单位: 浙江大学、蚂蚁集团

论文链接:

https://arxiv.org/pdf/2402.03190

代码地址:

https://www.zjukg.org/project/EasyDetect/

论文贡献:

在 MLLM 中可靠地检测此类幻觉已成为模型评估和实际应用部署保障的重要方面。该领域的先前研究受到对单一任务的狭隘关注、涉及的幻觉类别范围不足以及缺乏详细粒度的限制。为了应对这些挑战,们提出了一种新颖的元评估基准 MHaluBench,精心设计,以促进对幻觉检测方法的进展进行评估。此外,设计了一种新颖的统一多模态幻觉检测框架 UNIHD来稳健地验证幻觉的发生

11. Unity in Diversity: Collaborative Pre-training Across Multimodal Medical Sources

作者列表:

Xiaochen Wang, Junyu Luo, Jiaqi Wang, Yuan Zhong, Xiaokun Zhang, Yaqing Wang, Parminder Bhatia, Cao Xiao, Fenglong Ma

作者单位: 宾夕法尼亚州立大学、大连理工大学等

论文链接:

https://aclanthology.org/2024.acl-long.199.pdf

代码地址:

https://github.com/XiaochenWang-PSU/MedCSP

论文贡献:

目前预训练模型的有效性受到其对有限范围的医疗来源的依赖的阻碍。这种限制导致预训练期间数据稀缺,并限制了适用的下游任务的范围。为了应对这些挑战,提出了医疗跨源预训练(MEDCSP1),旨在弥补多模态医疗来源之间差距的新预训练策略。MEDCSP 采用模态级聚合来统一各个来源内的患者数据。

12. FLEUR: An Explainable Reference-Free Evaluation Metric for Image Captioning Using a Large Multimodal Model

作者列表:

Yebin Lee, Imseong Park, Myungjoo Kang

作者单位: Seoul National University

论文链接:

https://aclanthology.org/2024.acl-long.205.pdf

代码地址:

https://github.com/Yebin46/FLEUR

论文贡献:

提出了 FLEUR1,一种可解释的无参考指标,旨在将可解释性引入图像字幕评估指标。通过利用大型多模态模型,FLEUR 可以根据图像评估字幕而无需参考字幕,并为分配的分数提供解释。

13. OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems

作者列表:

Chaoqun He, Renjie Luo, Yuzhuo Bai, Shengding Hu, Zhen Leng Thai, Junhao Shen, Jinyi Hu, Xu Han, Yujie Huang, Yuxiang Zhang, Jie Liu, Lei Qi, Zhiyuan Liu, Maosong Sun

作者单位: 清华大学、北京航空航天大学等

论文链接:

https://aclanthology.org/2024.acl-long.211.pdf

代码地址:

https://github.com/OpenBMB/OlympiadBench

论文贡献:

提出了奥林匹克级双语多模态科学基准 OlympiadBench,其中包含来自奥林匹克级数学和物理竞赛(包括中国高考)的 8,476 道题。每个问题都附有专家级注释,以便逐步推理。

14. CaMML: Context-Aware Multimodal Learner for Large Models

作者列表:

Yixin Chen, Shuai Zhang, Boran Han, Tong He, Bo Li

作者单位: 香港中文大学、亚马逊等

论文链接:

https://arxiv.org/pdf/2401.03149

代码地址:

https://github.com/amazon-science/camml

论文贡献:

引入了上下文感知多模态学习器 (CaMML),用于调整大多模态模型 (LMM)。CaMML 是一个轻量级模块,旨在将多模态上下文样本无缝集成到大型模型中,从而使模型能够从类似的、特定于领域的、最新的信息中获取知识并做出有根据的推断。重要的是,CaMML 具有高度可扩展性,并且由于其分层设计,可以有效处理冗长的多模态上下文示例。

15. Rethinking the Multimodal Correlation of Multimodal Sequential Learning via Generalizable Attentional Results Alignment

作者列表:

Tao Jin, Wang Lin, Ye Wang, Linjun Li, Xize Cheng, Zhou Zhao

作者单位: 浙江大学、上海AI Lab

论文链接:

https://aclanthology.org/2024.acl-long.287.pdf

论文贡献:

模态内和模态间相互作用由多头注意力的查询-键关联捕获。这样,计算出的多模态上下文(注意力结果)有望与查询模态相关。然而,在现有文献中,同一查询的不同计算注意力结果之间的对齐程度尚未得到充分探索。因此,提出了一种称为多模态上下文对比(MCC)的新约束方案,它可以从局部和全局角度对齐多个注意力结果,使信息捕获更加高效。

16. Event-Radar: Event-driven Multi-View Learning for Multimodal Fake News Detection

作者列表:

Zihan Ma, Minnan Luo, Hao Guo, Zhi Zeng, Yiran Hao, Xiang Zhao

作者单位: 西安交通大学、国防科技大学等

论文链接:

https://aclanthology.org/2024.acl-long.316.pdf

论文贡献:

提出了一种基于多视角学习的事件驱动的假新闻检测框架(Event-Radar),将视觉操作、文本情感和事件级多模态不一致性集成在一起以进行假新闻检测。

17. UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion

作者列表:

Wei Li, Xue Xu, Jiachen Liu, Xinyan Xiao

作者单位: 百度

论文链接:

https://aclanthology.org/2024.acl-long.335.pdf

代码地址:

https://unimo-ptm.github.io/

论文贡献:

现有的文本到图像扩散模型主要从文本提示生成图像。然而,文本描述固有的简洁性对合成具有复杂细节(例如特定实体或场景)的图像提出了挑战。本文介绍了一种简单的多模态条件扩散框架 UNIMO-G,对具有交错文本和视觉输入的多模态提示进行操作,它展示了文本驱动和主题驱动图像生成的统一能力。UNIMO-G 包含两个核心组件:用于编码多模态提示的多模态大型语言模型 (MLLM) 和用于基于编码的多模态输入生成图像的条件去噪扩散网络。

18. Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA

作者列表:

Yue Fan, Jing Gu, Kaiwen Zhou, Qianqi Yan, Shan Jiang, Ching-Chen Kuo, Yang Zhao, Xinze Guan, Xin Eric Wang

作者单位: University of California, Santa Cruz eBay Inc

论文链接:

https://aclanthology.org/2024.acl-long.370.pdf

代码地址:

https://sites.google.com/view/multipanelvqa/home

论文贡献:

提出了多面板视觉问答 (MultipanelVQA),一个新颖的基准,包含 6,600 个问题、答案和多面板图像的三元组,专门挑战模型理解多面板图像的能力。

19. WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

作者列表:

Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu

作者单位:  浙江大学、腾讯AI Lab、西湖大学

论文链接:

https://arxiv.org/pdf/2401.13919

代码地址:

https://github.com/MinorJerry/WebVoyager

论文贡献:

现有的 Web 代理通常仅处理一种输入模态,并且仅在简化的 Web 模拟器或静态 Web 快照中进行评估,这极大地限制了它们在真实场景中的适用性。为了弥补这一差距,提出了 一种创新的大型多模态模型 (LMM) 驱动的 Web 代理 WebVoyager,通过与真实网站交互来端到端地完成用户指令。

20. Multimodal Contextualized Semantic Parsing from Speech

作者列表:

Jordan Voas, David Harwath, Ray Mooney

作者单位: The University of Texas at Austin

论文链接:

https://aclanthology.org/2024.acl-long.398.pdf

代码地址:

https://github.com/jvoas655/AViD-SP

论文贡献:

引入了上下文环境中的语义解析 (SPICE),旨在通过将多模态输入与先前上下文相结合来增强人工智能代理的上下文意识的任务。SPICE 超越了传统的语义解析,提供了一个结构化、可解释的框架,用于用新信息动态更新代理的知识,反映了人类交流的复杂性.

21. Advancement in Graph Understanding: A Multimodal Benchmark and Fine-Tuning of Vision-Language Models

作者列表:

Qihang Ai, Jiafan Li, Jincheng Dai, Jianwu Zhou, Lemao Liu, Haiyun Jiang, Shuming Shi

作者单位: 北京理工大学,中国科学院软件研究所等

论文链接:

https://aclanthology.org/2024.acl-long.404.pdf

论文贡献:

图形数据组织对象之间的复杂关系和交互,促进不同领域的高级分析和决策。提出了一种交互式和教学性图形数据理解和推理的新范式。文中没有采用复杂的图形神经模型或启发式图形到文本的教学设计,而是利用视觉语言模型(VLM)对不同领域中具有不同结构的图形图像进行编码。

22. Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment

作者列表:

yunxin li, Xinyu Chen, Baotian Hu, Haoyuan Shi, Min Zhang

作者单位: 哈尔滨工业大学

论文链接:

https://aclanthology.org/2024.acl-long.411.pdf

代码地址:

https://github.com/HITsz-TMG/Cognitive-Visual-Language-Mapper

论文贡献:

视觉语言投影方法(例如 Q-former 或 MLP)专注于图像文本描述的对齐,而忽略了视觉知识维度对齐,即将视觉效果与其相关知识联系起来。为此,提出了一个**认知视觉语言映射器 (CVLM)**,它包含一个预训练的视觉知识对齐器 (VKA) 和一个用于多模态指令调整阶段的细粒度知识适配器 (FKA)。

23. STICKERCONV: Generating Multimodal Empathetic Responses from Scratch

作者列表:

Yiqun Zhang, Fanheng Kong, Peidong Wang, Shuang Sun, SWangLing, Shi Feng, Daling Wang, Yifei Zhang, Kaisong Song

作者单位:  东北大学、阿里巴巴

论文链接:

https://aclanthology.org/2024.acl-long.417.pdf

代码地址:

https://github.com/ZhangYiqun018/StickerConv

论文贡献:

提出了 STICKERCONV 的agent (Agent4SC),使用协作agent交互来真实地模拟人类使用表情包的行为,从而增强多模态同理心交流。在此基础上,开发了一个多模态同理心对话数据集 STICKERCONV,包括 12.9K 个对话会话、5.8K 个独特Stickers和 2K 个不同的对话场景

24. EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

作者列表:

Rocktim Jyoti Das, Simeon Emilov Hristov, Haonan Li, Dimitar Iliyanov Dimitrov, Ivan Koychev, Preslav Nakov

作者单位: Mohamed bin Zayed University of Artificial Intelligence, FMI, Sofia University "St. Kliment Ohridski"

论文链接:

https://aclanthology.org/2024.acl-long.420.pdf

代码地址:

https://github.com/mbzuai-nlp/EXAMS-V

论文贡献:

提出了 EXAMS-V,这是一种用于评估视觉语言模型的全新、具有挑战性的多学科多模态多语言考试基准。它包含 20 个学校学科的 20,932 道多项选择题,涵盖自然科学、社会科学和其他杂项研究,例如宗教、美术、商业等。EXAMS-V 包括各种多模态特征,例如文本、图像、表格、图形、图表、地图、科学符号和方程式。这些问题来自 7 个语系的 11 种语言。

25. Chain-of-Exemplar: Enhancing Distractor Generation for Multimodal Educational Question Generation

作者列表:

Haohao Luo, Yang Deng, Ying Shen, See-Kiong Ng, Tat-Seng Chua

作者单位: 中山大学、新加坡国立大学等

论文链接:

https://aclanthology.org/2024.acl-long.432.pdf

论文贡献:

研究了多模态教育问题生成问题,旨在基于多模态教育内容生成具有合理但不正确的干扰项的特定主题教育问题。为了解决这个问题,引入了一个新框架,名为 Chainof-Exemplar (CoE),利用具有 Chainof-Thought 推理的多模态大型语言模型 (MLLM) 来改进具有挑战性的干扰项的生成。


   喜欢的话,请别忘记点赞👍➕关注哦 



点个「在看」你最好看


STUDY


推荐阅读



AAAI 2024|Structure-CLIP—利用场景图知识增强多模态结构化表示

论文速递|追踪多模态机器学习领域最新研究动态!

ECCV 2024| 多模态学习新突破!中国人民大学、清华大学等提出诊断和再学习方法平衡多模态训练

ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集

TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习

ACL 2024 |南京大学与上海AI Lab提出多模态GUI智能体,像人一样操作手机电脑

多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章