点击上方蓝字关注我们
1. Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances
作者列表:
Hanlei Zhang, Hua Xu, Fei Long, Xin Wang, Kai Gao
作者单位: 清华大学、河北科技大学等
论文链接:
https://arxiv.org/pdf/2405.12775
代码地址:
https://github.com/thuiar/UMC
论文贡献:
针对现有方法在利用非语言信息辨别无监督场景中的复杂语义方面表现出的局限性, 提出了一种新颖的无监督多模态聚类方法(UMC),引入了一种独特的方法来构建多模态数据的增强视图,然后将其用于执行预训练以建立初始化良好的表示以供后续聚类。
2. Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences
作者列表:
Xiyao Wang, Yuhang Zhou, Xiaoyu Liu, Hongjin Lu, Yuancheng Xu, Feihong He, Jaehong Yoon, Taixi Lu, Fuxiao Liu, Gedas Bertasius, Mohit Bansal, Huaxiu Yao, Furong Huang
作者单位: University of Maryland、UNC-Chapel Hill
论文链接:
https://arxiv.org/pdf/2401.10529
代码地址:
https://github.com/umd-huang-lab/Mementos
论文贡献:
针对当前的 MLLM 基准测试主要用于评估基于单个图像的静态信息的推理能力,而现代MLLM 从图像序列中进行推断的能力(这对于理解我们不断变化的世界至关重要)尚未得到充分研究这一挑战,提出了Mementos,一个旨在评估 MLLM 顺序图像推理能力的新基准测试。
3. Multimodal Instruction Tuning with Conditional Mixture of LoRA
作者列表:
Ying Shen, Zhiyang Xu, Qifan Wang, Yu Cheng, Wenpeng Yin, Lifu Huang
作者单位: Virginia Tech、Meta AI, etc.
论文链接:
https://arxiv.org/pdf/2402.15896
代码地址:
https://github.com/haotian-liu/LLaVA/
论文贡献:
在多模态指令调整中应用 LoRA 会带来任务干扰的挑战,这会导致性能下降,尤其是在处理广泛的多模态任务时。为了解决这个问题,提出了一种将多模态指令调整与条件混合 LoRA (MixLoRA) 相结合的新方法。它通过动态构建针对每个输入实例的独特需求的低秩自适应矩阵来创新 LoRA,旨在减轻任务干扰。
4. VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks
作者列表:
Jing Yu Koh, Robert Lo, Lawrence Jang, Vikram Duvvur, Ming Chong Lim, Po-Yu Huang, Graham Neubig, Shuyan Zhou, Ruslan Salakhutdinov, Daniel Fried
作者单位: Carnegie Mellon University
论文链接:
https://aclanthology.org/2024.acl-long.50.pdf
代码地址:
https://github.com/web-arena-x/visualwebarena
论文贡献:
现有的大多数基准测试主要关注基于文本的agent,而忽略了许多需要视觉信息才能有效解决的自然任务。为了弥补这一差距,提出了 VisualWebArena基准测试,旨在评估多模态agent在现实的视觉基础网络任务上的表现。VisualWebArena 包含各种复杂的基于网络的任务,可评估自主多模态代理的各种功能。
5. SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents
作者列表:
Kanzhi Cheng, Qiushi Sun, Yougang Chu, Fangzhi Xu, Li YanTao, Jianbing Zhang, Zhiyong Wu
作者单位:
南京大学、上海AI Lab
论文地址:
https://arxiv.org/abs/2401.10935
项目地址:
https://github.com/njucckevin/SeeClick
更多相关工作:
https://huggingface.co/OS-Copilot
论文贡献:
构建了一个统一的多模态GUI智能体SeeClick,能够在各种GUI平台上通过观察屏幕执行点击、输入等操作。构建了首个大规模GUI Grounding预训练数据集用于增强视觉语言模型定位GUI元素的能力。创建了首个真实、多GUI平台的GUI Grounding评测基准ScreenSpot。
论文解读:
ACL 2024 |南京大学与上海AI Lab提出多模态GUI智能体,像人一样操作手机电脑
6.Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback
作者列表:
Daechul Ahn, Yura Choi, Youngjae Yu, Dongyeop Kang, Jonghyun Choi
作者单位: Yonsei University,University of Minnesota,etc
论文链接:
https://arxiv.org/pdf/2402.03746
代码地址:
https://github.com/yonseivnl/vlm-rlaif
论文贡献:
视频和文本多模态对齐仍然具有挑战性,主要是因为与纯文本数据相比,多模态指令调整数据的数量和质量不足。提出了一种新颖的对齐策略,该策略采用多模态 AI 系统来监督自己,称为 AI 反馈强化学习 (RLAIF),提供自我偏好反馈来完善自身并促进视频和文本模态的对齐。
7. Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models
作者列表:
Lei Li, Yuqi Wang, Runxin Xu, Peiyi Wang, Xiachong Feng, Lingpeng Kong, Qi Liu
作者单位: 香港大学、北京大学
论文链接:
https://www.semanticscholar.org/reader/56994972adca9319577617345128e46803a4043f
代码地址:
https://mm-arxiv.github.io/
论文贡献:
由于科学领域的训练数据集稀缺,它们解释抽象图形(如几何形状和科学图表)的能力仍然有限。引入了由 ArXivCap 和 ArXivQA 组成的多模态 ArXiv,以增强 LVLM 的科学理解能力。ArXivCap 是一个图形标题数据集,包含 640 万张图像和 390 万条标题,来源于 572K 篇涵盖各个科学领域的 ArXiv 论文。
8. EasyGen: Easing Multimodal Generation with BiDiffuser and LLMs
作者列表:
Xiangyu Zhao, Bo LIU, Qijiong Liu, Guangyuan SHI, Xiao-Ming Wu
作者单位: 香港理工大学
论文链接:
https://aclanthology.org/2024.acl-long.74.pdf
代码地址:
https://github.com/xiangyu-mm/EasyGen
论文贡献:
提出了 EasyGen,旨在通过利用扩散模型和大语言模型 (LLM) 的功能来增强多模态理解和生成。与现有的主要依赖于 CLIP 或 ImageBind 等编码器并需要大量训练数据来桥接模态的多模态模型不同,EasyGen 利用双向条件扩散模型 BiDiffuser 来促进更有效的模态交互。
9. Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition
作者列表:
Zirun Guo, Tao Jin, Zhou Zhao
作者单位: 浙江大学、上海AI Lab
论文链接:
https://aclanthology.org/2024.acl-long.94.pdf
代码地址:
https://github.com/zrguo/MPLMM
论文贡献:
在实际应用中,各种缺失模态情况的存在往往会导致模型性能下降。提出了一种新颖的多模态 Transformer 框架,使用提示学习来解决缺失模态的问题。该方法引入了三种类型的提示:生成提示、缺失信号提示和缺失类型提示。这些提示能够生成缺失的模态特征,并有助于学习模态内和模态间信息。
10. Unified Hallucination Detection for Multimodal Large Language Models
作者列表:
Xiang Chen, Chenxi Wang, Yida Xue, Ningyu Zhang, xiaoyan yang, Qiang Li, YUE SHEN, Lei Liang, Jinjie GU, Huajun Chen
作者单位: 浙江大学、蚂蚁集团
论文链接:
https://arxiv.org/pdf/2402.03190
代码地址:
https://www.zjukg.org/project/EasyDetect/
论文贡献:
在 MLLM 中可靠地检测此类幻觉已成为模型评估和实际应用部署保障的重要方面。该领域的先前研究受到对单一任务的狭隘关注、涉及的幻觉类别范围不足以及缺乏详细粒度的限制。为了应对这些挑战,们提出了一种新颖的元评估基准 MHaluBench,精心设计,以促进对幻觉检测方法的进展进行评估。此外,设计了一种新颖的统一多模态幻觉检测框架 UNIHD来稳健地验证幻觉的发生。
11. Unity in Diversity: Collaborative Pre-training Across Multimodal Medical Sources
作者列表:
Xiaochen Wang, Junyu Luo, Jiaqi Wang, Yuan Zhong, Xiaokun Zhang, Yaqing Wang, Parminder Bhatia, Cao Xiao, Fenglong Ma
作者单位: 宾夕法尼亚州立大学、大连理工大学等
论文链接:
https://aclanthology.org/2024.acl-long.199.pdf
代码地址:
https://github.com/XiaochenWang-PSU/MedCSP
论文贡献:
目前预训练模型的有效性受到其对有限范围的医疗来源的依赖的阻碍。这种限制导致预训练期间数据稀缺,并限制了适用的下游任务的范围。为了应对这些挑战,提出了医疗跨源预训练(MEDCSP1),旨在弥补多模态医疗来源之间差距的新预训练策略。MEDCSP 采用模态级聚合来统一各个来源内的患者数据。
12. FLEUR: An Explainable Reference-Free Evaluation Metric for Image Captioning Using a Large Multimodal Model
作者列表:
Yebin Lee, Imseong Park, Myungjoo Kang
作者单位: Seoul National University
论文链接:
https://aclanthology.org/2024.acl-long.205.pdf
代码地址:
https://github.com/Yebin46/FLEUR
论文贡献:
提出了 FLEUR1,一种可解释的无参考指标,旨在将可解释性引入图像字幕评估指标。通过利用大型多模态模型,FLEUR 可以根据图像评估字幕而无需参考字幕,并为分配的分数提供解释。
13. OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems
作者列表:
Chaoqun He, Renjie Luo, Yuzhuo Bai, Shengding Hu, Zhen Leng Thai, Junhao Shen, Jinyi Hu, Xu Han, Yujie Huang, Yuxiang Zhang, Jie Liu, Lei Qi, Zhiyuan Liu, Maosong Sun
作者单位: 清华大学、北京航空航天大学等
论文链接:
https://aclanthology.org/2024.acl-long.211.pdf
代码地址:
https://github.com/OpenBMB/OlympiadBench
论文贡献:
提出了奥林匹克级双语多模态科学基准 OlympiadBench,其中包含来自奥林匹克级数学和物理竞赛(包括中国高考)的 8,476 道题。每个问题都附有专家级注释,以便逐步推理。
14. CaMML: Context-Aware Multimodal Learner for Large Models
作者列表:
Yixin Chen, Shuai Zhang, Boran Han, Tong He, Bo Li
作者单位: 香港中文大学、亚马逊等
论文链接:
https://arxiv.org/pdf/2401.03149
代码地址:
https://github.com/amazon-science/camml
论文贡献:
引入了上下文感知多模态学习器 (CaMML),用于调整大多模态模型 (LMM)。CaMML 是一个轻量级模块,旨在将多模态上下文样本无缝集成到大型模型中,从而使模型能够从类似的、特定于领域的、最新的信息中获取知识并做出有根据的推断。重要的是,CaMML 具有高度可扩展性,并且由于其分层设计,可以有效处理冗长的多模态上下文示例。
15. Rethinking the Multimodal Correlation of Multimodal Sequential Learning via Generalizable Attentional Results Alignment
作者列表:
Tao Jin, Wang Lin, Ye Wang, Linjun Li, Xize Cheng, Zhou Zhao
作者单位: 浙江大学、上海AI Lab
论文链接:
https://aclanthology.org/2024.acl-long.287.pdf
论文贡献:
模态内和模态间相互作用由多头注意力的查询-键关联捕获。这样,计算出的多模态上下文(注意力结果)有望与查询模态相关。然而,在现有文献中,同一查询的不同计算注意力结果之间的对齐程度尚未得到充分探索。因此,提出了一种称为多模态上下文对比(MCC)的新约束方案,它可以从局部和全局角度对齐多个注意力结果,使信息捕获更加高效。
16. Event-Radar: Event-driven Multi-View Learning for Multimodal Fake News Detection
作者列表:
Zihan Ma, Minnan Luo, Hao Guo, Zhi Zeng, Yiran Hao, Xiang Zhao
作者单位: 西安交通大学、国防科技大学等
论文链接:
https://aclanthology.org/2024.acl-long.316.pdf
论文贡献:
提出了一种基于多视角学习的事件驱动的假新闻检测框架(Event-Radar),将视觉操作、文本情感和事件级多模态不一致性集成在一起以进行假新闻检测。
17. UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion
作者列表:
Wei Li, Xue Xu, Jiachen Liu, Xinyan Xiao
作者单位: 百度
论文链接:
https://aclanthology.org/2024.acl-long.335.pdf
代码地址:
https://unimo-ptm.github.io/
论文贡献:
现有的文本到图像扩散模型主要从文本提示生成图像。然而,文本描述固有的简洁性对合成具有复杂细节(例如特定实体或场景)的图像提出了挑战。本文介绍了一种简单的多模态条件扩散框架 UNIMO-G,对具有交错文本和视觉输入的多模态提示进行操作,它展示了文本驱动和主题驱动图像生成的统一能力。UNIMO-G 包含两个核心组件:用于编码多模态提示的多模态大型语言模型 (MLLM) 和用于基于编码的多模态输入生成图像的条件去噪扩散网络。
18. Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA
作者列表:
Yue Fan, Jing Gu, Kaiwen Zhou, Qianqi Yan, Shan Jiang, Ching-Chen Kuo, Yang Zhao, Xinze Guan, Xin Eric Wang
作者单位: University of California, Santa Cruz eBay Inc
论文链接:
https://aclanthology.org/2024.acl-long.370.pdf
代码地址:
https://sites.google.com/view/multipanelvqa/home
论文贡献:
提出了多面板视觉问答 (MultipanelVQA),一个新颖的基准,包含 6,600 个问题、答案和多面板图像的三元组,专门挑战模型理解多面板图像的能力。
19. WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models
作者列表:
Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu
作者单位: 浙江大学、腾讯AI Lab、西湖大学
论文链接:
https://arxiv.org/pdf/2401.13919
代码地址:
https://github.com/MinorJerry/WebVoyager
论文贡献:
现有的 Web 代理通常仅处理一种输入模态,并且仅在简化的 Web 模拟器或静态 Web 快照中进行评估,这极大地限制了它们在真实场景中的适用性。为了弥补这一差距,提出了 一种创新的大型多模态模型 (LMM) 驱动的 Web 代理 WebVoyager,通过与真实网站交互来端到端地完成用户指令。
20. Multimodal Contextualized Semantic Parsing from Speech
作者列表:
Jordan Voas, David Harwath, Ray Mooney
作者单位: The University of Texas at Austin
论文链接:
https://aclanthology.org/2024.acl-long.398.pdf
代码地址:
https://github.com/jvoas655/AViD-SP
论文贡献:
引入了上下文环境中的语义解析 (SPICE),旨在通过将多模态输入与先前上下文相结合来增强人工智能代理的上下文意识的任务。SPICE 超越了传统的语义解析,提供了一个结构化、可解释的框架,用于用新信息动态更新代理的知识,反映了人类交流的复杂性.
21. Advancement in Graph Understanding: A Multimodal Benchmark and Fine-Tuning of Vision-Language Models
作者列表:
Qihang Ai, Jiafan Li, Jincheng Dai, Jianwu Zhou, Lemao Liu, Haiyun Jiang, Shuming Shi
作者单位: 北京理工大学,中国科学院软件研究所等
论文链接:
https://aclanthology.org/2024.acl-long.404.pdf
论文贡献:
图形数据组织对象之间的复杂关系和交互,促进不同领域的高级分析和决策。提出了一种交互式和教学性图形数据理解和推理的新范式。文中没有采用复杂的图形神经模型或启发式图形到文本的教学设计,而是利用视觉语言模型(VLM)对不同领域中具有不同结构的图形图像进行编码。
22. Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment
作者列表:
yunxin li, Xinyu Chen, Baotian Hu, Haoyuan Shi, Min Zhang
作者单位: 哈尔滨工业大学
论文链接:
https://aclanthology.org/2024.acl-long.411.pdf
代码地址:
https://github.com/HITsz-TMG/Cognitive-Visual-Language-Mapper
论文贡献:
视觉语言投影方法(例如 Q-former 或 MLP)专注于图像文本描述的对齐,而忽略了视觉知识维度对齐,即将视觉效果与其相关知识联系起来。为此,提出了一个**认知视觉语言映射器 (CVLM)**,它包含一个预训练的视觉知识对齐器 (VKA) 和一个用于多模态指令调整阶段的细粒度知识适配器 (FKA)。
23. STICKERCONV: Generating Multimodal Empathetic Responses from Scratch
作者列表:
Yiqun Zhang, Fanheng Kong, Peidong Wang, Shuang Sun, SWangLing, Shi Feng, Daling Wang, Yifei Zhang, Kaisong Song
作者单位: 东北大学、阿里巴巴
论文链接:
https://aclanthology.org/2024.acl-long.417.pdf
代码地址:
https://github.com/ZhangYiqun018/StickerConv
论文贡献:
提出了 STICKERCONV 的agent (Agent4SC),使用协作agent交互来真实地模拟人类使用表情包的行为,从而增强多模态同理心交流。在此基础上,开发了一个多模态同理心对话数据集 STICKERCONV,包括 12.9K 个对话会话、5.8K 个独特Stickers和 2K 个不同的对话场景
24. EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models
作者列表:
Rocktim Jyoti Das, Simeon Emilov Hristov, Haonan Li, Dimitar Iliyanov Dimitrov, Ivan Koychev, Preslav Nakov
作者单位: Mohamed bin Zayed University of Artificial Intelligence, FMI, Sofia University "St. Kliment Ohridski"
论文链接:
https://aclanthology.org/2024.acl-long.420.pdf
代码地址:
https://github.com/mbzuai-nlp/EXAMS-V
论文贡献:
提出了 EXAMS-V,这是一种用于评估视觉语言模型的全新、具有挑战性的多学科多模态多语言考试基准。它包含 20 个学校学科的 20,932 道多项选择题,涵盖自然科学、社会科学和其他杂项研究,例如宗教、美术、商业等。EXAMS-V 包括各种多模态特征,例如文本、图像、表格、图形、图表、地图、科学符号和方程式。这些问题来自 7 个语系的 11 种语言。
25. Chain-of-Exemplar: Enhancing Distractor Generation for Multimodal Educational Question Generation
作者列表:
Haohao Luo, Yang Deng, Ying Shen, See-Kiong Ng, Tat-Seng Chua
作者单位: 中山大学、新加坡国立大学等
论文链接:
https://aclanthology.org/2024.acl-long.432.pdf
论文贡献:
研究了多模态教育问题生成问题,旨在基于多模态教育内容生成具有合理但不正确的干扰项的特定主题教育问题。为了解决这个问题,引入了一个新框架,名为 Chainof-Exemplar (CoE),利用具有 Chainof-Thought 推理的多模态大型语言模型 (MLLM) 来改进具有挑战性的干扰项的生成。
喜欢的话,请别忘记点赞👍➕关注哦
点个「在看」你最好看
STUDY
推荐阅读
AAAI 2024|Structure-CLIP—利用场景图知识增强多模态结构化表示
ECCV 2024| 多模态学习新突破!中国人民大学、清华大学等提出诊断和再学习方法平衡多模态训练
ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集