ACL 2024｜机器学习新纪元！多模态机器学习火热论文汇总特辑！（上）

文摘 2024-08-25 18:07 英国

点击上方蓝字关注我们

第 62 届计算语言学协会年会（Annual Meeting of the Association for Computational Linguistics, ACL 2024）已于 2024 年 8 月 11 日至 16 日在泰国曼谷成功举行。据官方数据统计，ACL 2024的Main Conference接收率为 21.3%，Findings 录用率为 22.1%。多模态大模型、对比学习、表示学习、生成模型等关键词仍居高频词榜单，热度不减，日渐攀升。多模态融合、跨模态检索与对齐、多模态表示学习、多模态模型解释性、模型效率与稳健性等仍是多模态机器学习领域关注的研究热点。多模态机器学习研究的重点不仅在于结合模态，还趋向于以更易于解释和更有效的方式理解和利用每种模态的独特优势。本文汇总了ACL 2024会议 long paper中多模态相关的论文，供读者参考学习～因为论文篇数较多，为了使读者具有更好的阅读体验，本期分为上下两集发布，感谢您的支持与关注！

也欢迎热爱科研的你投稿，期待你的来稿！

1. Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances

作者列表：

Hanlei Zhang, Hua Xu, Fei Long, Xin Wang, Kai Gao

作者单位： 清华大学、河北科技大学等

论文链接：

https://arxiv.org/pdf/2405.12775

代码地址：

https://github.com/thuiar/UMC

论文贡献：

针对现有方法在利用非语言信息辨别无监督场景中的复杂语义方面表现出的局限性，提出了一种新颖的无监督多模态聚类方法（UMC），引入了一种独特的方法来构建多模态数据的增强视图，然后将其用于执行预训练以建立初始化良好的表示以供后续聚类。

2. Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences

作者列表：

Xiyao Wang, Yuhang Zhou, Xiaoyu Liu, Hongjin Lu, Yuancheng Xu, Feihong He, Jaehong Yoon, Taixi Lu, Fuxiao Liu, Gedas Bertasius, Mohit Bansal, Huaxiu Yao, Furong Huang

作者单位： University of Maryland、UNC-Chapel Hill

论文链接：

https://arxiv.org/pdf/2401.10529

代码地址：

https://github.com/umd-huang-lab/Mementos

论文贡献：

针对当前的 MLLM 基准测试主要用于评估基于单个图像的静态信息的推理能力，而现代MLLM 从图像序列中进行推断的能力（这对于理解我们不断变化的世界至关重要）尚未得到充分研究这一挑战，提出了Mementos，一个旨在评估 MLLM 顺序图像推理能力的新基准测试。

3. Multimodal Instruction Tuning with Conditional Mixture of LoRA

作者列表：

Ying Shen, Zhiyang Xu, Qifan Wang, Yu Cheng, Wenpeng Yin, Lifu Huang

作者单位： Virginia Tech、Meta AI, etc.

论文链接：

https://arxiv.org/pdf/2402.15896

代码地址：

https://github.com/haotian-liu/LLaVA/

论文贡献：

在多模态指令调整中应用 LoRA 会带来任务干扰的挑战，这会导致性能下降，尤其是在处理广泛的多模态任务时。为了解决这个问题，提出了一种将多模态指令调整与条件混合 LoRA (MixLoRA) 相结合的新方法。它通过动态构建针对每个输入实例的独特需求的低秩自适应矩阵来创新 LoRA，旨在减轻任务干扰。

4. VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks

作者列表：

Jing Yu Koh, Robert Lo, Lawrence Jang, Vikram Duvvur, Ming Chong Lim, Po-Yu Huang, Graham Neubig, Shuyan Zhou, Ruslan Salakhutdinov, Daniel Fried

作者单位： Carnegie Mellon University

论文链接：

https://aclanthology.org/2024.acl-long.50.pdf

代码地址：

https://github.com/web-arena-x/visualwebarena

论文贡献：

现有的大多数基准测试主要关注基于文本的agent，而忽略了许多需要视觉信息才能有效解决的自然任务。为了弥补这一差距，提出了 VisualWebArena基准测试，旨在评估多模态agent在现实的视觉基础网络任务上的表现。VisualWebArena 包含各种复杂的基于网络的任务，可评估自主多模态代理的各种功能。

5. SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

作者列表：

Kanzhi Cheng, Qiushi Sun, Yougang Chu, Fangzhi Xu, Li YanTao, Jianbing Zhang, Zhiyong Wu

作者单位：

南京大学、上海AI Lab

论文地址：

https://arxiv.org/abs/2401.10935

项目地址：

https://github.com/njucckevin/SeeClick

更多相关工作：

https://huggingface.co/OS-Copilot

论文贡献：

构建了一个统一的多模态GUI智能体SeeClick，能够在各种GUI平台上通过观察屏幕执行点击、输入等操作。构建了首个大规模GUI Grounding预训练数据集用于增强视觉语言模型定位GUI元素的能力。创建了首个真实、多GUI平台的GUI Grounding评测基准ScreenSpot。

论文解读：

ACL 2024 ｜南京大学与上海AI Lab提出多模态GUI智能体，像人一样操作手机电脑

6.Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback

作者列表：

Daechul Ahn, Yura Choi, Youngjae Yu, Dongyeop Kang, Jonghyun Choi

作者单位： Yonsei University，University of Minnesota，etc

论文链接：

https://arxiv.org/pdf/2402.03746

代码地址：

https://github.com/yonseivnl/vlm-rlaif

论文贡献：

视频和文本多模态对齐仍然具有挑战性，主要是因为与纯文本数据相比，多模态指令调整数据的数量和质量不足。提出了一种新颖的对齐策略，该策略采用多模态 AI 系统来监督自己，称为 AI 反馈强化学习 (RLAIF)，提供自我偏好反馈来完善自身并促进视频和文本模态的对齐。

7. Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models

作者列表：

Lei Li, Yuqi Wang, Runxin Xu, Peiyi Wang, Xiachong Feng, Lingpeng Kong, Qi Liu

作者单位： 香港大学、北京大学

论文链接：

https://www.semanticscholar.org/reader/56994972adca9319577617345128e46803a4043f

代码地址：

https://mm-arxiv.github.io/

论文贡献：

由于科学领域的训练数据集稀缺，它们解释抽象图形（如几何形状和科学图表）的能力仍然有限。引入了由 ArXivCap 和 ArXivQA 组成的多模态 ArXiv，以增强 LVLM 的科学理解能力。ArXivCap 是一个图形标题数据集，包含 640 万张图像和 390 万条标题，来源于 572K 篇涵盖各个科学领域的 ArXiv 论文。

8. EasyGen: Easing Multimodal Generation with BiDiffuser and LLMs

作者列表：

Xiangyu Zhao, Bo LIU, Qijiong Liu, Guangyuan SHI, Xiao-Ming Wu

作者单位： 香港理工大学

论文链接：

https://aclanthology.org/2024.acl-long.74.pdf

代码地址：

https://github.com/xiangyu-mm/EasyGen

论文贡献：

提出了 EasyGen，旨在通过利用扩散模型和大语言模型 (LLM) 的功能来增强多模态理解和生成。与现有的主要依赖于 CLIP 或 ImageBind 等编码器并需要大量训练数据来桥接模态的多模态模型不同，EasyGen 利用双向条件扩散模型 BiDiffuser 来促进更有效的模态交互。

9. Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition

作者列表：

Zirun Guo, Tao Jin, Zhou Zhao

作者单位： 浙江大学、上海AI Lab

论文链接：

https://aclanthology.org/2024.acl-long.94.pdf

代码地址：

https://github.com/zrguo/MPLMM

论文贡献：

在实际应用中，各种缺失模态情况的存在往往会导致模型性能下降。提出了一种新颖的多模态 Transformer 框架，使用提示学习来解决缺失模态的问题。该方法引入了三种类型的提示：生成提示、缺失信号提示和缺失类型提示。这些提示能够生成缺失的模态特征，并有助于学习模态内和模态间信息。

10. Unified Hallucination Detection for Multimodal Large Language Models

作者列表：

Xiang Chen, Chenxi Wang, Yida Xue, Ningyu Zhang, xiaoyan yang, Qiang Li, YUE SHEN, Lei Liang, Jinjie GU, Huajun Chen

作者单位： 浙江大学、蚂蚁集团

论文链接：

https://arxiv.org/pdf/2402.03190

代码地址：

https://www.zjukg.org/project/EasyDetect/

论文贡献：

在 MLLM 中可靠地检测此类幻觉已成为模型评估和实际应用部署保障的重要方面。该领域的先前研究受到对单一任务的狭隘关注、涉及的幻觉类别范围不足以及缺乏详细粒度的限制。为了应对这些挑战，们提出了一种新颖的元评估基准 MHaluBench，精心设计，以促进对幻觉检测方法的进展进行评估。此外，设计了一种新颖的统一多模态幻觉检测框架 UNIHD来稳健地验证幻觉的发生。

11. Unity in Diversity: Collaborative Pre-training Across Multimodal Medical Sources

作者列表：

Xiaochen Wang, Junyu Luo, Jiaqi Wang, Yuan Zhong, Xiaokun Zhang, Yaqing Wang, Parminder Bhatia, Cao Xiao, Fenglong Ma

作者单位： 宾夕法尼亚州立大学、大连理工大学等

论文链接：

https://aclanthology.org/2024.acl-long.199.pdf

代码地址：

https://github.com/XiaochenWang-PSU/MedCSP

论文贡献：

目前预训练模型的有效性受到其对有限范围的医疗来源的依赖的阻碍。这种限制导致预训练期间数据稀缺，并限制了适用的下游任务的范围。为了应对这些挑战，提出了医疗跨源预训练（MEDCSP1），旨在弥补多模态医疗来源之间差距的新预训练策略。MEDCSP 采用模态级聚合来统一各个来源内的患者数据。

12. FLEUR: An Explainable Reference-Free Evaluation Metric for Image Captioning Using a Large Multimodal Model

作者列表：

Yebin Lee, Imseong Park, Myungjoo Kang

作者单位： Seoul National University

论文链接：

https://aclanthology.org/2024.acl-long.205.pdf

代码地址：

https://github.com/Yebin46/FLEUR

论文贡献：

提出了 FLEUR1，一种可解释的无参考指标，旨在将可解释性引入图像字幕评估指标。通过利用大型多模态模型，FLEUR 可以根据图像评估字幕而无需参考字幕，并为分配的分数提供解释。

13. OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems

作者列表：

Chaoqun He, Renjie Luo, Yuzhuo Bai, Shengding Hu, Zhen Leng Thai, Junhao Shen, Jinyi Hu, Xu Han, Yujie Huang, Yuxiang Zhang, Jie Liu, Lei Qi, Zhiyuan Liu, Maosong Sun

作者单位： 清华大学、北京航空航天大学等

论文链接：

https://aclanthology.org/2024.acl-long.211.pdf

代码地址：

https://github.com/OpenBMB/OlympiadBench

论文贡献：

提出了奥林匹克级双语多模态科学基准 OlympiadBench，其中包含来自奥林匹克级数学和物理竞赛（包括中国高考）的 8,476 道题。每个问题都附有专家级注释，以便逐步推理。

14. CaMML: Context-Aware Multimodal Learner for Large Models

作者列表：

Yixin Chen, Shuai Zhang, Boran Han, Tong He, Bo Li

作者单位： 香港中文大学、亚马逊等

论文链接：

https://arxiv.org/pdf/2401.03149

代码地址：

https://github.com/amazon-science/camml

论文贡献：

引入了上下文感知多模态学习器 (CaMML)，用于调整大多模态模型 (LMM)。CaMML 是一个轻量级模块，旨在将多模态上下文样本无缝集成到大型模型中，从而使模型能够从类似的、特定于领域的、最新的信息中获取知识并做出有根据的推断。重要的是，CaMML 具有高度可扩展性，并且由于其分层设计，可以有效处理冗长的多模态上下文示例。

15. Rethinking the Multimodal Correlation of Multimodal Sequential Learning via Generalizable Attentional Results Alignment

作者列表：

Tao Jin, Wang Lin, Ye Wang, Linjun Li, Xize Cheng, Zhou Zhao

作者单位： 浙江大学、上海AI Lab

论文链接：

https://aclanthology.org/2024.acl-long.287.pdf

论文贡献：

模态内和模态间相互作用由多头注意力的查询-键关联捕获。这样，计算出的多模态上下文（注意力结果）有望与查询模态相关。然而，在现有文献中，同一查询的不同计算注意力结果之间的对齐程度尚未得到充分探索。因此，提出了一种称为多模态上下文对比（MCC）的新约束方案，它可以从局部和全局角度对齐多个注意力结果，使信息捕获更加高效。

16. Event-Radar: Event-driven Multi-View Learning for Multimodal Fake News Detection

作者列表：

Zihan Ma, Minnan Luo, Hao Guo, Zhi Zeng, Yiran Hao, Xiang Zhao

作者单位： 西安交通大学、国防科技大学等

论文链接：

https://aclanthology.org/2024.acl-long.316.pdf

论文贡献：

提出了一种基于多视角学习的事件驱动的假新闻检测框架（Event-Radar），将视觉操作、文本情感和事件级多模态不一致性集成在一起以进行假新闻检测。

17. UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion

作者列表：

Wei Li, Xue Xu, Jiachen Liu, Xinyan Xiao

作者单位： 百度

论文链接：

https://aclanthology.org/2024.acl-long.335.pdf

代码地址：

https://unimo-ptm.github.io/

论文贡献：

现有的文本到图像扩散模型主要从文本提示生成图像。然而，文本描述固有的简洁性对合成具有复杂细节（例如特定实体或场景）的图像提出了挑战。本文介绍了一种简单的多模态条件扩散框架 UNIMO-G，对具有交错文本和视觉输入的多模态提示进行操作，它展示了文本驱动和主题驱动图像生成的统一能力。UNIMO-G 包含两个核心组件：用于编码多模态提示的多模态大型语言模型 (MLLM) 和用于基于编码的多模态输入生成图像的条件去噪扩散网络。

18. Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA

作者列表：

Yue Fan, Jing Gu, Kaiwen Zhou, Qianqi Yan, Shan Jiang, Ching-Chen Kuo, Yang Zhao, Xinze Guan, Xin Eric Wang

作者单位： University of California, Santa Cruz eBay Inc

论文链接：

https://aclanthology.org/2024.acl-long.370.pdf

代码地址：

https://sites.google.com/view/multipanelvqa/home

论文贡献：

提出了多面板视觉问答 (MultipanelVQA)，一个新颖的基准，包含 6,600 个问题、答案和多面板图像的三元组，专门挑战模型理解多面板图像的能力。

19. WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

作者列表：

Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu

作者单位： 浙江大学、腾讯AI Lab、西湖大学

论文链接：

https://arxiv.org/pdf/2401.13919

代码地址：

https://github.com/MinorJerry/WebVoyager

论文贡献：

现有的 Web 代理通常仅处理一种输入模态，并且仅在简化的 Web 模拟器或静态 Web 快照中进行评估，这极大地限制了它们在真实场景中的适用性。为了弥补这一差距，提出了一种创新的大型多模态模型 (LMM) 驱动的 Web 代理 WebVoyager，通过与真实网站交互来端到端地完成用户指令。

20. Multimodal Contextualized Semantic Parsing from Speech

作者列表：

Jordan Voas, David Harwath, Ray Mooney

作者单位： The University of Texas at Austin

论文链接：

https://aclanthology.org/2024.acl-long.398.pdf

代码地址：

https://github.com/jvoas655/AViD-SP

论文贡献：

引入了上下文环境中的语义解析 (SPICE)，旨在通过将多模态输入与先前上下文相结合来增强人工智能代理的上下文意识的任务。SPICE 超越了传统的语义解析，提供了一个结构化、可解释的框架，用于用新信息动态更新代理的知识，反映了人类交流的复杂性.

21. Advancement in Graph Understanding: A Multimodal Benchmark and Fine-Tuning of Vision-Language Models

作者列表：

Qihang Ai, Jiafan Li, Jincheng Dai, Jianwu Zhou, Lemao Liu, Haiyun Jiang, Shuming Shi

作者单位： 北京理工大学，中国科学院软件研究所等

论文链接：

https://aclanthology.org/2024.acl-long.404.pdf

论文贡献：

图形数据组织对象之间的复杂关系和交互，促进不同领域的高级分析和决策。提出了一种交互式和教学性图形数据理解和推理的新范式。文中没有采用复杂的图形神经模型或启发式图形到文本的教学设计，而是利用视觉语言模型（VLM）对不同领域中具有不同结构的图形图像进行编码。

22. Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment

作者列表：

yunxin li, Xinyu Chen, Baotian Hu, Haoyuan Shi, Min Zhang

作者单位： 哈尔滨工业大学

论文链接：

https://aclanthology.org/2024.acl-long.411.pdf

代码地址：

https://github.com/HITsz-TMG/Cognitive-Visual-Language-Mapper

论文贡献：

视觉语言投影方法（例如 Q-former 或 MLP）专注于图像文本描述的对齐，而忽略了视觉知识维度对齐，即将视觉效果与其相关知识联系起来。为此，提出了一个**认知视觉语言映射器 (CVLM)**，它包含一个预训练的视觉知识对齐器 (VKA) 和一个用于多模态指令调整阶段的细粒度知识适配器 (FKA)。

23. STICKERCONV: Generating Multimodal Empathetic Responses from Scratch

作者列表：

Yiqun Zhang, Fanheng Kong, Peidong Wang, Shuang Sun, SWangLing, Shi Feng, Daling Wang, Yifei Zhang, Kaisong Song

作者单位： 东北大学、阿里巴巴

论文链接：

https://aclanthology.org/2024.acl-long.417.pdf

代码地址：

https://github.com/ZhangYiqun018/StickerConv

论文贡献：

提出了 STICKERCONV 的agent (Agent4SC)，使用协作agent交互来真实地模拟人类使用表情包的行为，从而增强多模态同理心交流。在此基础上，开发了一个多模态同理心对话数据集 STICKERCONV，包括 12.9K 个对话会话、5.8K 个独特Stickers和 2K 个不同的对话场景

24. EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

作者列表：

Rocktim Jyoti Das, Simeon Emilov Hristov, Haonan Li, Dimitar Iliyanov Dimitrov, Ivan Koychev, Preslav Nakov

作者单位： Mohamed bin Zayed University of Artificial Intelligence, FMI, Sofia University "St. Kliment Ohridski"

论文链接：

https://aclanthology.org/2024.acl-long.420.pdf

代码地址：

https://github.com/mbzuai-nlp/EXAMS-V

论文贡献：

提出了 EXAMS-V，这是一种用于评估视觉语言模型的全新、具有挑战性的多学科多模态多语言考试基准。它包含 20 个学校学科的 20,932 道多项选择题，涵盖自然科学、社会科学和其他杂项研究，例如宗教、美术、商业等。EXAMS-V 包括各种多模态特征，例如文本、图像、表格、图形、图表、地图、科学符号和方程式。这些问题来自 7 个语系的 11 种语言。

25. Chain-of-Exemplar: Enhancing Distractor Generation for Multimodal Educational Question Generation

作者列表：

Haohao Luo, Yang Deng, Ying Shen, See-Kiong Ng, Tat-Seng Chua

作者单位： 中山大学、新加坡国立大学等

论文链接：

https://aclanthology.org/2024.acl-long.432.pdf

论文贡献：

研究了多模态教育问题生成问题，旨在基于多模态教育内容生成具有合理但不正确的干扰项的特定主题教育问题。为了解决这个问题，引入了一个新框架，名为 Chainof-Exemplar (CoE)，利用具有 Chainof-Thought 推理的多模态大型语言模型 (MLLM) 来改进具有挑战性的干扰项的生成。

喜欢的话，请别忘记点赞👍➕关注哦

点个「在看」你最好看

STUDY

CVPR投稿倒计时15天！Transformer还能卷出哪些新花样？

I 2025｜快手科技发布突破性EVLM！高效视觉语言模型，极大降低计算成本，实现全面视觉感知！

EMNLP 2024｜南京大学重磅推出EFUF：高效细粒度unlearning框架，全面破解多模态大语言模型“幻觉”难题！

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

港中文、UCL、武大联手攻关！NeurIPS 2024 全新多模态情绪分析模型，精准应对不完整数据挑战！

刷新多模态医学图像报告生成新高度｜AAAI 2023 山东大学&齐鲁医院推出多模态记忆Transformer！

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（下）

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（上）

突破了LLM极限，GPT-o1深度揭秘

港中文、上海AI Lab与浙大重磅推出PointLLM：大语言模型再升级，强势赋能点云理解！-ECCV 2024

NeurIPS 2024 | 像素级MLLM: Vitron, 实现图像视频的理解、生成、分割、编辑大一统

TPAMI 2024 | 基于时空结构对齐的视频-语言表示学习

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

CVPR2023-基于交互式提示学习的多模态融合方法

CVPR 2024｜多模态大模型引爆！“因果推理”加持, 解锁链接上下文学习的无限潜能

CVPR 2023｜TransFusion震撼登场！突破性语义分割多模态融合网络，点云与图像直接融合！

TPAMI | SegNet:语义分割领域超经典轻量化模型

ECCV 2024｜多模态学习不鲁棒？表示解耦打造稳健多模态学习新纪元

NeurIPS 2021-如何利用知识图谱构建世界模型？！一种新的文本世界建模技术！

文末赠书｜《AI系统：原理与架构》于华为HC大会2024正式发布

又一本开源免费的大模型书来了，449页pdf！

CVPR 2024｜突破模态瓶颈！交替单模态适应引领多模态表示学习，攻克模态惰性与遗忘难题！

速来围观！多模态大型语言模型(MLLM)最新进展与实战应用全揭秘！

学术最前沿！2024最新深度多模态数据融合综述来袭！

AI大模型掀起效率革命！掌握ChatGPT等前沿技术，赋能企事业办公、科研与项目研发实战

ICML 2024｜浙大，NUS等高校联手推出多模态LLM革命性自动编码技术—Morph-Tokens

AAAI 2024｜重磅发布！多模态跟踪新范式：条件生成对抗网络与扩散模型的融合引爆技术革命！

ECCV 2024 | 破解多模态学习：单模态模型联合嵌入助力缺失模态预测新突破！

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

TPAMI 2024|打破边界！双向LiDAR相机语义分割中的单到多模态知识蒸馏革命

顶会NeurIPS‘24放榜！接收数量突破4千！8865高分被拒？

NeurIPS 2024|颠覆性发现！大型视觉-语言模型真的会“看”吗？MMStar基准揭示多模态评估误区与数据泄漏隐患

ECCV 2024 ｜中国人民大学、清华大学等提出平衡多模态学习的诊断和再学习方法

TPAMI 2024｜颠覆跨模态相似性学习的“游戏规则”！因果不变交互挖掘CIIM强势来袭：打破模态壁垒，精准捕捉跨模态信息！

TIP 2024｜Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

ICLR2024多模态融合论文汇总！时间检验奖和最佳论文奖汇总！

ICML 2024 | 深度解析多模态线性网络中的单模态偏差：突破与新发现！

第一本中文大语言模型教程来了！人大出版，391页！

ICML 2024重磅！GeminiFusion：高效逐像素多模态融合！引领Vision Transformer新纪元！

CVPR 2024｜拥抱单模态不确定性，实现稳健多模态融合！电子科大与同济等联手突破多模态技术瓶颈！

ICML2023重磅！清华、UC、MIT强强联手—突破性提出监督多模态学习中的单模态特征新范式！

震撼发布！低质量多模态数据融合方法最新进展！天津大学携手顶尖高校推出重磅综述！

IJCAI2024-连续多模态知识图谱构建，实现动态场景中新实体和关系的添加

ICML 2024｜多模态数据融合理论创新！天津大学提出预测多模态动态融合框架

ICML2024 多模态大语言模型相关论文集锦！！大模型热度不减！

地表最强模型GPT4o-latest模型重夺第一，力压谷歌！

TPAMI 2024｜跨模态联邦学习！中科院自动化所提出跨模态联邦人类活动识别方法

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉