本文总结了多模态模型相关的综述调研,时常更新版本~
多模态论文综述
2023.06.A Survey on Multimodal Large Language Models https://arxiv.org/pdf/2306.13549
本综述主要围绕 MLLM 的基础形式、拓展延伸以及相关研究课题进行展开,具体包括:
MLLM 的基础构成与相关概念,包括架构、训练策略、数据和评测;
MLLM 的拓展延伸,包括输入输出粒度、模态、语言和场景的支持;
MLLM 的相关研究课题,包括多模态幻觉、多模态上下文学习(Multimodal In-Context Learning,M-ICL)、多模态思维链(Multimodal Chain of Thought,M-CoT)、LLM 辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR)。
2023.11.22.Multimodal Large Language Models: A Survey
https://arxiv.org/pdf/2311.13165
多模态语言模型的探索集成了多种数据类型,例如图像、文本、语言、音频和其他异构性。虽然最新的大型语言模型在基于文本的任务中表现出色,但它们通常难以理解和处理其他数据类型。多模态模型通过结合各种模态来解决这一局限性,从而能够更全面地理解各种数据。本文首先定义了多模态的概念,并考察了多模态算法的历史发展。此外,还推出了一系列多式联运产品,重点关注主要科技公司的努力。提供了实用指南,提供了对多模式模型技术方面的见解。此外,还汇集了最新的算法和常用的数据集,为研究人员提供了宝贵的实验和评估资源。最后,我们探讨了多模态模型的应用,并讨论了与其发展相关的挑战。通过解决这些方面,本文旨在促进对多模态模型及其在各个领域的潜力的更深入理解。
2024.05.28v5.
MM-LLMs: Recent Advances in MultiModal Large Language Models
https://arxiv.org/pdf/2401.13601
近一年的多模态模型通过具有成本效益的训练策略增强了现成的LLM,以支持MM的输入或输出。由此产生的模型不仅保留了 LLM 固有的推理和决策能力,而且还支持各种 MM 任务。在本文中,通过调查,促进MM-LLMs的进一步研究。最初,概述了模型架构和训练管道的一般设计公式。随后,引入了一个包含 126 个 MM-LLM 的分类法,每个 MM-LLM 都有其特定的公式。此外,我们回顾了选定的 MM-LLM 在主流基准上的表现,并总结了提高 MM-LLM 效力的关键训练配方。最后,探索了MM-LLM的有前途的方向,同时维护了一个实时跟踪网站,以获取该领域的最新发展。
论文梳理了一般模型架构的五大组件,另外还会介绍每个组件的实现选择。
经典多模态模型的对比