NSR综述：多模态大语言模型

学术 2024-12-10 14:46 北京

综述题目

A Survey on Multimodal Large Language Models

第一作者

殷述康，傅朝友，赵思蕊

通讯作者

陈恩红，傅朝友，赵思蕊

通讯单位

中国科学技术大学，南京大学

项目链接

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models (持续更新最新相关文献)

论文链接：https://doi.org/10.1093/nsr/nwae403

背景

近年来，大语言模型 (LLM) 已成为自然语言处理领域最热门的研究方向之一。这些模型通过持续增加数据规模和参数量来实现性能的飞跃，不仅能够完成传统的自然语言处理任务如文本分类、命名实体识别等，还展现出解决更复杂问题的能力，例如高级对话生成及代码辅助编写。

然而，纯文本的大语言模型存在固有限制：它们仅能处理文本输入输出，而现实世界中的信息通常是多模态的，包括图像、声音等多种形式，因此纯文本大模型在需要视觉或其他模态输入的任务中受限。

为克服这一局限性，多模态大语言模型 (MLLM) 应运而生。多模态大模型在大语言模型原有的强大泛化和推理能力基础上，进一步引入了多模态信息处理能力。相比于以往的多模态方法，例如以CLIP为代表的判别式，或以OFA为代表的生成式，新兴的MLLM展现出一些典型的特质：（1）模型大。MLLM通常具有数十亿的参数量，更多的参数量带来更多的潜力；（2）新的训练范式。为了激活巨大参数量的潜力，MLLM采用了多模态预训练、多模态指令微调等新的训练范式。

在这两种特质的加持下，MLLM涌现出一些以往多模态模型所不具备的能力，例如根据图表直接进行数学推理、给定图片进行故事创作、理解网络表情包的深层含义等。近几年里，工业界与学术界均积极投入于多模态大模型的研发工作，使多模态大模型领域持续涌现大量新项目。

图1. 代表性MLLM的时间线

本文作为多模态大语言模型方向的首篇综述，对研究的相关进展进行了梳理和总结，介绍了多模态大语言模型的基础构成和相关概念，涵盖了架构、训练策略、训练数据与评估；并进一步讨论了相关的研究主题，包括多模态大语言模型的能力升级、多模态幻觉、多模态上下文学习、多模态思维链、大语言模型辅助的视觉推理。这些内容将为多模态大语言模型相关研究以及利用多模态大语言模型开展跨学科交叉研究提供有效指南。

内容速览

模型架构

对于多模态输入-文本输出的典型MLLM，其架构一般包括编码器、连接器以及LLM。如要支持更多模态的输出(如图片、音频、视频)，一般需要额外接入生成器，如下图所示:

图2. MLLM典型架构示意图

其中，模态编码器负责将原始的信息(如图片)编码成特征，连接器则进一步将特征处理成LLM易于理解的形式，即视觉Token。LLM则作为“大脑”综合这些信息进行理解和推理，生成回答。目前，三者的参数量并不等同，以Qwen-VL为例，LLM作为“大脑”参数量为7.7B，约占总参数量的80.2%，视觉编码器次之(1.9B，约占19.7%)，而连接器参数量仅有0.08B。

对于视觉编码器而言，增大输入图片的分辨率是提升性能的有效方法。一种方式是直接提升分辨率，这种情况下需要放开视觉编码器进行训练以适应更高的分辨率，如Qwen-VL等。另一种方式是将大分辨率图片切分成多个子图，每个子图以低分辨率送入视觉编码器中，这样可以间接提升输入的分辨率，如SPHINX、Monkey等工作。

对于预训练的LLM，常用的包括LLaMA系列、Qwen系列和InternLM系列等，前者主要支持英文，而后两者中英双语支持得更好。就性能影响而言，加大LLM的参数量可以带来显著的性能增益，如LLaVA-NeXT等工作在7B/13B/34B的LLM上进行实验，发现提升LLM大小可以带来各benchmark上的显著提升，在34B的模型上更涌现出zero-shot的中文能力。除了直接增大LLM参数量，近期火热的MoE架构则提供了更高效实现的可能性，即通过稀疏计算的方式，在不增大实际计算参数量的前提下提高总的模型参数量。

相对前两者来说，连接器的重要性略低。如MM1通过实验发现，连接器的类型不如视觉token数量(决定之后LLM可用的视觉信息)及图片的分辨率(决定视觉编码器的输入信息量)重要。

数据与训练

MLLM的训练大致可以划分为对齐预训练阶段、指令微调阶段和对齐微调阶段。预训练阶段主要通过大量配对数据将图片信息对齐到LLM的表征空间；指令微调阶段则通过多样化的各种任务数据提升模型在下游任务上的性能，以及模型理解和服从指令的能力；对齐微调阶段一般使用强化学习技术使模型对齐人类价值观或某些特定需求(如更少幻觉)。

早期工作主要使用了粗粒度的caption数据用于第一阶段训练，这些数据主要来源于互联网上的图片及其附带文字说明，因此存在噪声多、文本短的特点，容易影响对齐的效果；后来的工作则探索使用更干净、文本内容更丰富的数据做对齐。如ShareGPT4V使用模型生成的文本更长的caption数据做更细粒度的对齐，在一定程度上缓解了对齐不充分的问题，获得了更好的性能，

指令微调数据一方面可以来源于各种任务的数据，如VQA数据、OCR数据等，也可以来源于GPT-4V生成的数据。虽然后者一般能够生成更复杂、更多样化的指令数据，但这种方式也显著地增加了成本。值得一提的是，该阶段的训练中有时还会混合部分纯文本的对话数据，这类数据可以视为正则化的手段，保留LLM原有的能力与内嵌知识。

对齐微调阶段主要使用偏好对数据训练，对齐人类偏好，如模型的回答要具有有用性、可靠性以及符合人类道德等。要收集该类数据，除了较为昂贵的人工标注手段外，近期也有一些工作使用多模态大模型(如GPT-4V) 来进行标注。

其他关键研究课题

除了提升模型的基础能力(如支持的输入/输出形式、性能指标)外，还有一些有意思的问题以及待探索的方向。综述中主要介绍了多模态幻觉、多模态上下文学习、多模态思维链、LLM辅助的视觉推理(LLM-Aided Visual Reasoning，LAVR)等。

多模态幻觉研究主要关注模型生成的回答与图片内容不符的问题。由于视觉和文本本质上是异构的信息，充分的对齐是十分困难的。常见的直接将视觉特征映射为token与文本一同送入LLM的方式则可能会加剧问题；且当前常见的直接沿用语言建模的自回归生成模式对于视觉理解不一定是最优的。因此，与多模态幻觉的斗争将会是长期的。

多模态上下文学习技术研究如何通过给予模型以少量的示范/样例，从而提升模型在新任务上的表现；而多模态思维链通过分解复杂问题为更简单的子问题，从而显式地利用中间过程推理获得问题的最终答案。

LLM辅助的视觉推理方法探索如何利用LLM强大的内嵌知识与能力，并借助其他工具，设计各种视觉推理系统，解决各种现实问题。相比于通过端到端训练获得单一模型，这类方法一般关注如何通过免训练的方式扩展和加强LLM的能力，从而构建一个综合性的系统。

小结

多模态大语言模型作为近年来的研究热点具有巨大的潜力和探索空间。针对这一新兴研究领域，本篇综述总结和梳理了多模态大模型的研究进展和关键技术，并对一些重要的相关研究课题进行了探讨。值得说明的是，除了针对多模态大模型本身开展研究外，利用多模态大模型这一强大的工具开展跨学科交叉研究或解决下游任务同样具有巨大的潜力。我们希望该综述可以帮助和启发更多研究者开展多模态大模型相关的研究。

了解详情，请阅读原文▼

中国科学杂志社

《中国科学》杂志社是国内外较具有影响力的科技期刊出版机构，目前主要产品包括《中国科学》系列、《科学通报》、《国家科学评论》、《国家科学进展》、《能源化学》和《医学+》等22种科技期刊，旨在见证中国科学发展，促进国际学术交流。

最新文章

新一代离子交换膜：限域离子膜 | NSR

上交大闵雄阔, 翟广涛等 | 视频感知质量评价综述

Science Bulletin | 闵军霞/王福俤团队在靶向铁死亡防治脂肪肝领域再获突破

可集成的自旋波量子存储器 | NSR

北京量子研究院龙桂鲁课题组 | 基于格密码的量子通信网络接入认证方案

Science Bulletin | 人工光合作用的突破：使用Zn-GaN催化剂实现高效CO₂和H₂O转化

可用于治疗大体积肌肉缺失的多功能人工肌肉∣NSR

【S&S热点文章】邬江兴院士团队：论一体化安全人才及负责任开发者培养

物理学与人工智能的连接：2024年诺贝尔物理学奖解析

告别复杂体系的实验试错法：离子热电中的机器学习 | NSR

陈杰院士团队 | 联盟形成问题：以能力为中心的分析和通用模型

冰天体生命如何探测？

湿度不敏感、强韧离子凝胶及其在膝关节压力监测上的应用 | NSR

Medicine Plus | 杜斌/翁利/陈宏达团队合作研究揭示中国住院非儿童癌症患者脓毒血症负担及趋势

【Science Bulletin编辑精选】极端粒子、极端恒星、极端爆炸

CaAs3 体系接近Mott-Ioffe-Regel极限的量子振荡研究 | NSR

大模型芯片与系统专题出版 | 特邀编辑：尹首一、唐漾、涂锋斌

揭秘生态系统对大气汞沉降变化的响应 | NSR

南航姜斌团队 | 基于联盟形成博弈的异构无人机集群任务分配算法

《科学通报》& Science Bulletin大讲堂第六讲——西湖论坛在杭州举办

单神经元深度学习“小模型”及其时间序列预测应用 | NSR

Science Bulletin | 抗菌剂三氯卡班通过影响内皮细胞代谢促进心脏类器官发生心肌肥大

SCLS专题 | 基因组编辑技术及其在医学领域的应用（特邀编辑：李大力，周斌）

气候变化导致愈发频繁的中国复合低风-低光极端事件 | NSR论文

氢化物超导体A15-La4H23中发现反常金属态

Science Bulletin | 陆军军医大学张志辉/李旻典等：营养生物钟——进餐时间的调整抗疲劳吗？

方小敏院士 | 中亚黄土粉尘与冰冻圈演化、太平洋生产力和全球变化的联系

Medicine Plus | 儿童青少年神经介导性晕厥诊治最新指南解读

【Science Bulletin编辑精选】超导材料及原理研究进展

NSR综述：多模态大语言模型

扬子地块碎屑矿物揭示华南三次挤压造山事件 | NSR论文

mRNA技术与生物医药应用专辑 |《科学通报》

用于伤口监测的还原氧化石墨烯导电功能医用蚕丝缝合线

核磁信号的扩音器：MOL用于仲氢超极化技术 | NSR

【Science Bulletin编辑精选】二维磁性材料与拓扑自旋物态

可见高透明、红外宽波段调制的热致变色智能窗 | NSR

Science Bulletin | 钻探揭示亚洲中部沙漠形成演化的空间异质性

光模块控温微器件用高强高效热电材料 | NSR

有序晶体CsAg5Te3中发现类液体热传导 | NSR

招聘科技期刊编辑 |《中国科学》杂志社

发现科学之美，精彩封面来袭 | 2024年11月

规划中的新一代PandaX-xT实验将大幅推动粒子物理与天体物理的前沿研究

Science Bulletin | 梁廷波教授团队：消化系统恶性肿瘤mRNA疫苗——前沿进展与未来展望

NSR专题 | 功能与智能纤维（特邀编辑：朱美芳）

SCPMA综述 | 基于拓扑材料的约瑟夫森结中的边缘态超流

土壤黏土矿物层间对有机碳的“超稳”固定机制及其增汇效应

青藏高原东北部环境变迁与人类活动交织的千年轨迹

青年科学家专栏 | 石墨烯莫尔异质结中局域-巡游电子的竞争和耦合

Science Bulletin | 将非二氧化碳纳入气候目标有助于提升中国碳减排的气候成本效益

Science Bulletin | 中山大学中山医学院张宏波团队：人类肢体细胞图谱开启肢体发育研究新航程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉