速来围观！多模态大型语言模型(MLLM)最新进展与实战应用全揭秘！

文摘 2024-10-15 10:00 英国

作者：The Tenyks Blogger

主页：

https://medium.com/@tenyks_blogger

图人工智能多模态性的快速爆发

本文介绍了什么是多模态大型语言模型 (MLLM)[1]、它们在使用挑战性提示时的应用，以及重塑计算机视觉的顶级模型。

1.什么是多模态大型语言模型（MLLM）？

通俗地说，多模态大型语言模型 (MLLM) 是一种将大型语言模型 (LLM)（例如 GPT-3 [2] 或 LLaMA-3 [3]）的推理能力与接收、推理和输出多模态信息的能力相结合的模型。

图 1 展示了医疗保健领域的多模态 AI 系统 [4]。它接收两个输入：1）医学图像和 2）文本查询：“此图像中是否存在胸腔积液？”。系统输出由给定查询的答案（即预测）组成。

图 1. 通过将放射视觉编码器与 LLM [4] 相结合创建的多模态医疗系统

1.1 人工智能中多模态性的兴起

过去几年，人工智能发生了重大转变，这在很大程度上是由语言模型 [6] 中 Transformers [5] 的兴起推动的。谷歌于 2017 年发明的这种架构的采用也影响了计算机视觉领域，这并不是什么新闻。

最早的例子之一是 Vision Transformers (ViT) [7]，它使用 Transformers 将图像分割成多个块，将它们视为输入表示的单独视觉标记。

图 2. 2022 年至 2024 年间开发的一些多模态大型语言模型 (MLLM)

随着大型语言模型（LLM）的兴起，一种新型的生成模型——多模态大型语言模型（MLLM）自然而然地出现了。

如图 2 所示，2023 年，大多数大型科技公司都开发了至少一款 MLLM。2024 年 5 月，OpenAI 的 GPT-4o 成为头条新闻。

1.2 MLLM 与 VLM 与基础模型

有些人认为 MLLM 实际上是基础模型。例如，Google 的 Vertex AI 将 Claude 3、PaliGemma 或 Gemini 1.5 等多模态大型语言模型列为基础模型 🤔。

另一方面，视觉语言模型 (VLM) [8] 是多模态模型的一个特殊类别，它整合了文本和图像输入并生成文本输出。

多模态模型和 VLM 之间的主要区别在于：(1) MLLM 能够处理更多模态，而不仅仅是像 VLM 那样处理文本和图像；(2) VLM 在推理技巧方面表现较差。

1.3 架构

如图 3 所示，MLLM 的架构分为三个部分：

图 3. 多模态理解：多模态第一阶段的组成部分

模态编码器： 编码组件将原始数据格式（如视觉或声音）压缩为更简化的表示。一种流行的策略是利用已针对其他模态进行校准的预训练编码器（例如 CLIP），而不是从头开始训练过程。

LLM 主干： 需要语言模型来以文本形式输出响应。它充当 MLLM 的“大脑”。编码器接收图像、音频或视频，并生成特征，然后由连接器（或模态接口）进行处理。

模态接口（即连接器）： 这充当编码器和 LLM 之间的中介或链接。由于 LLM 只能解释文本，因此有效地将文本与其他模态连接起来至关重要。

2. 多模态模型在计算机视觉中的应用和用例

我们没有提供这些模型擅长的不同用例的列表，而是旋转了几个 GPU，使用具有挑战性的查询（不再有猫😺和狗🐶示例）测试了三个顶级 MLLM。

GPT-4o [9]：OpenAI 于 2024 年 5 月发布的最强大的多模态模型。我们使用 OpenAI 的 API视觉功能访问了该模型。

LLaVA 7b [10]：一种多模态模型，源自开源 LlaMa 模型，集成了视觉编码器和Vicuna ，用于通用视觉和语言理解，有时可实现与 GPT-4 相当的出色性能。我们通过在 Jarvislab 上启动Ollama实例来访问此模型。

Apple Ferret 7b [11]：Apple 开发的开源多模态大型语言模型 (MLLM)。它通过使用引用和基础来实现空间理解，这使模型能够识别和描述图像中的任何形状，从而提供精确的理解，尤其是对较小的图像区域。为了访问该模型，我们还在JarvisLab上启动了一个Ferret实例。

2.1 存在遮挡的情况下的物体计数

图 4 显示了这三个顶级模型在给出一张图片和一个要求它们计算安全帽数量的具有挑战性的提示时的表现。

图 4. Apple 的 Ferret 模型是唯一一个能够正确识别边界框位置（包括被遮挡的边界框）的模型

尽管提供了非常丰富的场景描述（见图 4），GPT-4o 给出了错误的坐标来定位所需的安全帽：其中一些位于当前图像的尺寸之外，这就是为什么我们只能在右下角看到一个边界框。

开源模型 LLaVA 无法检测到所有四顶安全帽（它错过了左侧被遮挡的安全帽）并为边界框提供了错误的位置。

令人惊讶的是，Apple 的 Ferret 能够检测到图像上的四个物体：甚至包括左边被遮挡的物体！⭐️

2.2 自动驾驶：风险理解与规划

首先，我们从自动驾驶数据集中选取了这个场景。其次，我们增加了题目的难度：它要求模型从自动驾驶汽车的角度评估风险，同时检测两个独立的类别，即车辆和行人（见图 5）。

图 5. 一项要求模型检测物体并评估风险的具有挑战性的提示：Apple Ferret 的模型表现优于 GPT-4o。

结果显示LLaVA 的表现相当糟糕：它产生了幻觉，无法识别自动驾驶汽车前面的大卡车。开源模型在执行具有挑战性的任务时真的那么糟糕吗？🤔

虽然GPT-4o能够以文本形式返回合理的详细响应，但在清晰检测边界框方面，它的表现仍然很差。相比之下，Apple 的 Ferret是唯一一款能够以精确的边界框坐标检测出大多数对象的模型✅。

2.3 运动分析：检测物体和理解场景

到目前为止，至少有一个模型，Apple 的 Ferret，在计数和检测物体方面表现出色。让我们将注意力转向更具挑战性的场景：运动分析⚽️。

通常，单模态微调架构（例如 YOLO）在检测足球比赛中的球员方面往往表现非常出色：Ccn MLLM 的表现也很好吗？

图 6. 本文中的三个 MLLM 测试的一场足球比赛场景

例 3. 问题/提示：作为一个擅长运动（尤其是足球）的 AI 系统，您将获得一场足球比赛的场景。请 (1) 描述场景，(2) 计算每支球队的球员人数，(3) 提供球和守门员的边界框坐标，(4) 估计进球的可能性并说出哪支球队可能进球。

如图 7 所示，检测球员和球破坏了我们分析的三个模型！没有一个模型能够识别两支球队及其球员。

图 7. 本文中的所有 MLLM 都无法检测到提示中请求的对象

因此，多模态大型语言模型 (MLLM) 平均而言表现不错，但显然它们还无法解决更苛刻用例的计算机视觉任务。即使是 YOLOv8 模型在这种特定（利基）任务中也表现更好.

微调 MLLM 是可行的方法吗？🤔

3. 顶级多模态大型语言模型

现在，我们列出一些重新定义计算机视觉的最重要的 MLLM：

GPT-4o（2024 年，OpenAI）

输入：文本、图像、音频（测试版）、视频（测试版）。

输出：文本、图像。

它是什么：GPT-4o 代表“GPT-4 Omni”，其中“Omni”指的是其跨文本、视觉和音频模态的多模态功能。它是一个统一的模型，可以理解和生成文本、图像、音频和视频输入/输出的任意组合。

请尝试：https://chatgpt.com/

🥂鲜为人知的事实：GPT-4o 采用“多模态思维链”方法，它首先推理如何将问题分解为跨不同模态（文本、视觉、音频）的一系列步骤，然后执行这些步骤以得出最终解决方案。

Claude 3.5 Sonnet（2024 年，Anthropic）

输入：文本、图像。

输出：文本、图像。

它是什么：Claude 3.5 Sonnet 拥有 200K 标记上下文窗口，是一个多模式 AI 系统，可以理解和生成文本、图像、音频和其他数据格式。擅长在金融、生命科学和软件工程等各个领域进行深入分析、研究、假设生成和任务自动化。

在这里尝试：https://claude.ai

🥂鲜为人知的事实：Anthropic 采用一种称为“递归奖励建模”的技术，该技术涉及使用 Claude 的早期版本为模型的输出提供反馈和奖励。

LLaVA (2023, University of Wisconsin-Madison)

输入：文本、图像。

输出：文本。

它是什么：LLaVA（大型语言和视觉助手）是一个开源多模态 AI 模型，可以处理和生成文本和视觉数据作为输入和输出。它与 GPT-4 的聊天能力相匹配，并在 Science QA 上创下了新纪录，展示了先进的视觉语言理解能力。

在这里尝试：https://llava-vl.github.io

🥂鲜为人知的事实：LLaVA 使用一种称为“指令调整”的技术进行训练，其中 GPT-4 用于生成涉及文本和图像的合成多模态任务（2023 年的小说）。LLaVA 在没有直接人工监督的情况下从 GPT-4 生成的这些不同示例中学习。

Gemini 1.5（2024 年，谷歌）

输入：文本、图像、

输出：文本、图像。

它是什么：Gemini 是 Google 开发的大型语言模型系列，可以理解和操作多种模式，例如文本、图像、音频（测试版）和视频（测试版）。它于 2023 年 12 月首次亮相，有三种优化版本——Gemini Ultra（最大）、Gemini Pro（用于缩放）和 Gemini Nano（用于设备上的任务）。

在这里尝试：https://gemini.google.com/

🥂 （显而易见）鲜为人知的事实：Gemini 的名字是对双子星座的致敬，在希腊神话中代表“双胞胎”。鉴于 Gemini 的双重性质，它是一种功能强大的语言模型，还可以处理和生成图像、音频和视频等多模态数据，因此这很合适。

Qwen-VL（2024，阿里云）输入：文本、图像、

输出：文本、图像。

它是什么：Qwen-VL 是一个开源的多模态 AI 模型，结合了语言和视觉功能。它是 Qwen 语言模型的扩展，旨在克服多模态泛化的局限性。最近升级的版本（Qwen-VL-Plus 和 Qwen-VL-Max）具有改进的图像推理、更好的图像和文本细节分析以及对具有不同纵横比的高分辨率图像的支持。

在这里尝试：https://qwenlm.github.io/blog/qwen-vl/

🥂 （有趣的）鲜为人知的事实：推出后，Qwen-VL 迅速升至 OpenVLM 排行榜的榜首，但被其他更强大的模型超越，尤其是 GPT-4o。

4. 下一步是什么？

多模态模型正在彻底改变计算机视觉。作为一名ML/MLOps 工程师，在构建强大的 AI 管道时，如何才能最好地利用它们？

References

[1] A Survey on Multimodal Large Language Models

[2] Language Models are Few-Shot Learners

[3] Introducing Meta Llama-3: The most capable openly available LLM to date

[4] Multimodal medical AI

[5] Attention is all you need

[6] Language Models are Unsupervised Multitask Learners

[7] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

喜欢的话，请别忘记点赞👍➕关注哦

一文彻底搞懂多模态 - 多模态推理

大模型经典著作《大语言模型基础与前沿》

NeurIPS 2024|耦合Mamba：通过耦合状态空间模型增强多模态融合

腾讯&南大最新联合发布｜VITA：首个开源交互式全能多模态大模型！

一文彻底搞懂多模态 - 多模态学习

ICCV 2023｜CleanCLIP重磅登场！消除多模态对比学习中的数据中毒攻击

导师一个idea都没给，但也发了顶会AAAI，我摸索的这个方法绝了！

重磅3D多模态MSF框架发布！2D/3D语义分割双模态解析，重塑3D物体检测多语义融合框架

最新进展！全新特征学习框架，深度解析单模态与多模态对比学习泛化差异

揭秘时间魔法！段类型特征驱动的时间序列聚类算法

EMNLP 2024 多模态学习最新论文合集出炉！快速关注热点研究！

文末赠书｜深度揭秘！多模态大模型如何运作？一文读懂其核心原理！

NeurIPS 2024震撼发布：上交大&清华领衔创新，Diff-eRank大模型评估新指标，精准衡量LLM去噪实力！

CVPR投稿倒计时15天！Transformer还能卷出哪些新花样？

I 2025｜快手科技发布突破性EVLM！高效视觉语言模型，极大降低计算成本，实现全面视觉感知！

EMNLP 2024｜南京大学重磅推出EFUF：高效细粒度unlearning框架，全面破解多模态大语言模型“幻觉”难题！

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

港中文、UCL、武大联手攻关！NeurIPS 2024 全新多模态情绪分析模型，精准应对不完整数据挑战！

刷新多模态医学图像报告生成新高度｜AAAI 2023 山东大学&齐鲁医院推出多模态记忆Transformer！

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（下）

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（上）

突破了LLM极限，GPT-o1深度揭秘

港中文、上海AI Lab与浙大重磅推出PointLLM：大语言模型再升级，强势赋能点云理解！-ECCV 2024

NeurIPS 2024 | 像素级MLLM: Vitron, 实现图像视频的理解、生成、分割、编辑大一统

TPAMI 2024 | 基于时空结构对齐的视频-语言表示学习

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

CVPR2023-基于交互式提示学习的多模态融合方法

CVPR 2024｜多模态大模型引爆！“因果推理”加持, 解锁链接上下文学习的无限潜能

CVPR 2023｜TransFusion震撼登场！突破性语义分割多模态融合网络，点云与图像直接融合！

TPAMI | SegNet:语义分割领域超经典轻量化模型

ECCV 2024｜多模态学习不鲁棒？表示解耦打造稳健多模态学习新纪元

NeurIPS 2021-如何利用知识图谱构建世界模型？！一种新的文本世界建模技术！

文末赠书｜《AI系统：原理与架构》于华为HC大会2024正式发布

又一本开源免费的大模型书来了，449页pdf！

CVPR 2024｜突破模态瓶颈！交替单模态适应引领多模态表示学习，攻克模态惰性与遗忘难题！

速来围观！多模态大型语言模型(MLLM)最新进展与实战应用全揭秘！

学术最前沿！2024最新深度多模态数据融合综述来袭！

AI大模型掀起效率革命！掌握ChatGPT等前沿技术，赋能企事业办公、科研与项目研发实战

ICML 2024｜浙大，NUS等高校联手推出多模态LLM革命性自动编码技术—Morph-Tokens

AAAI 2024｜重磅发布！多模态跟踪新范式：条件生成对抗网络与扩散模型的融合引爆技术革命！

ECCV 2024 | 破解多模态学习：单模态模型联合嵌入助力缺失模态预测新突破！

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

TPAMI 2024|打破边界！双向LiDAR相机语义分割中的单到多模态知识蒸馏革命

顶会NeurIPS‘24放榜！接收数量突破4千！8865高分被拒？

NeurIPS 2024|颠覆性发现！大型视觉-语言模型真的会“看”吗？MMStar基准揭示多模态评估误区与数据泄漏隐患

ECCV 2024 ｜中国人民大学、清华大学等提出平衡多模态学习的诊断和再学习方法

TPAMI 2024｜颠覆跨模态相似性学习的“游戏规则”！因果不变交互挖掘CIIM强势来袭：打破模态壁垒，精准捕捉跨模态信息！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

速来围观！多模态大型语言模型(MLLM)最新进展与实战应用全揭秘！

目录

1.什么是多模态大型语言模型（MLLM）？

1.1 人工智能中多模态性的兴起

1.2 MLLM 与 VLM 与基础模型

1.3 架构

2. 多模态模型在计算机视觉中的应用和用例

2.1 存在遮挡的情况下的物体计数

2.2 自动驾驶：风险理解与规划

2.3 运动分析：检测物体和理解场景

3. 顶级多模态大型语言模型

4. 下一步是什么？