作者:The Tenyks Blogger
主页:
https://medium.com/@tenyks_blogger
图 人工智能多模态性的快速爆发
本文介绍了什么是多模态大型语言模型 (MLLM)[1]、它们在使用挑战性提示时的应用,以及重塑计算机视觉的顶级模型。
目录
什么是多模态大型语言模型 (MLLM)? MLLM 在计算机视觉中的应用和用例 顶级多模态大型语言模型 下一步
1.什么是多模态大型语言模型(MLLM)?
通俗地说,多模态大型语言模型 (MLLM) 是一种将大型语言模型 (LLM)(例如 GPT-3 [2] 或 LLaMA-3 [3])的推理能力与接收、推理和输出多模态信息的能力相结合的模型。
图 1 展示了医疗保健领域的多模态 AI 系统 [4]。它接收两个输入:1)医学图像和 2)文本查询:“此图像中是否存在胸腔积液?”。系统输出由给定查询的答案(即预测)组成。
图 1. 通过将放射视觉编码器与 LLM [4] 相结合创建的多模态医疗系统
1.1 人工智能中多模态性的兴起
过去几年,人工智能发生了重大转变,这在很大程度上是由语言模型 [6] 中 Transformers [5] 的兴起推动的。谷歌于 2017 年发明的这种架构的采用也影响了计算机视觉领域,这并不是什么新闻。
最早的例子之一是 Vision Transformers (ViT) [7],它使用 Transformers 将图像分割成多个块,将它们视为输入表示的单独视觉标记。
图 2. 2022 年至 2024 年间开发的一些多模态大型语言模型 (MLLM)
随着大型语言模型(LLM)的兴起,一种新型的生成模型——多模态大型语言模型(MLLM)自然而然地出现了。
如图 2 所示,2023 年,大多数大型科技公司都开发了至少一款 MLLM。2024 年 5 月,OpenAI 的 GPT-4o 成为头条新闻。
1.2 MLLM 与 VLM 与基础模型
有些人认为 MLLM 实际上是基础模型。例如,Google 的 Vertex AI 将 Claude 3、PaliGemma 或 Gemini 1.5 等多模态大型语言模型列为基础模型 🤔。
另一方面,视觉语言模型 (VLM) [8] 是多模态模型的一个特殊类别,它整合了文本和图像输入并生成文本输出。
多模态模型和 VLM 之间的主要区别在于:(1) MLLM 能够处理更多模态,而不仅仅是像 VLM 那样处理文本和图像;(2) VLM 在推理技巧方面表现较差。
1.3 架构
如图 3 所示,MLLM 的架构分为三个部分:
图 3. 多模态理解:多模态第一阶段的组成部分
模态编码器: 编码组件将原始数据格式(如视觉或声音)压缩为更简化的表示。一种流行的策略是利用已针对其他模态进行校准的预训练编码器(例如 CLIP),而不是从头开始训练过程。
LLM 主干: 需要语言模型来以文本形式输出响应。它充当 MLLM 的“大脑”。编码器接收图像、音频或视频,并生成特征,然后由连接器(或模态接口)进行处理。
模态接口(即连接器): 这充当编码器和 LLM 之间的中介或链接。由于 LLM 只能解释文本,因此有效地将文本与其他模态连接起来至关重要。
2. 多模态模型在计算机视觉中的应用和用例
我们没有提供这些模型擅长的不同用例的列表,而是旋转了几个 GPU,使用具有挑战性的查询(不再有猫😺和狗🐶示例)测试了三个顶级 MLLM。
GPT-4o [9]:OpenAI 于 2024 年 5 月发布的最强大的多模态模型。我们使用 OpenAI 的 API视觉功能访问了该模型。
LLaVA 7b [10]:一种多模态模型,源自开源 LlaMa 模型,集成了视觉编码器和Vicuna ,用于通用视觉和语言理解,有时可实现与 GPT-4 相当的出色性能。我们通过在 Jarvislab 上启动Ollama实例来访问此模型。
Apple Ferret 7b [11]:Apple 开发的开源多模态大型语言模型 (MLLM)。它通过使用引用和基础来实现空间理解,这使模型能够识别和描述图像中的任何形状,从而提供精确的理解,尤其是对较小的图像区域。为了访问该模型,我们还在JarvisLab上启动了一个Ferret实例。
2.1 存在遮挡的情况下的物体计数
图 4 显示了这三个顶级模型在给出一张图片和一个要求它们计算安全帽数量的具有挑战性的提示时的表现。
图 4. Apple 的 Ferret 模型是唯一一个能够正确识别边界框位置(包括被遮挡的边界框)的模型
尽管提供了非常丰富的场景描述(见图 4),GPT-4o 给出了错误的坐标来定位所需的安全帽:其中一些位于当前图像的尺寸之外,这就是为什么我们只能在右下角看到一个边界框。
开源模型 LLaVA 无法检测到所有四顶安全帽(它错过了左侧被遮挡的安全帽)并为边界框提供了错误的位置。
令人惊讶的是,Apple 的 Ferret 能够检测到图像上的四个物体:甚至包括左边被遮挡的物体!⭐️
2.2 自动驾驶:风险理解与规划
首先,我们从自动驾驶数据集中选取了这个场景。其次,我们增加了题目的难度:它要求模型从自动驾驶汽车的角度评估风险,同时检测两个独立的类别,即车辆和行人(见图 5)。
图 5. 一项要求模型检测物体并评估风险的具有挑战性的提示:Apple Ferret 的模型表现优于 GPT-4o。
结果显示LLaVA 的表现相当糟糕:它产生了幻觉,无法识别自动驾驶汽车前面的大卡车。开源模型在执行具有挑战性的任务时真的那么糟糕吗?🤔
虽然GPT-4o能够以文本形式返回合理的详细响应,但在清晰检测边界框方面,它的表现仍然很差。相比之下,Apple 的 Ferret是唯一一款能够以精确的边界框坐标检测出大多数对象的模型✅。
2.3 运动分析:检测物体和理解场景
到目前为止,至少有一个模型,Apple 的 Ferret,在计数和检测物体方面表现出色。让我们将注意力转向更具挑战性的场景:运动分析⚽️。
通常,单模态微调架构(例如 YOLO)在检测足球比赛中的球员方面往往表现非常出色:Ccn MLLM 的表现也很好吗?
图 6. 本文中的三个 MLLM 测试的一场足球比赛场景
例 3. 问题/提示:作为一个擅长运动(尤其是足球)的 AI 系统,您将获得一场足球比赛的场景。请 (1) 描述场景,(2) 计算每支球队的球员人数,(3) 提供球和守门员的边界框坐标,(4) 估计进球的可能性并说出哪支球队可能进球。
如图 7 所示,检测球员和球破坏了我们分析的三个模型!没有一个模型能够识别两支球队及其球员。
图 7. 本文中的所有 MLLM 都无法检测到提示中请求的对象
因此,多模态大型语言模型 (MLLM) 平均而言表现不错,但显然它们还无法解决更苛刻用例的计算机视觉任务。即使是 YOLOv8 模型在这种特定(利基)任务中也表现更好.
微调 MLLM 是可行的方法吗?🤔
3. 顶级多模态大型语言模型
现在,我们列出一些重新定义计算机视觉的最重要的 MLLM:
GPT-4o(2024 年,OpenAI)
输入:文本、图像、音频(测试版)、视频(测试版)。
输出:文本、图像。
它是什么:GPT-4o 代表“GPT-4 Omni”,其中“Omni”指的是其跨文本、视觉和音频模态的多模态功能。它是一个统一的模型,可以理解和生成文本、图像、音频和视频输入/输出的任意组合。
请尝试:https://chatgpt.com/
🥂鲜为人知的事实:GPT-4o 采用“多模态思维链”方法,它首先推理如何将问题分解为跨不同模态(文本、视觉、音频)的一系列步骤,然后执行这些步骤以得出最终解决方案。
Claude 3.5 Sonnet(2024 年,Anthropic)
输入:文本、图像。
输出:文本、图像。
它是什么:Claude 3.5 Sonnet 拥有 200K 标记上下文窗口,是一个多模式 AI 系统,可以理解和生成文本、图像、音频和其他数据格式。擅长在金融、生命科学和软件工程等各个领域进行深入分析、研究、假设生成和任务自动化。
在这里尝试:https://claude.ai
🥂鲜为人知的事实:Anthropic 采用一种称为“递归奖励建模”的技术,该技术涉及使用 Claude 的早期版本为模型的输出提供反馈和奖励。
LLaVA (2023, University of Wisconsin-Madison)
输入:文本、图像。
输出:文本。
它是什么:LLaVA(大型语言和视觉助手)是一个开源多模态 AI 模型,可以处理和生成文本和视觉数据作为输入和输出。它与 GPT-4 的聊天能力相匹配,并在 Science QA 上创下了新纪录,展示了先进的视觉语言理解能力。
在这里尝试:https://llava-vl.github.io
🥂鲜为人知的事实:LLaVA 使用一种称为“指令调整”的技术进行训练,其中 GPT-4 用于生成涉及文本和图像的合成多模态任务(2023 年的小说)。LLaVA 在没有直接人工监督的情况下从 GPT-4 生成的这些不同示例中学习。
Gemini 1.5(2024 年,谷歌)
输入:文本、图像、
输出:文本、图像。
它是什么:Gemini 是 Google 开发的大型语言模型系列,可以理解和操作多种模式,例如文本、图像、音频(测试版)和视频(测试版)。它于 2023 年 12 月首次亮相,有三种优化版本——Gemini Ultra(最大)、Gemini Pro(用于缩放)和 Gemini Nano(用于设备上的任务)。
在这里尝试:https://gemini.google.com/
🥂 (显而易见)鲜为人知的事实:Gemini 的名字是对双子星座的致敬,在希腊神话中代表“双胞胎”。鉴于 Gemini 的双重性质,它是一种功能强大的语言模型,还可以处理和生成图像、音频和视频等多模态数据,因此这很合适。
Qwen-VL(2024,阿里云)输入:文本、图像、
输出:文本、图像。
它是什么:Qwen-VL 是一个开源的多模态 AI 模型,结合了语言和视觉功能。它是 Qwen 语言模型的扩展,旨在克服多模态泛化的局限性。最近升级的版本(Qwen-VL-Plus 和 Qwen-VL-Max)具有改进的图像推理、更好的图像和文本细节分析以及对具有不同纵横比的高分辨率图像的支持。
在这里尝试:https://qwenlm.github.io/blog/qwen-vl/
🥂 (有趣的)鲜为人知的事实:推出后,Qwen-VL 迅速升至 OpenVLM 排行榜的榜首,但被其他更强大的模型超越,尤其是 GPT-4o。
4. 下一步是什么?
多模态模型正在彻底改变计算机视觉。作为一名ML/MLOps 工程师,在构建强大的 AI 管道时,如何才能最好地利用它们?
References
[1] A Survey on Multimodal Large Language Models
[2] Language Models are Few-Shot Learners
[3] Introducing Meta Llama-3: The most capable openly available LLM to date
[4] Multimodal medical AI
[5] Attention is all you need
[6] Language Models are Unsupervised Multitask Learners
[7] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
ICML 2024|浙大,NUS等高校联手推出多模态LLM革命性自动编码技术—Morph-Tokens
ECCV 2024 | 破解多模态学习:单模态模型联合嵌入助力缺失模态预测新突破!