一文读懂多模态大模型(MLLM)

2024-11-25 07:05   北京  

点击下方卡片,关注「魔方AI空间」公众号

最近,由 GPT-4V 代表的多模态大语言模型(MLLM)已成为新的研究热点,它使用强大的大语言模型(LLMs)作为大脑来执行多模态任务。

MLLM的惊人涌现能力,如基于图像的写作和无需OCR的数学推理,在传统多模态方法中是罕见的,这表明了通往人工智能的潜在路径。

为此,学术界和工业界都努力开发能够甚至超越GPT-4V的多模态大模型,以惊人的速度推动研究的极限。在本文中,旨在追踪和总结 MLLM 的最新进展。

图1:代表性的多模态模型(MLLM)时间线

一、引言

近年来,大语言模型(LLMs在模型规模上取得了显著进步,这些LLMs通常包括指令遵循、上下文学习(ICL)和思维链(CoT)。尽管LLMs在大多数自然语言处理(NLP)任务上展示了令人惊讶的零/少次推理性能,但它们本质上对视觉是“盲”的,因为它们只能理解离散文本。同时,大型视觉模型(LVMs)可以清晰地看到,但在推理方面通常落后。

鉴于这种互补性,LLM和LVM相互靠近,导致了多模态大语言模型(MLLM)这一新领域的发展。

MLLM的研究难点包括如何有效地将文本与其他模态(如图像、视频、音频)结合,以及如何在训练过程中充分利用多模态数据来提升模型的性能。

在MLLM之前,已有大量工作致力于多模态学习,分为判别式和生成式两种范式。CLIP是判别式的代表,将视觉和文本信息整合到一个统一的向量空间中,为下游的多模态任务搭建了一座桥梁。而OFA是生成式的代表,它以序列到序列的方式统一了多模态任务。

MLLM则根据序列操作被归类为生成式模型,表现出两个代表性特征:(1)MLLM基于具有数十亿参数的LLM,这在以前的模型中是不存在的。(2)MLLM使用新的训练范式来释放其全部潜力,例如使用多模态指令调整来鼓励模型遵循新指令。

凭借这两个特点,MLLM展示了新的能力,如基于图像编写网站代码,理解表情符号的深层含义,以及无OCR数学推理。

在本综述中,旨在为研究人员提供一个关于MLLM的基本思想、主要方法和当前进展的内容,主要关注视觉和语言模态,但也包括涉及视频和音频等其他模态的工作。

二、方法架构

一个典型的MLLM可以分为三个模块,即预训练的模态编码器、预训练的LLM和一个连接它们的模态接口。类比人类,模态编码器如图像/音频编码器是接收和处理光学/声学信号的感官,而LLM则像是理解并处理信号后进行推理的人类大脑。在它们之间,模态接口负责对齐不同的模态。一些MLLM还包括一个生成器来输出除文本之外的其他模态。如图2所示。

图2:典型的MLLM架构图。它包括一个编码器、一个连接器和一个LLM。可以附加一个可选的生成器到LLM上,以生成除文本之外的更多模态。编码器接收图像、音频或视频,并输出特征,这些特征由连接器处理,以便LLM更好地理解。连接器的类型大致分为三种:基于投影的、基于查询的和基于融合的连接器。前两种类型采用标记级融合,将特征处理成标记并随文本标记一起发送,而最后一种类型在LLM内部实现特征级融合。

2.1 模态编码器

编码器将原始信息,如图像或音频,压缩成更紧凑的表示。与从头开始训练不同,常见的方法是使用已经与其他模态对齐的预训练编码器。例如,CLIP 通过在大规模图像-文本对上进行预训练,将视觉编码器与文本语义上对齐。因此,使用最初就对齐的编码器更容易通过对齐预训练与LLM对齐。

常用的图像编码器系列如表1所示。除了普通的CLIP图像编码器,一些工作还探索了使用其他变体。例如,MiniGPT-4采用了EVA-CLIP编码器,并采用改进的训练技术进行训练。

在选择编码器时,人们通常会考虑分辨率、参数大小和预训练语料等因素。值得注意的是,许多工作已经通过实证验证了使用更高分辨率可以实现显著的性能提升。扩大输入分辨率的方法可以分为直接缩放和补丁(patch)分割方法。直接缩放方式是将高分辨率的图像输入到编码器中,这通常涉及进一步调整编码器或用更高分辨率预训练编码器替换。补丁(patch)分割方法将高分辨率的图像切割成补丁,并使用低分辨率的编码器重用。

2.2 预训练LLM

与其从头开始训练LLM,不如从预训练的LLM开始,更为高效和实用。通过在网络语料库上进行巨大的预训练,LLM已经嵌入了丰富的世界知识,并展示了强大的泛化和推理能力

在表2中总结了常用的和公开可用的LLM

应该注意的是,扩大LLMs的参数大小也会带来额外的收益,类似于提高输入分辨率的情况。具体来说,仅仅将LLM从7B增加到13B就能在各种基准测试上带来全面的改进。此外,当使用一个34B的LLM时,考虑到训练期间只使用了英文多模态数据,该模型显示出显著的零样本中文能力。通过将LLM从13B增加到35B和65B / 70B,看到了类似的现象,其中更大的模型大小在专门为 MLLM 设计的基准测试上带来了一致的收益。

还有些工作使用较小的LLMs来促进移动设备上的部署。例如,MobileVLM系列使用缩放的LLaMA(称为MobileLLaMA 1.4B/2.7B),使得在移动处理器上高效推理成为可能。

最近,对LLMs混合专家(MoE)架构的探索引起了越来越多的关注。与密集模型相比,稀疏架构通过选择性激活参数,能够在不增加计算成本的情况下扩大总参数大小。实证研究表明,MM1和MoE-LLaVA发现在几乎所有基准测试上,MoE实现的性能都优于密集型任务。

2.3 模态接口

由于大语言模型(LLMs)只能感知文本,因此需要在自然语言和其他模态之间建立桥梁。然而,在端到端的方式下训练一个大型多模态模型将是昂贵的。更实际的方法是在预训练的视觉编码器和LLM之间引入一个可学习的连接器。另一种方法是借助专家模型将图像翻译成语言,然后将语言发送给LLM

可学习连接器。它负责在不同模态之间建立桥梁。具体来说,该模块将信息投影到LLM能够高效理解的领域中。基于多模态信息融合的方式,主要有两种实现此类接口的方法,即 token 级和特征级融合。

对于 token 级融合,从编码器输出的特征被转换成token,并在发送到LLM之前与文本token连接起来。一种常见且可行的解决方案是利用一组可学习的查询token以基于查询的方式提取信息,这首先已在BLIP-2中实现,并随后被各种工作继承。这样的Q-Former风格方法将视觉 token 压缩成更少的表示向量数量。相比之下,一些方法仅使用基于 MLP 的接口来弥合模态差距。例如,LLaVA系列采用一到两个线性MLP来投影视觉token并将特征维度与词嵌入对齐。

MM1在连接器设计选择上进行了研究,并发现对于令牌级融合,模态适配器的类型远不如视觉令牌数量和输入分辨率重要。然而,比较了令牌级和特征级融合的性能,并实证揭示了令牌级融合变体在VQA基准测试中的表现更好。

关于性能差距,建议跨注意力模型可能需要更复杂的超参数搜索过程才能达到可比的性能。作为另一条线索,特征级融合插入额外的模块,以实现文本特征和视觉特征之间的深度交互和融合。在LLM的冻结变换器层之间插入了额外的跨注意力层,从而用外部视觉线索增强语言特征。同样,CogVLM在每个Transformer层中插入了一个视觉专家模块,以实现视觉和语言特征之间的双交互和融合。为了更好的性能,引入模块的QKV权重矩阵是从预训练的LLM初始化的。类似地,LLaMA-Adapter 在Transformer层中引入了可学习的提示。这些提示首先与视觉知识嵌入,然后与文本特征作为前缀进行连接。

就参数大小而言,可学习接口通常与编码器和LLM相比只占一小部分。以Qwen-VL为例,Q-Former的参数大小约为0.08B,占整个参数的不到1%,而编码器和大语言模型(LLM)分别占约19.8%(1.9B)和80.2%(7.7B)。

专家模型。除了可学习接口外,使用专家模型,如图像字幕模型,也是弥合模态鸿沟的一种可行方式。基本思想是将多模态输入转换为无需训练的语言。通过这种方式,LLM可以通过转换后的语言理解多模态。例如,VideoChat-Text使用预训练的视觉模型提取视觉信息,如动作,并使用语音识别模型丰富描述。尽管使用专家模型很直接,但它可能不如采用可学习接口灵活。将外语模态转换为文本会导致信息丢失。例如,将视频转换为文本描述会扭曲时空关系。

三、训练策略与数据

一个完整的 MLLM 经历三个阶段的训练,即预训练、指令调优和对齐调优。每个阶段的训练都需要不同类型的数据并实现不同的目标。

3.1 预训练

3.1.1 训练细节

作为第一个训练阶段,预训练主要旨在对齐不同模态并学习多模态世界知识。预训练阶段通常涉及大规模的文本配对数据,例如字幕数据。通常,标题对以自然语言句子描述图像/音频/视频。

在这里,考虑一个常见的场景,即训练 MLLM 使视觉与文本对齐。如表3所示,给定一张图像,模型被训练来自动生成图像的标题,遵循标准的交叉熵损失。预训练的一个常见方法是保持预训练模块(例如视觉编码器和LLM)冻结,并训练一个可学习的接口。其思想是在不丢失预训练知识的情况下对齐不同的模态。一些方法也冻结更多模块(例如视觉编码器),以便为对齐提供更多的可训练参数。应该注意的是,训练方案与数据质量密切相关。对于短且嘈杂的标题数据,可以采用较低分辨率(例如224)来加快训练过程,而对于较长且更清晰的数据,则最好使用更高分辨率(例如448或更高)来减轻幻觉。此外,ShareGPT4V发现,在预训练阶段拥有高质量标题数据时,解锁视觉编码有助于更好的对齐。

3.1.2 数据

预训练数据主要服务于两个目的:对齐不同的模态和提供世界知识。预训练语料库可以根据粒度分为粗粒度和细粒度数据,在表4中总结了常用的预训练数据集。

粗粒度字幕数据具有一些共同特点:(1)由于样本通常来自互联网,因此数据量很大。(2)由于网络抓取的特性,字幕通常很短且嘈杂,因为它们源自网页图像的alt文本。这些数据可以通过自动工具进行清洗和过滤,例如使用 CLIP 模型过滤掉相似度低于预设阈值的图像-文本对。

细粒度数据:最近,更多的工作探索了通过提示强大的MLLMs(例如GPT-4V)生成高质量细粒度数据。与粗粒度数据相比,这些数据通常包含更长且更准确的图像描述,从而使得图像和文本模态之间的对齐更加精细。然而,由于这种方法通常需要调用商业用途的MLLM,成本更高,数据量相对较小。值得注意的是,ShareGPT4V 通过首先用GPT-4V生成的100K数据训练字幕员,然后使用预训练的字幕员将数据量扩展到1.2M,实现了平衡。

3.2 指令调优

指令是指任务的描述。直观上,指令调优旨在教会模型更好地理解用户的指令并完成所需任务。通过这种方式调整,大语言模型(LLMs)可以通过遵循新的指令泛化到未见过的任务,从而提高零样本性能。这个简单而有效的方法激发了后续自然语言处理工作的成功,例如ChatGPT、InstructGPT、FLAN和OPT-IML。指令调优和相关典型学习范式之间的比较如图3所示。

图3:三种典型学习范式的比较

监督微调方法通常需要大量特定于任务的训练数据来训练特定于任务的模型。提示方法减少了依赖大规模数据,并且可以通过提示工程满足专业化任务。在这种情况下,尽管几次样本的性能有所提升,但零样本性能仍然相当平均。不同之处在于,指令调优学习如何泛化到未见过的任务,而不是像两个对应物那样拟合特定的任务。此外,指令调优与多任务提示密切相关。将阐述指令样本的格式、训练目标、收集指令数据的典型方式以及相应的常用数据集。

多模态指令样本通常包括一个可选指令和一个输入输出对。指令通常是描述任务的自然语言句子,例如,“详细描述图像。”输入可以是像VQA任务这样的图像-文本对,或者只是一个图像。

收集指令数据:由于指令数据在格式上更加灵活,任务表述也各不相同,因此收集数据样本通常更困难且成本更高。三种典型的按规模收集指令数据的方法,即数据适应、自教和数据混合

数据质量:最近的研究揭示了指令调整样本的质量不亚于数量。在大规模但噪声较大的图像-文本对上预训练的模型不如在较小但更清洁的数据集上预训练的模型表现得好。同样地,具有更高质量的较少的指令调整数据可以实现更好的性能。

对于数据过滤,该工作提出了一些评估数据质量的指标,并相应地提出了一种自动过滤掉劣质视觉-语言数据的方法。

关于数据质量的两个重要方面。提示多样性:指令的多样性被发现对模型性能至关重要,多样化的提示有助于提高模型性能和泛化能力。任务覆盖:就训练数据涉及的任务而言,发现视觉推理任务优于字幕和问答任务,以提升模型性能。此外,研究表明,提高指令的复杂性可能比增加任务多样性和纳入细粒度空间注释更有益。

3.3 对齐调优

对齐调优更常用于模型需要与特定人类偏好对齐的场景,例如响应较少幻觉。目前,人类反馈强化学习(RLHF)和直接偏好优化(DPO)是两种主要的对齐调优技术。

RLHF。这项技术旨在利用强化学习算法将对齐LLM与人类偏好对齐,在训练循环中使用人类注释作为监督。如InstructGPT所示,RLHF包括三个关键步骤:

  1. 监督微调。这一步旨在微调一个预训练模型,以呈现初步期望的输出行为。在RLHF设置中的微调模型称为策略模型。
  2. 奖励建模。在本步骤中,使用先验对训练奖励模型。给定一个多模态提示(例如图像和文本)x 和一个响应对 (yw,yl),奖励模型 学会根据以下目标,给予首选响应 yw 更高的奖励,反之亦然:
  1. 强化学习。在这一步中,采用近端策略优化(PPO)算法来优化强化学习策略模型πϕRL。通常会在训练目标中添加每个令牌的KL惩罚,以避免偏离原始策略太远,从而得到目标:

通过这个调整过程,获得的强化学习策略模型预期会与人类偏好保持一致。研究人员已经探索使用 RLHF 技术来更好地进行多模态对齐。例如,LLaVA-RLHF收集人类偏好数据,并根据LLaVA调整了一个具有较少幻觉的模型。DPO。它利用简单的二元分类损失从人类偏好标签中学习。与基于PPO的RLHF算法相比,DPO免除了学习显式奖励模型的任务,因此简化了整个流程到两个步骤,即人类偏好数据收集和偏好学习。学习目标如下:

对齐调优的数据收集是收集模型响应的反馈,即决定哪个响应更好。通常收集此类数据成本更高,这一阶段使用的数据量通常甚至少于前几个阶段。如表8中进行了总结。

四、实验评估

评估是开发MLLM的重要部分,因为它为模型优化提供了反馈,并有助于比较不同模型的性能。与传统多模态模型的评估方法相比,MLLM的评估展现出几个新特征:

(1)由于MLLM通常具有多功能性,因此全面评估MLLM是很重要的。

(2)MLLM展示了许多需要特别关注的新兴能力(例如无OCR数学推理)因此需要新的评估方案

根据问题类型,MLLM的评估可以大致分为两类,包括封闭集和开放集。

4.1 封闭集

封闭集:封闭集问题指的是一种预先定义可能答案选项且限于有限集合的问题类型。评估通常在特定任务的数据集上进行。

在这种情况下,响应可以通过基准指标自然判断。例如,InstructBLIP 报告了在ScienceQA 上的准确率,以及在NoCaps 和 Flickr30K 上的CIDEr分数。

4.2 开放集

与封闭集问题相比,对开放集问题的回答可能更加灵活,其中大语言模型(LLMs)通常扮演聊天机器人角色。因为聊天内容可能是任意的,所以比封闭式输出更难判断。标准可以分为手动评分、GPT评分和案例研究

五、扩展

最近的研究在扩展 MLLM 的能力方面取得了重大进展,涵盖了从更强大的基础能力到更广泛的场景覆盖范围。

粒度支持。为了促进代理和用户之间的更好互动,研究人员开发了具有更细粒度支持的MLLM,就模型输入和输出而言。在输入方面,逐渐开发出支持用户提示更精细控制的模型,从图像到区域甚至像素。

模态支持。对模态的支持增加是大型语言模型研究的一个趋势。一方面,研究人员探索了调整大语言模型以支持更多多模态内容输入,例如3D点云。另一方面,大语言模型也被扩展以生成更多模态的响应,例如图像,音频,以及视频

语言支持。当前模型主要是非双语的,这可能是由于高质量的非英语训练语料库稀缺所致。一些工作已被撤销,转而开发多语言模型,以便覆盖更广泛的用户群体。Qwen-VL是从双语LLM Qwen发展而来的,并支持中文和英文。在预训练期间,中文数据被混合到训练语料库中,以保留模型的双语能力,占整个数据量的22.7%。

场景/任务扩展。除了开发通用助手外,一些研究专注于需要考虑实际条件的更具体场景,而其他研究则将MLLM扩展到具有特定专长的下游任务。

一个典型的趋势是将MLLM适应更具体的现实生活场景。MobileVLM探索了为资源有限场景开发小型版本的MLLM。一些设计和技术被用于移动设备上的部署,例如较小尺寸的LLM和加速计算的量化技术。其他开发了与现实世界互动的代理,例如专为图形用户界面(GUI)设计的用户友好型助手,如CogAgent、AppAgent和Mobile-Agent。这些助手在规划和引导用户指定的任务方面表现出色,充当人机交互的有益代理。另一条路线是使用特定技能增强MLLM,以解决不同领域的任务,例如文档理解以及医学领域。对于文档理解,mPLUG-DocOwl利用各种形式的文档级数据进行调整,从而实现了无OCR文档理解的增强模型。TextMonkey整合了与文档理解相关的多个任务以提高模型性能。除了传统的文档图像和场景文本数据集外,还增加了与位置相关的任务,以减少幻觉并帮助模型学习在视觉信息中定位响应。通过植入医学领域的知识,MLLM也可以扩展到医疗领域。例如,LLaVA-Med将医学知识注入普通LLaVA中,并开发了一个专门从事医学图像理解和问答的助手。

六、多模态幻觉

多模态幻觉指的是由MLLM生成的机器人响应与图像内容不一致的现象。作为一个基本且重要的问题,这个问题受到了越来越多的关注。在本节中,简要介绍一些相关概念和研究进展。

当前关于多模态幻觉的研究可以进一步分为三种类型

1)存在幻觉是最基本形式,意味着模型错误地识别图像中某些对象的存在。

2)属性幻觉是指以错误的方式描述某些对象的属性,例如错误识别狗的颜色。它通常与存在幻觉相关联,因为属性的描述应该基于图像中存在的对象。

3)关系幻觉是一种更复杂的类型,也基于对象的存在。它指的是对对象之间关系的错误描述,如相对位置和互动。

评估方法

CHAIR 是一个早期用于评估开放式标题中幻觉水平的指标。该指标衡量了句子中包含幻觉对象或所有提及的对象中包含幻觉对象的句子比例。相比之下,POPE 是一种评估封闭集选择的方法。具体来说,制定了多个具有二元选择的提示,每个提示查询图像中是否存在特定对象。该方法还涵盖了更具挑战性的设置,以评估MLLM的鲁棒性,并考虑了数据统计。最终评估使用了一个简单的关键词机制,即通过检测关键词“是 / 否”,将开放式回答转换为封闭集的二进制选择。采用类似的评估方法,MME提供了一个更全面的评估,涵盖了存在、计数、位置和颜色的方面。与之前使用匹配机制来检测和决定幻觉的方法不同,HaELM 提出使用仅文本的LLM作为判断器,自动决定MLLM的标题是否正确与参考标题相比。鉴于仅文本的LLM只能访问有限的图像上下文并需要参考注释,Woodpecker使用GPT-4V直接评估基于图像的模型响应。Faith-Score是一个更细粒度的度量标准,基于一个常规流程,该流程分解描述性子句子并对每个子句子分别进行评估。基于以往的研究,AMBER是一个无LLM基准测试,包括判别性和生成性任务,并涉及三种可能的幻觉。

缓解方法

根据高层次的思想,当前方法大致可以分为三类:预校正、过程校正和后校正

预校正:对于幻觉的一个直观且直接的解决方案是收集专业数据(例如负数据)并使用这些数据进行微调,从而得到具有较少幻觉性回答的模型LRV-Instruction引入了一个视觉指令调整数据集。除了常见的正面指令外,该数据集还包含了在不同语义层次上精心设计的负面指令,以鼓励与图像内容相符的回答。LLaVA-RLHF收集了人类偏好对,并使用强化学习技术对模型进行微调,导致模型与更少的幻觉性答案更加一致。

过程校正:另一条线是改进架构设计或特征表示。这些工作试图探索幻觉的原因,并设计相应的补救措施以在生成过程中减轻它们。HallE-Switch 对物体存在幻觉的可能因素进行了实证分析,并假设存在幻觉源于视觉编码器未扎根的对象,实际上是基于LLM中嵌入的知识推断出来的。基于这一假设,引入了一个连续的控制因素和相应的训练方案,以控制模型输出在推理过程中的想象程度。VCD 提出物体幻觉源于两个主要原因,即训练语料库中的统计偏差和LLM中嵌入的强烈语言先验。当向图像中注入噪声时,MLLM 倾向于偏向语言先验而不是图像内容以生成响应,导致幻觉。相应地,这项工作设计了一个放大然后对比的解码方案来抵消这种错误偏差。HACL研究了视觉和语言的嵌入空间。基于观察,设计了一种对比学习方案,旨在拉近成对的跨模态表示,同时推开非幻觉和非幻觉的文本表示。

后校正:与以往范式不同,后校正以一种补救后的方式减轻幻觉,并在输出生成后纠正幻觉。Wood-pecker 是一个无需训练的通用幻觉校正框架。具体来说,该方法结合了专家模型来补充图像的上下文信息,并创建一个逐步纠正幻觉的流程。该方法具有可解释性,因为可以检查每一步的中间结果,并且对象植根于图像。另一种方法是LURE,它训练了一个专门的修订器来掩盖描述中高不确定性的对象,并再次生成响应。

七、扩展技术

7.1 多模态上下文学习

ICL(In-Context Learning)是大语言模型(LLM)的重要新兴能力之一。ICL有两个很好的特点:

(1)与从大量数据中学习内隐模式的传统监督学习范式不同,ICL的关键在于从类比中学习

(2)ICL 通常以无训练方式实现,因此可以在推理阶段灵活地集成到不同的框架中。与ICL密切相关的技术是指令微调,实证研究表明它可以增强 ICL 能力。

在 MLLM 背景下,ICL已经扩展到更多模态,即多模态上下文学习(M-ICL)。在推理时,可以通过向原始样本添加演示集,即一组上下文样本,来实现M-ICL。在这种情况下,模板可以如表9所示进行扩展。请注意,列出了两个上下文中的示例以供说明,但示例的数量和顺序可以灵活调整。实际上,模型通常对演示的排列很敏感。

表9:一个简化的模板示例,用于构建M-ICL查询。为了说明,列出了两个上下文中的例子和一个由虚线分隔的查询。{指令}和{响应}是数据样本中的文本。<图像>是一个占位符,代表多模态输入(在这种情况下是图像)。分别是表示LLM输入开始和结束的标记。

提升ICL能力

最近,越来越多的工作集中在各种场景下提升ICL性能。MIMIC-IT 通过构建与多模态上下文匹配的指令数据集,结合了上下文学习和指令调优。在引入的数据集上调整的模型指令在标题任务中显示出改进的少样本性能。Emu通过引入额外的模态到模型生成和相应的训练语料库中,扩展了Flamingo的想法。借助引入的视觉解码器,即Stable Diffusion,模型从额外的视觉监督中学习,并支持更灵活的输出格式和上下文推理。具体来说,除了以纯文本形式回答问题外,模型还可以以图像形式给出响应。

应用

在多模态应用方面,M-ICL主要用于两种场景:

(1)解决各种视觉推理任务;

(2)教授大语言模型(LLMs)使用外部工具。

前者通常涉及从少数特定任务的示例中学习,并泛化到新的但相似的问题。根据指令和演示提供的信息,LLMs能够理解任务正在做什么以及输出模板是什么,最终生成预期的答案。相比之下,工具使用的示例更为细致。它们通常包括一系列可以依次执行的步骤,以完成任务。

7.2 多模态思维链

CoT 是一系列中间推理步骤,已被证明在复杂推理任务中有效。CoT的主要思想是提示大语言模型(LLMs)不仅输出最终答案,还要输出导致答案的推理过程,类似于人类的认知过程。受到自然语言处理成功的启发,已经有多项工作被提出将单模态 CoT 扩展到多模态CoT(M-CoT)

学习范式

获取M-CoT能力的三种主要方式分别是通过微调和无训练的少/零样本学习。这三种方式的样本量要求按降序排列。直观上,微调方法通常涉及为M-CoT学习定制特定数据集。与微调相比,少样本/零样本学习在计算效率上更为高效。它们之间的主要区别在于,少样本学习通常需要手工制作一些上下文中的示例,以便模型能够更容易地逐步推理。相比之下,零样本学习不需要任何特定的示例来进行CoT学习。在这种情况下,模型在没有显式指导的情况下学习使用嵌入的知识和推理能力,例如通过设计指令如“让我们逐帧思考”或“这两个关键帧之间发生了什么”来引导。同样,一些工作通过向模型提供任务和工具使用的描述来提示模型,将复杂任务分解成子任务。

链配置

结构和长度是推理链的两个关键方面。就结构而言,当前方法可以分为单链和树状方法。单链推理是在各种方法中广泛使用的范式。具体来说,逐步推理过程形成一个单一的问题-推理-答案链。最近,一些方法探索了使用更复杂的方案,即树状链来进行推理。具体来说,DDCoT将问题分解为多个子问题,每个子问题由LLM本身或视觉专家解决以生成推理。然后LLM聚合并使用推理形成最终答案。在链长度方面,它可以被归类为自适应和预定义的配置。前者配置要求大语言模型(LLMs)自行决定何时停止推理链,而后者设置则通过预定义的长度来停止链。

生成模式

链是如何构建的问题值得研究。将当前的工作总结为:(1)基于填充的模式;(2)基于预测的模式。具体来说,基于填充的模式要求在周围上下文(前一步骤和后一步骤)之间推导步骤来填补逻辑空白。相比之下,基于预测的模式要求根据给定条件(如指令和之前的推理历史)扩展推理链。这两种模式都要求生成的步骤应该是连贯且正确的。

7.3 LLM 辅助视觉推理

受到工具增强LLMs成功的影响,一些研究者探索了调用外部工具或视觉基础模型进行视觉推理任务的可能性。将这些LLMs作为具有不同角色的助手,这些工作构建了特定任务的或通用视觉推理系统。

与传统的视觉推理模型相比,这些工作表现出几个优点:

(1)强大的泛化能力:配备了从大规模预训练中学习到的丰富开放世界知识,这些系统能够轻松地将自己泛化到未见过的对象或概念上,并展现出卓越的零/少样本性能。

(2)涌现能力:得益于大语言模型(LLMs)强大的推理能力,这些系统能够执行复杂任务。例如,给定一张图片,MM-REACT可以解释表面下的含义,比如解释为什么一个梗是有趣的。

(3)更好的交互性和控制性:传统模型通常只允许有限的控制机制,并且往往需要昂贵的定制数据集。相比之下,基于LLM的系统能够在用户友好的界面中进行精细控制(例如点击和自然语言查询)。

对于这部分内容,首先介绍在构建LLM辅助视觉推理系统时采用的不同的训练范式。然后,将深入探讨LLMs在这些系统中的主要作用。

训练范式

根据训练范式,LLM辅助视觉推理系统可以分为两种类型,即无训练和微调。

无训练:利用预训练LLMs中存储的大量先验知识,一种直观且简单的方法是冻结预训练模型,并直接提示LLMs满足各种需求。根据设置,推理系统可以进一步细分为少样本模型和零样本模型。少样本模型涉及少量手工制作的上下文样本指导大型语言模型生成程序或一系列执行步骤。这些程序或执行步骤作为相应基础模型或外部工具/模块的指令。零样本模型更进一步,直接利用大语言模型的语言学 / 语义知识或推理能力。例如,PointCLIP V2提示GPT-3生成与相应图像更好地对齐的具有3D相关语义的描述。在CAT中,大语言模型被指示根据用户查询细化标题。

微调:一些工作采用进一步的微调来证明与工具使用相关的规划能力或提高系统的定位能力]。例如,GPT4Tools 引入了指令微调方法。因此,收集并使用新的工具相关指令数据集来微调模型。

功能

为了进一步检查大语言模型在LLM辅助视觉推理系统中的确切角色,现有相关工作分为三类:

● 大语言模型作为控制器

● 大语言模型作为决策者

● 大语言模型作为语义细化器

大型语言模型作为控制器:在这种情况下,大型语言模型(LLMs)充当中央控制器,(1)将复杂任务分解成更简单的子任务/步骤;(2)将这些任务分配给适当的工具/模块。第一步通常是通过利用LLMs的CoT能力来完成的。具体来说,LLMs被明确提示输出任务规划,或者更直接地,是调用模块。例如,VisProg[170]提示GPT-3输出一个视觉程序,其中每个程序行调用一个模块来执行一个子任务。此外,LLMs还需要输出模块输入的参数名称。为了处理这些复杂的请求,一些手工制作的上下文示例被用作参。通过这种方式,复杂问题被分解成可以顺序解决的子问题。

LLMs作为决策者:在这种情况下,复杂任务以多轮方式解决,通常是迭代的方式。决策者通常履行以下职责:(1)总结当前上下文和历史信息,并决定当前步骤可用的信息是否足以回答问题或完成任务;(2)组织和总结答案,以用户友好的方式呈现。

LLMs作为语义细化器:当LLMs用作语义细化器时,研究人员主要利用其丰富的语言学和语义知识。具体来说,大型语言模型(LLMs)通常被指令整合信息到一致且流畅的自然语言句子中或根据不同的特定需求生成文本。

八、挑战与未来方向

大型语言模型的发展仍处于初级阶段,因此有很大的改进空间,总结如下:

当前的大型语言模型在处理长上下文的多模态信息方面有限。这限制了开发具有更多多模态令牌的高级模型,例如长视频理解以及与图像和文本交织的长文档。

大型语言模型应升级以遵循更复杂的指令。例如,生成高质量的问题-答案对数据的主流方法仍然是在提示使用开源GPT-4V,因为它具有先进的指令遵循能力,而其他模型则普遍未能实现。

在M-ICL和M-CoT等技术上仍有很大的改进空间。当前关于这两种技术的研究仍处于初级阶段,大语言模型的相关能力较弱。因此,探索潜在的机制和改进是充满希望的。

基于大语言模型的具身代理的开发是一个热门话题。开发能够与现实世界互动的此类Agent是有意义的。这样的努力需要具有关键能力的模型,包括感知、推理、规划和执行。

安全问题。与大语言模型类似,MLLMs 可能容易受到精心设计的攻击。换句话说,MLLMs 可能会被误导输出有偏见或不希望的响应。因此,提高模型安全性将成为一个重要话题。

参考文献

《A Survey on Multimodal Large Language Models》

从零走向AGI

https://github.com/AI-mzq/From-Zero-to-AGI.git

AIGCmagic社区飞书知识库:

https://a1qjvipthnf.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd

面试面经

https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer.git

技术交流

加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!

更多精彩内容,尽在「魔方AI空间」,关注了解全栈式 AIGC 内容!!

推荐阅读

技术专栏: 多模态大模型最新技术解读专栏 | AI视频最新技术解读专栏 | 大模型基础入门系列专栏 | 视频内容理解技术专栏 | 从零走向AGI系列

技术资讯: 魔方AI新视界

技术综述: 一文掌握Video Diffusion Model视频扩散模型 | YOLO系列的十年全面综述 | 人体视频生成技术:挑战、方法和见解

魔方AI空间
AI技术从业者与爱好者,专注于计算机视觉、深度学习、行为识别、多模态、边缘智能等前沿科技成果的研究和技术分享!
 最新文章