(本文阅读时间:11分钟)
随着人工智能技术的持续发展,大模型已经从单一模态向多模态演化,多模态模型的应用也开始逐渐进入人们的视野。然而,终端用户现在所接触到的多模态模型还不是多模态模型的“完全体”。目前,多模态模型主要有三种实现方式:
多模态接口:在系统层开发统一的用户界面,具备多种模态数据输入和多种模态输出的能力,但是实现上则可以通过调用不同模态的模型甚至是 API,在终端实现多模态能力;
多模态对齐与融合:在技术框架层将语言模型、视觉模型、声音模型等进行连接,这些模型相互独立学习,使用不同模态的数据进行训练,然后将拼接好的模型在跨模态数据上继续预训练以及在不同任务数据上进行微调;
原生多模态大语言模型:从训练阶段开始,模型就利用大量不同模态的数据进行预训练,技术上实现紧密的耦合,不仅可以在输入和输出端实现多模态,而且还具备强大的多模态推理能力以及跨模态迁移能力。通常,这一类型才被认为是真正的多模态模型。
在微软亚洲研究院全球研究合伙人韦福如看来,真正的原生多模态大语言模型不仅要在输入输出端支持多模态,还必须是具有实现多模态推理和跨模态迁移能力的端到端模型。而且基于多模态数据原生训练的每一种单模态能力,都应该超越只在单模态数据上训练的模型的性能。更重要的是,在不同模态数据学习的过程中,模型应该能够涌现出新的能力。
沿着这一思路,微软亚洲研究院通用人工智能组的研究员们先后研发了多模态大语言模型 KOSMOS-1、KOSMOS-2、KOSMOS-2.5。现在,在这些工作的基础上,研究员们持续探索原生多模态语言模型,希望能够在输入和输出端都实现对原生多模态数据的支持,从而更深入地理解物理世界,并执行多模态推理和跨模态迁移。
KOSMOS的不断发展得益于前代模型的研究成果:
KOSMOS-1 实现了语言与感知的对齐,为大语言模型支持多模态任务奠定了基础。
KOSMOS-2 引入了 Grounding 能力,增强了模型的空间想象力,解锁了多模态大语言模型的细粒度理解和推理的能力。
KOSMOS-2.5 通过统一框架来处理文本密集图像的多模态阅读和理解任务,为文本丰富图像的应用提供了通用接口。
“语言是所有多模态模型的基础。在人工智能和计算机科学领域,我们的目标是让机器理解人类的语言,而不是迫使人类去学习机器的语言。所以,从模型的最终应用形态来看,语言是最直接的交互方式。此外,语言及文本具有独特的优势,能够促进模型上下文理解、指令遵从以及推理能力的训练,这是其他单一模态数据难以提供的”。韦福如表示。
基于这些思考,微软亚洲研究院的研究员们在 KOSMOS 项目的早期研究中,就将语言模型原生支持多模态数据作为目标。在 KOSMOS-1,研究员们实现了大语言模型与感知能力的对齐,使 KOSMOS-1 模型能够原生支持语言、感知-语言和视觉任务,涵盖了广泛的感知密集型任务,包括视觉对话、简单数学方程求解、OCR,以及带描述的零样本图像分类等。
KOSMOS-1 涵盖广泛的感知密集型任务:视觉对话、带描述的零样本图像分类、非语言推理、OCR、数学计算
与此同时,KOSMOS-1 在大语言模型推理能力的基础上,可以进行非语言推理。研究员们根据瑞文推理测验(Raven's Progressive Matrices)建立了 IQ 测试基准,来评估 KOSMOS-1 模型在非语言任务上的推理能力。结果表明,KOSMOS-1 能够感知非语言上下文中的抽象概念模式,并可以从多个选项中推导出下一个元素。这标志着 KOSMOS-1 可有效地完成部分零样本瑞文推理测验。
上图展示了瑞文推理测验的一个例子,下图则展示了将 KOSMOS-1 在瑞文推理测验中进行评测
在 KOSMOS-1 的基础上,KOSMOS-2 采用了相同的模型架构,并引入了 Grounding 能力,赋予模型“空间想象力”。KOSMOS-2 允许用户直接选择图像中的对象或区域作为输入,无需输入详细的文本描述,模型便能够理解该图像区域及其空间位置。Grounding 能力还使模型能够以视觉答案(例如边界框)的形式进行回应,并将生成的自由形式文本响应中的名词短语和指代表达链接到图像区域,有效解决了指代歧义问题,从而提供了更准确、信息丰富且全面的答案。
KOSMOS-2 可以将文本回答同图像中对应的区域进行连接,用户也可以通过边界框表明多模态的指代
KOSMOS-2.5 在 KOSMOS-2 的基础上,进一步增强了对文本密集图像的多模态阅读和理解能力,包括信息提取、布局检测和分析、视觉问答、截图理解、用户界面自动化(UI Automation)等。KOSMOS-2.5 能够无缝处理视觉和文本数据,实现对文本丰富图像的深入理解,并生成结构化的文本描述。
通过统一的框架,KOSMOS-2.5 可处理两个紧密协作的任务。第一个任务是根据文本密集图像生成具有空间感知的文本块,即同时生成文本块的内容与其在文本密集图像中对应的坐标框。第二个任务是以 Markdown 格式生成结构化的文本输出,同时捕捉各种样式和结构。KOSMOS-2.5 将基于 ViT(Vision Transformer)的视觉编码器与基于 Transformer 架构的解码器相结合,并通过一个重采样模块将它们连接起来,实现了高效的多模态数据处理。
KOSMOS-2.5 模型架构由一个预训练视觉编码器和一个与重采样器模块连接的语言解码器组成
这种统一的模型接口显著简化了下游任务的训练,并使模型能够在现实世界的应用中有效遵循指令。
尽管声音和视频是一种连续信号,但它们也可以被转换为类似文字的离散词元(token),这样声音模型就可以与语言模型无缝融合。微软亚洲研究院首次基于语言建模的方法设计了文本到语音(TTS)合成框架 VALL-E,首次实现了零样本文本到语音合成。
作为一个神经编解码语言模型,VALL-E 利用神经音频编解码模型的离散代码表示声音,并基于离散代码将 TTS 视为一个条件语言建模任务,而非传统的连续信号回归。与以往的语音合成流程,如音素 → 梅尔频谱图 → 波形不同,VALL-E 的处理流程是音素 → 离散代码 → 波形。VALL-E 基于目标文本对应的音素和用户声学提示生成离散的音频编解码代码,这些代码解码后可以得到对应目标文本内容的声音,并且具有和用户声学提示一样的音色。
VALL-E 还展现出了类似于文本语言模型的上下文学习能力。仅需一段3秒钟未见过说话者的录音作为声学提示,VALL-E 就能合成高质量的个性化语音。目前升级版的 VALL-E X 支持包括英文、德文在内的多种语言的 TTS 合成。
在原生多模态数据的学习过程中,VALL-E X 模型展示了一种新的、有趣的能力。即便没有经过专门的数据训练,VALL-E X 也能合成不同口音的语音,比如英伦风格、日韩式口音的英语,或者外国人说汉语时的特殊腔调。值得一提的是,为了确保模型使用的安全性,研究员们还给 VALL-E 多模态语音模型添加了水印功能,以确保输入的声音数据得到本人授权,防止滥用现象的发生。
VALL-E 首先通过神经音频编解码模型把连续的语音输入转化为离散的词元,使统一的语音-文本语言模型训练成为可能
而视频则是多模态大语言模型的基础能力。“从数据形式上看,视频是融合不同模态数据的最佳数据类型,它包含了文字、图像、声音等多种元素,并且天然就是流式的(streaming)数据。而且,对于世界模型的构建来说,视频能够提供最丰富的数据,帮助模型学习物理世界的规律。因此,无论是从训练学习的角度,还是从最终能力的角度来看,视频都是多模态模型不可或缺的要素”。韦福如表示。
韦福如认为,当前多模态模型的发展将经历几个主要阶段。第一阶段,大语言模型将调用其他模型或服务,来完成多模态的输入或者输出。例如,读取图片内容时,可以通过调用 OCR 功能提取文本信息或者利用 ASR 模型把语音转换成文本,进而作为语言大模型的输入。这将使得多模态模型在输入端具备视觉和听觉能力,然而这一阶段通常不包含多模态推理。同样,通过调用文本到图像、文本到语音或文本到视频的模型,多模态模型在输出端也能生成不同模态的内容。
而在第二阶段,模型需要实现多模态融合和推理。例如,当谈到“如何将大象装入冰箱”时,模型需要像人脑一样自然地联想并用到不同模态的相关知识(例如大象和冰箱的概念)和步骤(把一个物体放入冰箱的流程)。
“要想实现原生多模态模型的终极形态,我们还面临几个关键问题”,韦福如说,“首先,我们需要决定模型输入和输出端数据的表示方式,其本质是离散数据(例如文本)和连续数据(例如图像和语音)的统一建模、表示和学习。是直接使用原始图像或视频等数据以保留尽可能多的信息?还是将连续数据转换成离散的词元以实现不同模态数据类似自然语言的统一表示和学习?其次,如何有效地融合不同模态的数据?这需要设计新的模型架构,以便模型能够在理解和整合来自不同源的信息的同时不会相互冲突。最后,也是最具挑战性的问题,如何构建一个支持多模态原生的学习目标和范式?比如一个开放的问题要怎么统一语言模型(LLM)和扩散模型(Diffusion Model),来实现深度多模态对齐、推理和跨模态迁移,并促进新的能力涌现。我们相信这些方面近期都会取得重大研究成果。”
面对这些问题,微软亚洲研究院将持续探索。研究员们已经在应对技术和算法上的挑战,希望能够为未来原生多模态模型的研究和开发提供基础技术的创新突破。
你也许还想看: