01
引言
近年来,基础模型已经进入到了计算机视觉领域!基础模型最初仅限于语言任务,现在已成为图像分类、物体检测和图像分割等计算机视觉任务的支柱。它们已经开始为自动驾驶、医疗成像和机器人等行业带来革命性的变化,让机器以前所未有的准确性感知和理解视觉世界。
对于计算机视觉领域的研究人员、从业人员和爱好者来说,了解基础模型的全貌非常重要。随着这些模型的快速发展,建立一个基于其架构、功能和基本原理对其进行分类和组织的分类标准变得非常有用。这样,我们就可以概览现有的各种基础模型,并为未来的进步和研究方向绘制路线图。
02
什么是基础模型?
基础模型是一种预先训练好的深度神经网络,它是各种下游任务(如目标分类、目标检测和图像分割)的基础(如下图所示)。基础模型的概念来自于在已经建立的基础上进行构建。
这些模型在海量、多样的数据集上进行训练,以捕捉适用于许多不同领域的视觉特征。然后,它们可用于执行特定任务,而无需从头开始训练定制模型所需的数据。这种方法利用了神经网络强大的表征学习能力,可在不同任务间实现良好的泛化。
通过了解和选择合适的基础模型,我们可以更有效、更高效地利用深度学习的力量。在下面的章节中,我们将研究计算机视觉任务中普遍采用的不同基础模型以及它们之间的关系。
03
嵌入特征提取
计算机视觉领域中的基础模型的一个重要子集是 "嵌入特征提取器"。这是一种神经网络,可将原始输入数据(如图像)转换为更紧凑、更浓缩的向量表示,通常称为嵌入(Embedding)。从输入数据中提取有意义特征的能力是许多深度学习模型成功的核心所在,也是我们基础模型不同类别中不可或缺的一部分。
嵌入特征提取器对于将知识从预训练模型转移到特定任务至关重要。在预训练阶段,基础模型会学习识别数据中的各种模式和结构,这些模式和结构在许多不同领域都可能有用。这些模式和结构既包括边缘和颜色等简单特征,也包括形状、纹理和图像中的物体部分等更复杂的特征。然后,我们可以将这些知识 "迁移 "到特定任务中,方法是在这些特征的基础上训练一个模型,或者在给定的嵌入上执行相似性搜索等向量操作。
大家可能听说过的一些计算机视觉常用嵌入提取方法包括 CLIP、DINOv2 和 ImageBind。
CLIP (OpenAI 2021)
CLIP 同时训练图像和文本编码器,以预测正确的配对(图像、文本)
输入:图像和文本 输出:CLIP 的输出是输入图像和文本各自的向量表示(或嵌入),它保留了语义的相似性。相似的图像和相应的文本描述在嵌入空间中紧密映射,反之亦然。 总结:CLIP 是 Contrastive Language-Image Pre-training 的缩写,是 OpenAI 推出的多模态图像和文本编码器。CLIP 可以在自然语言的语境中理解和解释图像,从而能够执行跨越图像和文本领域的各种任务。与本节中的编码器一样,大型编码器通常能在生成的嵌入中捕捉到更详细的语义信息。
DINOV2 (Meta 2023)
输入:图像 输出:DINOv2 的输出是输入图像的密集语义向量表示。 总结:DINOv2 是 Meta AI 推出的一系列图像编码器。与 CLIP 不同,DINOv2 专注于视觉领域,采用新颖的自监督训练设置,旨在最大限度地提高下游视觉任务的性能
ImageBind (Meta 2023)
输入:图像、文本、音频、深度图和惯性测量单元IMU。 输出:ImageBind 的输出是一个密集的语义向量表示。 总结:ImageBind 是 Meta AI 推出的一款多模态编码器,它在现有图像和文本编码器的基础上,增加了对其他媒介的支持。与直觉相反的是,Meta AI 发现在这些其他媒介上进行训练可以提高对图像和文本编码的支持。
04
零样本学习模型
嵌入特征提取器输出的特征可用于下游任务,而零样本模型则是预先训练好的神经网络,旨在直接在未见过的数据上执行任务。在对象类别较多、标注数据较少或没有标注数据的情况下,零样本学习模型确实非常有用。
零样本学习模型的工作原理是,即使模型在训练过程中没有见过特定的物体,它也应该能够利用其关于其他类似物体的知识来识别新的物体。在物体分类、检测和分割中,零样本学习模型可以识别或检测物体及其边界,即使它们没有出现在训练数据中。
零样本学习模型的优势在于其灵活性和从容应对新类别的能力。它们必须从与新类别相关的底层特征中建立对新类别的语义理解。正如我们将看到的,零样本学习模型通常利用上一节中的嵌入特征提取器来获得这种理解。
这里推荐一些主流的计算机视觉零样本学习模型,包括 Meta AI 的SAM和谷歌研究院的 OWL-ViT,我们来分别进行讲解。
SAM (Meta 2023)
SAM:分割任务的基础模型
输入:图像、点提示。 输出:该点的物体实例。 总结:SAM是 Meta AI开发的人工智能模型。它能高质量、高效率地分割图像或视频中的任何物体。分割可将物体从其背景或其他物体中分离出来,并创建一个可勾勒出其形状和边界的Mask。SAM 可被提示仅在特定点上进行分割,并能在无需额外训练的情况下对不熟悉的物体和图像进行零样本泛化。
OWL-ViT (Google 2022)
OWL-ViT:两阶段实现开放集合目标检测
输入:图像和文本查询。 输出:开放集合目标检测。 总结:OWL-ViT 是一款开放集合目标检测器。给定一个非结构化文本查询,它就能找到与该查询相匹配的对象边界框。OWL-ViT 可用于进行零样本对象检测,即使从未见过某个类,也能找到属于该类的对象。OWL-ViT 建立在 CLIP 的基础上,并为每个检索到的边界框生成相应的嵌入。
05
一些新的架构
接着,我们重点介绍计算机视觉先进架构包括 YOLO-NAS、Mask2Former和DETR 。
YOLO-NAS (2023)
YOLO-NAS目标检测对比
输入:图像。 输出:目标检测。 总结:YOLO-NAS 是You Only Look Once - Neural Architecture Search 的缩写,是一种新的物体检测模型,可提供先进的实时物体检测功能。YOLO-NAS 是一种开源的基于 YOLO 的架构,使用神经架构搜索来最大限度地提高性能。
Mask2Former (2022)
Mask2Former:使用了基于Mask Attention的Transformer解码器
输入:图像。 输出:全景实例和语义分割 总结:Mask2Former 是一种能够处理任何图像分割任务(全景、实例或语义)的架构。它建立在用于mask分类的 Meta架构基础上,并引入了一个新的 Transformer 解码器,使用掩码注意力来提高模型的收敛性。最后,它还提出了改进训练的建议,使 Mask2Former 更高效、更易用。
DETR (2020)
DETR 中,通过与类别无关的 Transformer 编解码器实现少样本检测
输入:图像。 输出:目标检测 总结:DETR 是一种深度学习模型,它将物体检测视为一个直接的集合预测问题。它简化了检测流水线,无需许多手工设计的组件,如非最大抑制或锚点生成,这些组件明确编码了我们对任务的先验知识。
06
结论
点击上方小卡片关注我
添加个人微信,进专属粉丝群!