重塑计算机视觉任务的基础模型介绍

文摘科技 2024-07-16 07:30 江苏

点击蓝字

关注我们

引言

近年来，基础模型已经进入到了计算机视觉领域！基础模型最初仅限于语言任务，现在已成为图像分类、物体检测和图像分割等计算机视觉任务的支柱。它们已经开始为自动驾驶、医疗成像和机器人等行业带来革命性的变化，让机器以前所未有的准确性感知和理解视觉世界。

对于计算机视觉领域的研究人员、从业人员和爱好者来说，了解基础模型的全貌非常重要。随着这些模型的快速发展，建立一个基于其架构、功能和基本原理对其进行分类和组织的分类标准变得非常有用。这样，我们就可以概览现有的各种基础模型，并为未来的进步和研究方向绘制路线图。

在本文中，我们将深入探讨目标分类、检测和分割的基础模型世界。我们将探讨构成这些基础模型的关键概念、技术和架构，闲话少说，我们直接开始吧！

什么是基础模型？

基础模型是一种预先训练好的深度神经网络，它是各种下游任务（如目标分类、目标检测和图像分割）的基础（如下图所示）。基础模型的概念来自于在已经建立的基础上进行构建。

这些模型在海量、多样的数据集上进行训练，以捕捉适用于许多不同领域的视觉特征。然后，它们可用于执行特定任务，而无需从头开始训练定制模型所需的数据。这种方法利用了神经网络强大的表征学习能力，可在不同任务间实现良好的泛化。

通过了解和选择合适的基础模型，我们可以更有效、更高效地利用深度学习的力量。在下面的章节中，我们将研究计算机视觉任务中普遍采用的不同基础模型以及它们之间的关系。

嵌入特征提取

计算机视觉领域中的基础模型的一个重要子集是 "嵌入特征提取器"。这是一种神经网络，可将原始输入数据（如图像）转换为更紧凑、更浓缩的向量表示，通常称为嵌入（Embedding）。从输入数据中提取有意义特征的能力是许多深度学习模型成功的核心所在，也是我们基础模型不同类别中不可或缺的一部分。

嵌入特征提取器对于将知识从预训练模型转移到特定任务至关重要。在预训练阶段，基础模型会学习识别数据中的各种模式和结构，这些模式和结构在许多不同领域都可能有用。这些模式和结构既包括边缘和颜色等简单特征，也包括形状、纹理和图像中的物体部分等更复杂的特征。然后，我们可以将这些知识 "迁移 "到特定任务中，方法是在这些特征的基础上训练一个模型，或者在给定的嵌入上执行相似性搜索等向量操作。

大家可能听说过的一些计算机视觉常用嵌入提取方法包括 CLIP、DINOv2 和 ImageBind。

CLIP (OpenAI 2021)

CLIP 同时训练图像和文本编码器，以预测正确的配对（图像、文本）

输入：图像和文本
输出：CLIP 的输出是输入图像和文本各自的向量表示（或嵌入），它保留了语义的相似性。相似的图像和相应的文本描述在嵌入空间中紧密映射，反之亦然。
总结：CLIP 是 Contrastive Language-Image Pre-training 的缩写，是 OpenAI 推出的多模态图像和文本编码器。CLIP 可以在自然语言的语境中理解和解释图像，从而能够执行跨越图像和文本领域的各种任务。与本节中的编码器一样，大型编码器通常能在生成的嵌入中捕捉到更详细的语义信息。

DINOV2 (Meta 2023)

DINOv2 通过自监督检索系统扩充原始数据集

输入：图像
输出：DINOv2 的输出是输入图像的密集语义向量表示。
总结：DINOv2 是 Meta AI 推出的一系列图像编码器。与 CLIP 不同，DINOv2 专注于视觉领域，采用新颖的自监督训练设置，旨在最大限度地提高下游视觉任务的性能

ImageBind (Meta 2023)

ImageBind 的嵌入空间可实现多模式功能

输入：图像、文本、音频、深度图和惯性测量单元IMU。
输出：ImageBind 的输出是一个密集的语义向量表示。
总结：ImageBind 是 Meta AI 推出的一款多模态编码器，它在现有图像和文本编码器的基础上，增加了对其他媒介的支持。与直觉相反的是，Meta AI 发现在这些其他媒介上进行训练可以提高对图像和文本编码的支持。

零样本学习模型

嵌入特征提取器输出的特征可用于下游任务，而零样本模型则是预先训练好的神经网络，旨在直接在未见过的数据上执行任务。在对象类别较多、标注数据较少或没有标注数据的情况下，零样本学习模型确实非常有用。

零样本学习模型的工作原理是，即使模型在训练过程中没有见过特定的物体，它也应该能够利用其关于其他类似物体的知识来识别新的物体。在物体分类、检测和分割中，零样本学习模型可以识别或检测物体及其边界，即使它们没有出现在训练数据中。

零样本学习模型的优势在于其灵活性和从容应对新类别的能力。它们必须从与新类别相关的底层特征中建立对新类别的语义理解。正如我们将看到的，零样本学习模型通常利用上一节中的嵌入特征提取器来获得这种理解。

这里推荐一些主流的计算机视觉零样本学习模型，包括 Meta AI 的SAM和谷歌研究院的 OWL-ViT，我们来分别进行讲解。

SAM (Meta 2023)

SAM：分割任务的基础模型

输入：图像、点提示。
输出：该点的物体实例。
总结：SAM是 Meta AI开发的人工智能模型。它能高质量、高效率地分割图像或视频中的任何物体。分割可将物体从其背景或其他物体中分离出来，并创建一个可勾勒出其形状和边界的Mask。SAM 可被提示仅在特定点上进行分割，并能在无需额外训练的情况下对不熟悉的物体和图像进行零样本泛化。

OWL-ViT (Google 2022)

OWL-ViT：两阶段实现开放集合目标检测

输入：图像和文本查询。
输出：开放集合目标检测。
总结：OWL-ViT 是一款开放集合目标检测器。给定一个非结构化文本查询，它就能找到与该查询相匹配的对象边界框。OWL-ViT 可用于进行零样本对象检测，即使从未见过某个类，也能找到属于该类的对象。OWL-ViT 建立在 CLIP 的基础上，并为每个检索到的边界框生成相应的嵌入。

一些新的架构

接着我们来深入研究在工业对象分类、检测和分割任务中证明了自己能力的最先进架构。这些架构性能卓越，推动了计算机视觉研究和应用的发展。与前几节介绍的预训练模型不同，这些架构需要在给定任务和标注数据集上进行特定训练。

接着，我们重点介绍计算机视觉先进架构包括 YOLO-NAS、Mask2Former和DETR 。

YOLO-NAS (2023)

YOLO-NAS目标检测对比

输入：图像。
输出：目标检测。
总结：YOLO-NAS 是You Only Look Once - Neural Architecture Search 的缩写，是一种新的物体检测模型，可提供先进的实时物体检测功能。YOLO-NAS 是一种开源的基于 YOLO 的架构，使用神经架构搜索来最大限度地提高性能。

Mask2Former (2022)

Mask2Former:使用了基于Mask Attention的Transformer解码器

输入：图像。
输出：全景实例和语义分割
总结：Mask2Former 是一种能够处理任何图像分割任务（全景、实例或语义）的架构。它建立在用于mask分类的 Meta架构基础上，并引入了一个新的 Transformer 解码器，使用掩码注意力来提高模型的收敛性。最后，它还提出了改进训练的建议，使 Mask2Former 更高效、更易用。

DETR (2020)

DETR 中，通过与类别无关的 Transformer 编解码器实现少样本检测

输入：图像。
输出：目标检测
总结：DETR 是一种深度学习模型，它将物体检测视为一个直接的集合预测问题。它简化了检测流水线，无需许多手工设计的组件，如非最大抑制或锚点生成，这些组件明确编码了我们对任务的先验知识。

结论

在计算机视觉广阔而快速发展的领域中，基础模型已经留下了不可磨灭的印记。基础模型在物体分类、检测和分割方面取得了长足进步，为许多行业的先进应用铺平了道路。

展望未来，了解基础模型对于任何对计算机视觉感兴趣的人来说都不再是奢望，而是必需。随着人工智能研究的快速发展，基础模型的格局将继续演变和多样化。了解这些模型的核心原理、优势和劣势，有助于我们驾驭这些模型，充分发挥这项技术的潜力。

点击上方小卡片关注我

添加个人微信，进专属粉丝群！

http://mp.weixin.qq.com/s?__biz=MzkzODI1NzQyNA==&mid=2247490303&idx=1&sn=a2f68aae0e3252820bd0a6bb45aa7cf0

AI算法之道

一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

最新文章

掌握Transformer之深入多头注意力机制

掌握Transformer之学习各组件

掌握Transformer之概述

十分钟深入理解BatchNorm层

NLP领域中Beam Search直观解释

【Python】一文弄懂Python中的@wraps

BatchNorm层直观性解释

手把手教你打造虚拟AI Talker

【Python】关于F-Strings的六种高级用法

ReLU如何让神经网络逼近连续非线性函数?

Luma推出 Dream Machine 1.5 - 新的人工智能视频生成器

RAG检索增强生成最佳实践

万字长文讲解文本嵌入及其高阶应用

我后悔没有早点知道 Python中迭代的八个技巧

【Python】五种方法实现两个变量数值交换

一文弄懂RAG检索增强生成技术

强烈推荐10个人工智能小项目

一文弄懂Python在Windows/Mac/Linux上路径兼容问题

推荐免费访问最强AI绘画FLUX.1的五种方式

推荐提升时序数据可视化展示的三个技巧

如何优雅地在Python中管理环境变量？

超越Midjourney最强AI绘画FLUX.1发布

什么是Python中的requirements.txt文件？

通用NLP入门技术介绍

检索增强生成RAG技术入门介绍

推荐！彻底改变Python编码方式的十个技巧

万字长文讲解机器学习领域中11种降维技术

Stability AI发布Stable Fast 3D！可在0.5s内生成3D建模资产

推荐五种简单有效的数据可视化方式

挑战Google，OpenAI发布Search GPT

【Python】还只会一种函数调用方式，你Out了！！！

超强总结，八种解决过拟合的技巧！！

一文弄懂生成式对抗网络

推荐免费AI工具创建手绘卡通风格图像

强烈推荐Claude Artifacts五项强大功能

重塑计算机视觉任务的基础模型介绍

【Pathlib】一文弄懂Python中的路径问题

数据可视化之绘制雷达图

【Python】推荐调试pip的六个技巧

图解SimCLR对比学习框架

【Python】在同一图形中的绘制多个子图

强化学习Q-learning实践

强化学习Q-learning入门

自动驾驶业内动态简讯

Python数据可视化小结

一文弄懂Transformer中的自注意力机制

【Python】使用Print函数制作旋转的动画

一道Python初学者易犯的错误解析

Python中子类__init__函数注意项小结

一文弄懂Python中的内存管理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉