一、通用图像理解模型
图像分类:将图像划分为预定义的类别之一。例如,识别图像中的物体是猫、狗还是其他动物。
目标检测:在图像中定位并识别出多个物体及其类别。这通常涉及在图像上绘制边界框来指示物体的位置。
图像分割:将图像分割成不同的区域或对象,通常是在像素级别上进行。这可以是语义分割(区分不同类别的对象)或实例分割(区分同一类别的不同实例)。
图像-文本对数据集驱动图像和文本两种模态数据进行跨模态对齐,从而学习图像-文本的映射关系,实现图像-文本多模态融合。-- 架构师带你玩转AI
什么是SAM(Segment Anything Model)?SAM(分割一切模型)是一个由Meta AI(Facebook AI Research)发布的图像分割模型,旨在通过用户提示(如点击、画框、掩码、文本等)从图像中分割出特定的对象。
SAM
该模型具有零样本泛化的能力,即能够分割图像上的视觉对象,即使这些对象没有在训练集中出现过。
零样本泛化能力:SAM能够处理并分割出图像中未曾在训练集中见过的对象,这种能力在图像分割领域尚属首次。
灵活的提示输入:用户可以通过多种形式的提示(点、边界框、文本等)来指导模型进行分割,这使得模型在应用中更加灵活和便捷。
高效的模型结构:SAM模型由图像编码器、提示编码器和掩码解码器组成,能够在浏览器中快速(约50毫秒)根据提示预测掩码。
大规模多样化的数据集:为了训练SAM模型,Meta AI构建了一个名为SA-1B的大规模图像分割数据集,包含1100万张图片以及10亿个Mask图。
二、通用图像生成模型
什么是通用图像生成模型?通用图像生成模型是一类基于深度学习技术的生成式模型,它们的主要目的是学习图像数据的分布,并据此生成新的、多样化的图像样本。包括图像生成、图像编辑、图像修复、图像增强等。
文本编码器(CLIP Text Encoder):
文本编码器是Stable Diffusion模型的重要组成部分,它负责将输入的文本描述转换为数值表示,即文本嵌入(Text Embeddings)。
在Stable Diffusion中,文本编码器通常采用的是CLIP模型中的Text Encoder部分。CLIP模型是一个基于对比学习的多模态模型,能够理解和比较文本与图像之间的相似度,使得生成的图像能够与输入的文本描述相匹配。
变分自编码器(VAE, Variational Autoencoder):
VAE在Stable Diffusion中主要用于图像的压缩和恢复。它包含编码器(Encoder)和解码器(Decoder)两个部分。
编码器负责将输入的高维图像数据压缩到低维的潜空间(Latent Space)中,生成潜空间特征(Latent Features)。解码器则负责将潜空间特征重新映射回原始的高维图像空间,生成最终的图像输出。
U-Net网络:
U-Net是Stable Diffusion中用于图像生成的核心网络。它接收文本嵌入向量和潜空间特征作为输入,通过逐步去噪(Denoising)的过程生成最终的图像。
U-Net网络结构具有对称性,包含编码器和解码器两个部分。编码器部分逐步降低特征图的分辨率并提取高级特征,解码器部分则逐步恢复特征图的分辨率并生成最终的图像。