使用PyTorch从头开始构建CLIP | 对比语言图像预训练

科技 2024-11-03 10:05 辽宁

点击下方“深度学习爱好者”，选择加"星标"或“置顶”

在2021年，OpenAI发布了一篇论文《从自然语言监督中学习可转移的视觉模型》（https://arxiv.org/pdf/2103.00020），提出了CLIP（对比语言图像预训练），这是一个强大的深度学习模型，旨在以统一的方式理解和解释图像和文本。它结合了视觉和语言编码器，将文本描述与视觉内容联系起来。CLIP模型本身不生成图像的描述，但可以用来评估文本和图像之间的关系。例如，你可以提供一张猫的图片，以及一个标签列表，如“猫”和“狗”，以确定哪个标签与图片匹配的可能性最高。今天，这篇文章将涵盖使用PyTorch从头开始实现CLIP的过程。

CLIP（对比学习-图像预训练）

传统的机器学习模型通常需要大量特定任务的标记数据集进行微调。例如，一个训练用来识别狗的模型可能在识别猫方面表现不佳，除非它专门针对猫的图片进行了微调。
CLIP的架构支持零样本学习，这意味着它可以执行它没有直接训练过的任务，通过利用其在图像和文本之间学到的广泛关联。例如，基于它们的文本描述，它可以对它在训练期间从未见过的图片进行分类。引用他们的论文：“我们在零样本的情况下匹配原始ResNet-50在ImageNet上的准确性，而不需要使用它训练时的128万个训练样本。”

CLIP有以下我们需要构建的组件：

文本编码器
图像编码器
自定义数据集（如果你正在训练）
对称损失

文本编码器

由于我们的主要目标是使文本和视觉表示的嵌入对齐，我们将需要一个文本编码器模型来为图像的文本描述创建特征。本文不会涵盖如何从头开始构建文本编码器，而是直接使用变换器库来创建编码器，尽管这将涵盖CLIP实现的主要思想。

为了简单起见，使用Distil Bert模型是一个不错的选择，因为它轻量级，性能几乎和标准BERT模型一样好，具有类似的基础架构。这是需要记住的一点，我们不是加载预训练版本。

class TextEncoder(nn.Module):    def __init__(self, embed_dim, proj_dim):        super().__init__()        self.model = DistilBertModel(config=DistilBertConfig())        self.layer_norm = nn.LayerNorm(proj_dim)
    def forward(self, input_ids, attention_mask):        x = self.model(input_ids=input_ids, attention_mask=attention_mask).last_hidden_state        return self.layer_norm(x)

TextEncoder()类将期望两个输入，input_ids和attention_mask，这两个都将通过分词器生成。

tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')texts = ["This is a sample sentence.", "This is another example."]inputs= tokenizer(texts, padding=True, truncation=True, return_tensors="pt").to(device) 
encoder = ImageEncoder(embed_dim=768, proj_dim=256)inputs = encoder(inputs['input_ids'], inputs['mask'])

现在，TextEncoder的前向传递输出将是（Batch_Size, Token_Size + 1, Embed_Size），在标准BERT架构中，模型的目标是两个任务，输出一个额外的CLS_Token，附加到原始令牌前面，通常用于进一步微调分类任务，以及预测掩蔽令牌，使用掩蔽令牌前后的所有令牌的信息。

由于我们关心的是为我们的文本数据获取特征嵌入，我们将只取[CLS]令牌，并将其投影到一个共同的空间，与图像编码器的视觉嵌入具有相同的嵌入大小。

class TextEncoder(nn.Module):    def __init__(self, embed_dim, proj_dim):        super().__init__()        self.model = DistilBertModel(config=DistilBertConfig())        self.projection = nn.Linear(embed_dim, proj_dim)        self.layer_norm = nn.LayerNorm(proj_dim)
    def forward(self, input_ids, attention_mask):        x = self.model(input_ids=input_ids, attention_mask=attention_mask).last_hidden_state
        x = x[:, 0, :] # B, T[cls], E
        x = self.projection(x)
        return self.layer_norm(x)

层归一化是深度学习中非常常见的概念，这不是我第一次解释它，但让我们再次解释一下，我们有一个网络的输入，其中包含来自不同类别或特征的数据，因为在每个训练周期中批次会变化，数据的分布也会变化，在一批中分布可能在[0, 2)范围内，而在下一批中它可能有样本分布在[0, 100]范围内。在训练过程中数据分布的变化被称为协变量偏移。由于输入的剧烈变化，输出也会变化，损失也会变化，如果损失剧烈变化，那么在反向传播过程中权重将以更高的幅度更新，导致梯度不平滑。简而言之，归一化输入将限制其在整个训练批次中的分布，因此，损失不会有剧烈变化，将导致更平滑的梯度和更快的训练，帮助模型更多地关注学习特征。

图像编码器

CLIP有两个图像编码器选项，ResNet或视觉变换器。我们已经开发了各种视觉变换器，因此将使用标准实现。如果你想使用ResNet作为图像编码器，你可以简单地用视觉变换器模型替换它，你可以使用PyTorch自己的ResNet模型或timm。

class ImageEncoder(nn.Module):    def __init__(self, base_model, embed_dim, proj_dim):        super().__init__()
        self.model = base_model
        for param in self.model.parameters():            param.requires_grad = True
        self.projection = nn.Linear(embed_dim, proj_dim)        self.layer_norm = nn.LayerNorm(proj_dim)
    def forward(self, x):        x = self.projection(self.model(x))        return self.layer_norm(x)

上面的编码器类将图像张量传递给模型，然后将其投影到与文本编码器输出相同的共同嵌入空间，后面是一个归一化层。

自定义数据集

现在CLIP是一个（相当）密集的模型，所以如果你想从头开始训练它，你必须在一个小数据集上训练它。由于本文只涉及如何从头开始实现架构，我们将不会进一步详细说明如何创建数据集，但为了示例，这可能是你想要做的。

class CustomDataset(Dataset):    def __init__(self, texts, image_paths):
        self.image_paths = image_paths        self.texts = texts        tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')        self.inputs = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")         self.transform = torchvision.transforms.ToTensor()
    def __len__(self):        return len(self.texts)
    def __getitem__(self, idx):        img_path = self.image_paths[idx]        image = Image.open(img_path)        image = self.transform(image)
        caption, mask = self.inputs[idx].items()
        return {            "image": image,            "input_ids": caption["input_ids"],            "mask": mask["attention_mask"]        }

image_paths：你选择的数据集中图像的路径列表。
texts：数据集中每张图片的标题或文本描述。

自定义数据集类在调用Dataset类时创建分词器并分词所有文本，我们使用的是distillbert分词器，这也是我们的文本编码器模型。

把所有放在一起

class CLIPModel(nn.Module):    def __init__(self):        super().__init__()        self.device = "cuda" if torch.cuda.is_available() else "cpu"        ViT = VissionTransformer(             num_layers=8,            img_size=224,            emb_size=768,            patch_size=16,            num_head=6,            num_class=768).to(self.device)        self.image_encoder = ImageEncoder(base_model=ViT, embed_dim=768, proj_dim=256)        self.text_encoder = TextEncoder(embed_dim=768, proj_dim=256)

ClipModel()类是我们把所有放在一起的地方，架构将包括来自图像和文本编码器的嵌入，然后用于计算对称损失。这是核心实现的NumPy样式伪代码。

在我们的实现中，我们将在CLIPModel类的前向函数中计算损失。第一步是获取图像和文本嵌入，然后进行交叉乘法以获得相似性矩阵或logits。回到我们的第二张图。

logits是通过取图像和文本嵌入的点积来创建的，由于这篇论文基于对比学习，我们的主要目标是将文本表示与视觉对齐。那么计算相似性矩阵有什么帮助呢？

答案是每个从图像编码器接收到的图像令牌（图5：I_1, I_2,.., I_n; 其中I是嵌入，n是批次大小）乘以文本编码器接收到的每个令牌。得到最终矩阵（B, Token, Embed）@（B, Embed, Token）→（B, Token, Token）。现在我们的任务是最大化每个对角线元素（I1T1, I2T2,…, InTn）的值。由于我们想要对齐我们的文本和视觉表示，相应的图像令牌应该与其相应的文本最高相关。这就是我们将如何为批次中的所有图像完成的，但让我们看看单个令牌。

这里，图并不是真的不同，我们取图像嵌入I，并与批次中的每个文本嵌入计算点积。例如，当我们使用I3时，我们希望它与批次中相应的文本嵌入T3最强地对齐。理想情况下，I3行中最高的值应该是点积I3⋅T3，以同样的方式批量处理，看起来就像我们在最大化所有对角线元素，其中每个In与其相应的Tn最佳对齐。为了实现这一点，我们使用一个损失函数来衡量每一行中最大值与其他值的突出程度。这实际上是通过取行和列的交叉熵损失来实现的。

from vit import VissionTransformer # Importing ViT from previous implementaton (GitHub: Ml-Models)import numpy as npimport torch.nn.functional as F
class CLIPModel(nn.Module):    def __init__(self):        super().__init__()        self.device = "cuda" if torch.cuda.is_available() else "cpu"        ViT = VissionTransformer(             num_layers=8,            img_size=224,            emb_size=768,            patch_size=16,            num_head=6,            num_class=False).to(self.device)        self.image_encoder = ImageEncoder(base_model=ViT, embed_dim=768, proj_dim=256)        self.text_encoder = TextEncoder(embed_dim=768, proj_dim=256)
        self.temperature = nn.Parameter(torch.ones([])*np.log(1/7)).to(self.device)
    def forward(self, x):        I_t = self.image_encoder(x["image"])        T_t = self.text_encoder(x["input_ids"], x["mask"])
        logits = I_t@T_t.T * torch.exp(self.temperature)
        labels = torch.arange(I_t.size(0)).to(self.device)
        loss_I = F.cross_entropy(logits.T, labels)        loss_T = F.cross_entropy(logits, labels)
        loss = (loss_I + loss_T)/2.0 
        return loss, logits

我们得到I_t和T_t（大小：B, Token_Size, Embed_Size）
我们通过取点积来计算logits，如前所述，然后乘以温度参数的指数。如果你熟悉对比学习或读过我关于DINO（无标签蒸馏）的文章，你可能知道通常使用除以温度来锐化输出分布。然而，我们不直接除以温度，而是乘以一个可训练的张量，该张量使用nn.Parameter()设置，并初始化为log(1/7)。由于eln(x)=x，那么exp(log(1/T))应该是1/T，你可能会想知道我们为什么不简单地乘以1/T。原因是使用log(1/T)可以让优化器在训练期间更容易计算和更新梯度。这种方法在深度学习中是一种常见的做法，因为它可以带来更平滑的训练和更稳定的模型权重更新。
标签简单地用批次大小生成（[0, 1,..N]）。正如我们之前讨论的，目标是最大化每个对角线元素（i1T1, i2T2,..inTn），因此整个矩阵中每一行的标签是[0, 1, 2, ..N]，对应于哪一行的元素应该是最大的。
如伪代码所述，嵌入已经归一化，但我们不需要这样做，因为我们在返回图像和文本编码器的输出时已经应用了层归一化。
按照伪代码，计算行和列的交叉熵损失。我们通过传递logits的转置和正常的logits以及标签，取两个损失的平均值，现在我们有最终的损失结果。

设置模型

texts = ["This is a sample sentence.", "This is another example."]
# You can Use a CustomDataset as we Implemented above for trainingtrain_data = CustomDataset(texts, image_path)train_loader = DataLoader(train_data, batch_size, shuffle=True)
# Example Usagedevice = 'cuda' if torch.cuda.is_available() else 'cpu'tokenizer = DistilBertTokenizer.from_pretrained('distilbert-base-uncased')inputs= tokenizer(texts, padding=True, truncation=True, return_tensors="pt").to(device)
test = {"image" : torch.rand(2, 3, 224, 224).to(device),"input_ids" : inputs["input_ids"],"mask" : inputs["attention_mask"]}
model = CLIPModel().to(device)loss, logits = model(test)print("Loss:", loss, "Logits:", logits)

源码链接：

https://github.com/mishra-18/ML-Models/blob/main/clip.py

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247569472&idx=2&sn=cbc7b8865efa774d54e9f182a6724133

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

独自一人，怒发顶会！！

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

【魔改Mamba系列】CAMS: 基于Mamba的无卷积和无注意力的图像分割

特征选择的通俗讲解！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

【魔改Mamba系列】RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

kaggle图像分割实战要点与技巧总结

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

一篇文章梳理清楚 Python 多线程与多进程

【魔改Mamba系列】混合Mamba算法在少样本分割中的应用

知识蒸馏综述：蒸馏机制

招生信息 | 墨尔本大学计算与信息系统学院 Dr. Ting Dang 诚招博士生

【魔改Mamba系列】DSDFormer: 一种创新的Transformer-Mamba框架，用于鲁棒高精度驾驶员分心识别

图像处理——过程全解析，配图超详细！

博士招生 | 埃默里大学计算机科学系Dr. Guo Zhichun实验室博士生招生

【魔改YOLO系列】无源域自适应YOLO目标检测

一博士狂编200多篇SCI发表，被揭发后畏罪自杀...网友：堪称史诗级学术骗局！

大模型经典著作《大语言模型基础与前沿》

博士招生 | UIUC 计算机科学系实验室博士生、博士后招募

收藏 | 半监督目标检测相关方法总结

【魔改Mamba系列】MambaSOD：双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

收藏 | 目标检测回归损失函数总结

深度学习模型参数量/计算量和推理速度计算

去他的顶会顶刊！我就想发个论文毕个业！

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

有哪些深度学习效果不如传统方法的经典案例？

【Mamba前沿网络】SUM: 通过Mamba实现显著性统一以建模视觉注意力

小样本学习只是一场学术界自嗨吗？

一篇适合新手的深度学习综述！

【Mamba网络前沿】混合Transformer-Mamba网络用于单图像去雨

为什么 Batch Normalization 那么有用？

薛定谔的准确率：PyTorch随机数引发的可复现性陷阱

【魔改YOLO系列】Infra-YOLO：实时红外小目标检测的高效神经网络结构

招生信息 | 香港大学杜泓阳教授团队博士招生

图像去噪的原理及实现

【魔改YOLO系列】Mamba YOLO: 基于SSMs的YOLO用于目标检测

YOLOv9 - 在自定义数据集上进行目标检测

IoU、GIoU、DIoU、CIoU损失函数的那点事儿

【魔改YOLO系列】CST-YOLO：YOLO与CNN-Swin Transformer结合，实现精准小目标检测

招生信息 | 香港大学计算机视觉与机器智能实验室（CVMI Lab）博士招生

使用YOLO检测眼睛闭合 | 设定警报

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

硬肝！超详细matplotlib基础介绍！！！

医图顶会 MICCAI'24 | 条件Diffusion结合空间注意力，实现医学图像精准区分割

EMF-former：一种用于图像分割的高效且内存友好的Transformer

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

详细记录u版YOLOv5目标检测NCNN实现

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

像堆乐高一样：从零开始解释神经网络的数学过程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉