图解SimCLR对比学习框架

文摘科技 2024-07-11 07:30 江苏

点击蓝字

关注我们

引言

近年来，人们提出了许多用于学习图像特征表示的自监督学习方法，每种方法都比以前的更好。但是，他们的表现仍然低于受监督的同行。

当Chen等人在他们的研究论文中提出一个新框架SimCLR时，这种情况发生了变化。

论文链接：https://arxiv.org/abs/2002.05709

SimCLR不仅改进了以前最先进的自监督学习方法，而且在使用更强大的主干架构时，在ImageNet分类上击败了监督学习的方法。

在本文中，我将使用图表解释研究论文中提出的该框架的关键思想。

举个栗子

当我还是个小孩子的时候，我记得我们必须在教科书中解决类似这样的难题。

孩子解决这个问题的方法是看左侧动物的图片，知道这是一只猫，然后在右侧搜索一只猫。过程如下：

这样的练习是为了让孩子能够识别一个物体并将其与其他物体进行对比。我们能同样地教会机器吗？

事实证明，我们可以通过一种称为对比学习的技术。它试图教机器区分相似和不同的事物。

问题描述

为了对上述问题进行建模，我们需要一台机器而不是一个孩子，此时我们需要做 3 件事：

相似和不同的图像

我们需要相似的图像对和不同的图像对来训练模型。

一般的监督学习需要人类手动标注这些图像对。为了实现这一点的自动化，我们可以利用自监督学习技术。但是我们如何来实现呢？

获取图像特征

我们需要一些机制确保机器能够理解图像的表示。

量化图像相似度

我们需要某种机制来计算两张图像的相似性。

SimCLR核心思想

论文提出了一种名为SimCLR的框架，用于以自监督的方式对上述问题进行建模。它将对比学习的概念与一些新颖的想法相结合，可以在没有人类监督的情况下学习视觉特征表示。

整体框架如下：

SimCLR框架的思想非常简单。拍摄一张图像，并对其应用随机变换，以获得一对两张增广后的图像𝑥_i 和 𝑥_{j ，}该配对中的两个图像都通过编码器以获取图像特征表示。然后应用非线性全连接层来得到最后的特征表示 z。该任务训练的目标是最大化对于相同图像的这两种特征表示z_i 和 z_j之间的相似性。

步骤一

现在让我们通过一个示例来探索 SimCLR 框架的各个组件。假设我们有一个包含数百万张未标记图像的训练数据集。

数据增强

首先，我们从原始图像中生成大小为 N 的批次。为简单起见，我们采用一批大小为 N = 2 的批次。在论文中，他们使用了 8192 的大批量。

本文定义了一个随机变换函数 T，该函数获取图像并应用以下数据增强的不同组合。

random (crop + flip + color jitter + grayscale)

对于每个批次中的每张图像，应用随机变换函数来获取一对 2 张图像。因此，对于batch= 2 的输入设置，我们可以得到 2*N = 2*2 = 4 个图像总数。

步骤二

接着，成对中的每个增强图像都通过编码器以获得对应的图像表示。使用的编码器是通用的，可以与其他架构替换。下面显示的两个编码器具有共享的权重，我们得到向量ℎ_i和ℎ_j，如下所示：

在论文中，作者使用ResNet-50作为特征提取的主干网络，输出的特征向量h的维度为2048维。

步骤三

数据增强后的两张图像经过主干特征提取网络后，获得对应的特征表示ℎ_i和ℎ_j，接着对应的特征表示经过一系列非线性全连接层后，得到最终的特征表示 z_i和 z_j_，论文中的这一步描述为g(.) , 又被成为projection head。

步骤四

在上一步骤中，我们获取了数据增强后每张图像的特征表示：

接着我们来定义特征表示的相似度，如下：

我们定义相似度计算公式如下：

上述公式中，相关说明如下：

T 是可调节的控制参数。它可以缩放输入并扩大余弦相似性的范围

使用上述公式计算一个batch中每个增强图像之间的成对余弦相似度。如下图所示，在理想情况下，猫和其增强图像之间的相似性较高，而猫和大象图像之间的相似度较低。

步骤五

训练过程中，SimCLR使用的损失函数为NT-Xent loss，我们来具体进行讲解。

首先，一个接一个地获取batch中的增广图像对。

接下来，我们应用softmax函数来获得这两个图像相似的概率。

该softmax计算等效于获得第二张增强后的猫图像与该对中的第一张猫图像最相似的概率。这里，该批次中的所有剩余图像都被采样为不同图像（负对）。因此，我们不需要以前的方法（如MoCo）所需的专门架构、或队列。

然后，通过取上述结果的对数的负数来计算一对的损耗。这个公式就是噪声对比估计（NCE）损失。

如果同一对的图像的位置发生互换，我们需要再次计算其损失：

最后，我们计算batch=2中所有配对的损耗，并计算平均值作为结果。

基于上述损失函数，编码器和投影头表示随着时间的推移而改进，并且所获得的特征表示将相似的图像放置在空间中更接近的位置。

用于下游任务

一旦在对比学习任务上训练了SimCLR模型，它就可以用于迁移学习。为此，使用来自编码器的特征表示，而不是从投影头获得的特征表示。这些表示可以用于下游任务，如ImageNet Classification。

模型评价

SimCLR模型的性能优于ImageNet上以前的自监督的方法。下图显示了在ImageNet上使用不同自监督方法学习的表示上训练的线性分类器的Top1分类精度。灰叉由ResNet50监督学习得到，SimCLR以粗体显示。

在ImageNet ILSVRC-2012上，它实现了76.5%的Top1准确率，比以前的SOTA自监督方法CPC提高了7%，与监督ResNet50不相上下。
当在1%的标签上训练时，它实现了85.8%的Top5准确率，比AlexNet少100倍的标签。

代码

论文作者在Tensorflow中对SimCLR的官方实现可以在GitHub上获得。

官方代码链接：https://github.com/google-research/simclr

他们还提供了使用Tensorflow Hub的ResNet50架构的1x、2x和3x变体的预训练模型。

下载链接：https://github.com/google-research/simclr#pre-trained-models-for-simclrv1

此外，网上还有各种非官方的SimCLR PyTorch实现，这些实现已经在CIFAR-10和STL-10等小型数据集上进行了测试。

链接1：https://github.com/leftthomas/SimCLR

链接2：https://github.com/Spijkervet/SimCLR

总结

总之，SimCLR为在这个方向上进行进一步的研究提供了一个强大的框架，并改善了计算机视觉的自监督学习状态。

您学废了吗？

点击上方小卡片关注我

添加个人微信，进专属粉丝群！

http://mp.weixin.qq.com/s?__biz=MzkzODI1NzQyNA==&mid=2247490265&idx=1&sn=791e1b0355ebdca63bc0e64cad46a9d7

AI算法之道

一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

最新文章

掌握Transformer之深入多头注意力机制

掌握Transformer之学习各组件

掌握Transformer之概述

十分钟深入理解BatchNorm层

NLP领域中Beam Search直观解释

【Python】一文弄懂Python中的@wraps

BatchNorm层直观性解释

手把手教你打造虚拟AI Talker

【Python】关于F-Strings的六种高级用法

ReLU如何让神经网络逼近连续非线性函数?

Luma推出 Dream Machine 1.5 - 新的人工智能视频生成器

RAG检索增强生成最佳实践

万字长文讲解文本嵌入及其高阶应用

我后悔没有早点知道 Python中迭代的八个技巧

【Python】五种方法实现两个变量数值交换

一文弄懂RAG检索增强生成技术

强烈推荐10个人工智能小项目

一文弄懂Python在Windows/Mac/Linux上路径兼容问题

推荐免费访问最强AI绘画FLUX.1的五种方式

推荐提升时序数据可视化展示的三个技巧

如何优雅地在Python中管理环境变量？

超越Midjourney最强AI绘画FLUX.1发布

什么是Python中的requirements.txt文件？

通用NLP入门技术介绍

检索增强生成RAG技术入门介绍

推荐！彻底改变Python编码方式的十个技巧

万字长文讲解机器学习领域中11种降维技术

Stability AI发布Stable Fast 3D！可在0.5s内生成3D建模资产

推荐五种简单有效的数据可视化方式

挑战Google，OpenAI发布Search GPT

【Python】还只会一种函数调用方式，你Out了！！！

超强总结，八种解决过拟合的技巧！！

一文弄懂生成式对抗网络

推荐免费AI工具创建手绘卡通风格图像

强烈推荐Claude Artifacts五项强大功能

重塑计算机视觉任务的基础模型介绍

【Pathlib】一文弄懂Python中的路径问题

数据可视化之绘制雷达图

【Python】推荐调试pip的六个技巧

图解SimCLR对比学习框架

【Python】在同一图形中的绘制多个子图

强化学习Q-learning实践

强化学习Q-learning入门

自动驾驶业内动态简讯

Python数据可视化小结

一文弄懂Transformer中的自注意力机制

【Python】使用Print函数制作旋转的动画

一道Python初学者易犯的错误解析

Python中子类__init__函数注意项小结

一文弄懂Python中的内存管理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉