反思：CNN和ViT，到底谁更快

文摘科技 2024-08-20 18:30 福建

思源Source报道

编辑：seefun

在Vision Transformer流行的这几年，出现了很多常见的误区。比如大家都认为CNN相比于ViT，更适合scale到更大的输入分辨率，但事实并非如此。在Lucas Beyer老哥（ViT作者）的这篇博客介绍到，由于attention kernel已经被各种优化得非常完善了，使得经典ViT模型也能像 CNN一样很好地扩大输入分辨率，甚至效果更好，尤其是显存消耗上。另一个常见误区是，使用ViT必须用正方形或和预训练模型一样的固定的图像输入大小。然而，只需使用支持动态输入大小的ViT实现，如timm或transformers库就可以实现灵活的输入分辨率。（点击"阅读原文"获取原始blog）

概述

计算机视觉现在主要有两种基础网络架构：卷积神经网络（CNN）和视觉transformer（ViT）。CNN通过在图像上滑动其特征提取器（一系列卷积层）来获得最终的低分辨率特征图，进而完成特定任务。与此相对，ViT从一开始就将图像划分为小块，并通过自注意力机制对这些小块进行处理，生成同样低分辨率的最终特征图。

人们常说，由于 O(N**2) 复杂度的自注意力，ViT在高分辨率下并不实用。例如CNN的领军人物Yann LeCun就曾表达过这种担忧：

但是，我认为这种批评是一种未经深思熟虑导致的误区。在实践中，ViT至少可以很好地扩展到1024x1024像素，这足以满足绝大多数图像编码器的使用场景。

在本文中，我将阐述两个主要观点：

ViT能够轻松扩展至至少1024x1024像素的分辨率。
对于绝大多数应用场景而言，此分辨率已经完全足够。

ViTs 在分辨率扩展上的卓越表现

我首先着手对标准ViT和CNN在当前一系列GPU上的推理速度进行量化分析。为了使这次基准测试具有更广泛的适用性，我选择了PyTorch而在一些常见的GPU上执行测试。我采用了timm库中的标准视觉模型，并遵循PyTorch的最佳实践，通过torch.compile来优化性能。我还对数据类型（float32, float16, bfloat16）、注意力机制的实现方式（sdpa_kernel）以及矩阵乘法的精度（set_float32_matmul_precision）进行了全面测试，并为每次测量选取了最佳配置。

在对这些测量结果进行初步审视之后，我相信我们能够达成共识：

ViT在分辨率扩展方面表现出色，至少能够轻松应对1024像素的图像。
在许多情况下，ViT的运算速度超过了同等规模的CNN，特别是在新一代的GPU上表现更为突出。
浮点运算次数（FLOPs）并不直接等同于处理速度，这一点在我的论文 [2110.12894] The Efficiency Misnomer 中有所讨论
ViT在开箱即用的状态下内存效率更高。例如，在GTX3070显卡上，它是唯一能够处理超过512像素图像的模型。
但还有更令人振奋的消息：我们在ViT的原始论文中就已经展示了这些优势。我们在业界率先成功扩展了ResNets： [1912.11370] Big Transfer (BiT): General Visual Representation Learning，并且对于内存限制问题有着深刻的理解。因此，我在附录中特别加入了这一图表，以展示我们的观点和成果。

你真的需要那么高的分辨率吗

我的第二个观点是，人们往往过分关注分辨率、纵横比等细节。

我保守地认为，图像可以被拉伸成正方形，并且：

对于自然图像，即大多数照片，224x224像素已经足够。
对于照片中的文字、手机屏幕、图表和图形，448x448像素已经足够。
对于桌面屏幕和单页文档，896x896像素已经足够。

原文有resize的demo，可以直观理解我们到底需要多大分辨率
http://lucasb.eyer.be/articles/vit_cnn_speed.html

各种resize算法的区别
思源Source，公众号：思源数据科学模型部署精度对不齐？图像Resize暗藏大陷阱！

更高分辨率的存在主要是为了满足人类的审美需求和避免视觉疲劳。然而，计算机视觉模型不受视觉疲劳影响，也不追求美学上的完美。至少在目前，AI尚未具备自我意识。

当然，医学和卫星图像或多页文档等特殊情况除外。我认为这些图像可以被分割成上述尺寸的片段，可能还会结合一些全局特征。尽管我在这些领域并非专家。

最关键的是，始终要像你的模型一样审视你的数据。如果你能够通过仔细观察解决任务，那么你的模型同样能够做到。

分辨率与算力：一个常被忽视的权衡

在讨论分辨率时，人们往往忽略了一个关键点：提升分辨率同样会大幅增加模型的容量。容量是一个不太明确的概念，但普遍认为它是一个由模型规模（以参数计，与分辨率无关）和模型的计算需求（FLOPs）混合而成的指标，而后者会随着分辨率的提升而显著增长。

自2019年的FixRes和BiT以来，提高分辨率以增强性能已成为一种普遍做法。然而，直到2024年的PaliGemma报告，才有人（即作者本人，Lucas Beyer）明确地区分了这两个因素。在该报告中，我们进行了一项实验，比较了在224和448分辨率下的计算性能，并且特别考察了一种先resize到224分辨率，然后再将其缩放至448大小的设置。这种设置虽然使用了448分辨率的计算资源（FLOPs），但保留了224分辨率的原始信息量。因此，这种设置相较于224分辨率设置的任何性能提升，都可以归因于模型容量的增加。

正如我们所见，448分辨率性能提高的很大一部分（但不是全部）来自模型容量的增加。例如，ChartQA结果的改善几乎完全归因于容量的增加，而不是分辨率的提高。

题外话：局部注意力机制

在讨论分辨率和算力的同时，还有一个简单而精妙的机制可以使高分辨率的ViTs更加迅速且内存效率更高：局部注意力。局部注意力机制将图像或特征图划分为不重叠的窗口，每个标记仅在其所属窗口内与其他标记交互。实质上，这相当于将窗口移动到局部注意力操作的批次维度。

UViT和ViTDet论文首次提出了这一概念，并推荐在高分辨率ViT的大多数层中采用局部注意力，只在少数几层中使用全局注意力。更进一步，ViTDet建议通过将预训练时的分辨率设置为窗口大小，将原本在低分辨率（例如224x224）下预训练的ViTs升级至高分辨率。这种ViTDet风格的局部注意力已被Segment Anything（SAM）系列研究成功采纳。

这种方法几乎不会影响模型的性能，同时保持了简洁、优雅和高度兼容性。值得注意的是，我尚未发现对于CNNs有同样简单而有效的替代方案。局部注意力和标记丢弃是ViT简洁性带来的创新思维，这些在CNNs中实现起来将非常复杂。

现在，请回到基准测试图表，重新审视你之前可能忽视的（ViTDet）选项。你会发现，即使在1024x1024像素的分辨率下，采用ViTDet的模型速度也超越了ConvNeXt。

最终思考

上述讨论对训练过程同样具有价值。根据我训练这些模型的经验，ViTs在训练过程中同样展现出了更高的内存效率。

速度和可扩展性之外，我们还应考虑不同架构的通用性。近期的文献中有若干观点明确指出，某些方法更适合ViTs而非CNNs，例如"MoCo v3 and SimCLR are more favorable for ViT-B than R50", "This property emerges only when using DINO with ViT architectures, and does not appear with other existing self-supervised methods nor with a ResNet-50"。此外，从Masked AutoEncodersc中衍生出的标记丢弃概念，也仅在具有非重叠补丁的纯ViT架构中可行。在CLIP风格的图像-文本训练中，无论是原始的CLIP论文还是我的未发表实验，都显示出使用ViT编码器相比其他卷积编码器有更优的性能，尽管我们尚未完全理解背后的原因。值得注意的是，这些观点中有两个来自Kaiming He，即ResNets的创造者。

我对架构本身没有特别的偏好，ViT恰好符合我的大多数使用场景。我唯一坚持的是避免无根据的观点，并在发现错误时予以指正。

点击👇关注 “思源数据科学”

👇点个“赞”和“在看”吧

思源数据科学

Towards AGI

最新文章

粉丝专属 | 红包封面 & 抽奖

拥抱新时代：transformers深度集成timm

Kimi 1.5 技术报告解读

粉丝专属 | 红包封面第二弹

粉丝专属 | 新年红包 & 红包封面

创业项目的两大误区 | 文末红包

英伟达50系显卡发布，5070打平4090

2025年，AI工程师必读的50篇论文

AI工程师必读论文：链接汇总

Alec Radford：最强本科生，如何成长为OpenAI资深研究员

Jina CLIP v2：为多模态RAG设计的向量模型

解密o1推理过程！DeepSeek-R1-Lite预览版上线

Pixtral Large：124B的最强开源多模态大模型

审稿人要求引用文章怎么办？凉拌！

高通量实验正在重塑工业AI优化的范式

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、AI视频生成和具身智能，30+位重磅嘉宾抢先看！

Omnivision-968M：最小多模态模型，为边缘设备而生！

一文读懂：从RAG到多模态RAG

仅1.3B！Janus 统一多模态理解和生成

大模型SFT暗藏大陷阱？梯度累计bug造成大范围影响

YOLO11问世！重新定义AI的可能性！

Emu3: 统一多模态输入与生成

Llama 3.2：走向多模态

通向高分辨率VLM (10): 原生动态分辨率

OpenAI o1: 大家都忽略的一点

Hugging Face最新视频数据集：FineVideo

流言四起！商业化受阻？Scaling Law失效？大模型行业怎么了？

李沐：大模型发展趋势与个人职业选择

反思：CNN和ViT，到底谁更快

校外可参加！8月23日重磅讲座@李沐

大模型面试体会和分享（2024版）

热榜第一！可视化理解transformer原理

RPBench-Auto：大模型角色扮演Benchmark

FlexAttention：兼具PyTorch的灵活与FlashAttention的性能

SAM 2 开源：视频上也能“分割一切物体”

MINT-1T: 万亿Token的开源多模态数据集

MambaVision: 在视觉任务里，Mamba也能work？

InternVL 2.0 “书生·万象” ：探寻多模态大模型的能力边界

Defect Spectrum: 带有丰富语义的大规模缺陷检测数据集

通向高分辨率VLM (9): SliME

通向高分辨率VLM (8): DeepStack

通向高分辨率VLM (7): Ferret-V2

通向高分辨率VLM (6): InternVL 1.5

通向高分辨率VLM (5): InternLM-XComposer-4KHD

通向高分辨率VLM (4): Idefics2

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉