无文本编码器仍能媲美CLIP！豆包大模型团队首创SuperClass模型

科技 2024-11-21 12:02 重庆

近日，字节跳动豆包大模型团队提出 SuperClass ，一个超级简单且高效的预训练方法。该方法首次舍弃文本编码器，直接使用原始文本的分词作为多分类标签，无需额外的文本过滤或筛选，比 CLIP 具有更高的训练效率。

实验结果表明，SuperClass 在多种纯视觉任务和视觉语言多模态下游任务上表现出色，并且在模型大小和数据集大小方面具备与 CLIP 相同或更优的 Scalability 。本文将介绍 SuperClass 的实现原理、技术亮点及实验结果。

CLIP，可谓 AI 大模型中的“眼睛”。该模型通过将图像与文本对齐，实现了图像与语言之间的理解与关联。近些年来，CLIP 被广泛应用于视觉理解、图像问答、机器人/具身智能等多个领域。

但 CLIP 自身结构对计算量的高要求，限制其进一步应用与发展。

字节跳动豆包大模型视觉基础研究团队于近日公布最新成果 SuperClass 。该模型首次去掉了文本编码器，仅利用海量的图像-文本数据集预训练，无需文本编码器及构建大规模对比 Batch Size ，就能得到强大甚至表现更好的视觉模型。

取代 CLIP 的对比学习方法，SuperClass 不仅成功解决计算负担重的问题，同时可获得效果可观的视觉模型。实验结果表明，SuperClass 在各种纯视觉场景和视觉-语言多模态场景下均优于 CLIP ，同时基于分类的方法，模型展现出与 CLIP 相当，甚至更优的 Scalability 。

目前，论文成果和代码仓库已对外公开，并被 NeurIPS 2024 接收。

SuperClass: Classification Done Right for Vision-Language Pre-Training
论文链接：https://arxiv.org/abs/2411.03313
代码链接：https://github.com/x-cls/superclass

1. 高计算量带来 CLIP 的限制

近年来，基于 Web-Scale 的图像-文本数据集的预训练方法已彻底改变计算机视觉领域，尤其 Contrastive Language Image Pretraining (CLIP) 及其系列模型获得了越来越多关注，并已成为大多数当前视觉语言模型（VLM）的默认选择。

CLIP 的广泛应用源自于三方面优势：首先，优越的视觉表征能力，大幅提升零样本视觉识别的精度和下游任务适配的泛化性。其次，CLIP 表现出不错的 Scalability ，一定程度上，能持续受益于更大模型和更多数据。第三，强大的跨模态能力，本质上，CLIP 就是为连接文本与图像而设计的。

尽管 CLIP 已取得成功，但要达到更佳性能，模型在训练时就需要非常大的 Batch Size 用于对比学习，同时，还需要大量计算资源进行文本编码。对于计算量的高要求一定程度上限制了该技术应用与进一步发展。

2. 首创超级简单的多分类方法，无文本编解码器

面向上述问题，豆包大模型团队在业内率先提出一种全新、超级简单的多分类方法 SuperClass 。

无需文本编码器和解码器，也无需额外文本过滤和筛选，仅使用原始文本，团队实现了监督视觉模型的高效训练，同时具有良好的模型和数据 Scalability 。

实现原理

我们希望建立一个基于图像分类的预训练方案，保持简单性、可扩展性和高效率，同时精度可以与 CLIP 相媲美。因此，我们采用 Vision Transformer (ViT) 作为视觉编码器的主干网络，后接全局平均池化层和一个线性层作为分类头。

在训练步骤中，我们的方法类似于典型监督多标签分类网络，输入一张图像，提取全局特征，并通过分类层获得逻辑向量。分类标签从图像对应的文本中得到，分类损失由文本衍生的分类标签和预测向量共同构成。

文本映射成分类标签

与之前的基于分类方法不同，对于一个包含 N 对图像 I 和文本描述 T 的图像-文本数据集，我们直接使用现有子词级别分词器（如 CLIP 或 Bert 中使用的分词器），词汇表大小为 v ，输入文本 T 并获得相应的子词 ID 集合 C 作为分类标签。

集合 C 中的标签满足。分类 C 标签将被转换为 N-hot 向量，其中当 c 在集合 C 中时，否则。

与之前基于分类的预训练方法相比，我们的方法不需要任何预处理或手动阈值设置，同时，它也避免了之前方法可能遇到的词表溢出（Out-of-vocabulary）问题。

分类损失函数

业内已有大量研究探讨多标签分类损失函数。然而，值得注意的是，我们的目标是预训练视觉编码器，而不是真正专注于多标签分类准确率。因此，我们对几种多标签分类损失进行了消融实验，包括 Softmax Loss、BCE Loss、Soft Margin Loss、ASL 和 Two-way Loss。

令人惊讶的是，简单的 Softmax 损失产生了最佳预训练结果。这可能是因为当前多标签分类损失建立在标签精确且完整的假设基础上，努力优化正负类别之间的间隔。然而，图像-文本数据中存在固有噪声，且文本在完整描述图像内容方面的局限性，意味着图像中所有对象并不总在配对文本中被提及。

在多标签场景中，通过以概率方式描述标签来应用 Softmax 损失，其中是归一化加权标签。

逆文档频率作为类别权重

在子词词汇表中，每个词都承载着不同程度的信息量，不同类别之间并非同等重要。此外，考虑到子词词典中包含许多语句常见词，这些词与视觉内容无关，并不能提供有效的监督信息。

因此，团队认为，携带大量信息的词在训练过程中应被赋予更大权重。我们使用逆文档频率（Inverse Document Frequency 或 IDF ）来衡量信息量，IDF 包含特定词的样本数量越少，该词区分不同样本的能力就越强。

我们使用类别（子词）的逆文档频率（IDF）统计作为分类标签的权重，为分类标签 c 分配不同的权重：

其中，是图像-文本对的总数，是子词 c 的文档频率（df），也就是包含子词 c 的文本数量。为了更加便于使用，我们在训练过程中实现了在线 IDF 统计，无需在训练前离线统计。这使得 SuperClass 方法更加友好且便于移植。

3. SuperClass 不仅简单和高效，还能学习到更好的视觉表征

由于不需要文本编码器和构建巨大的相似性矩阵，SuperClass 可以节省大约 50% 的显存使用，加速 20% 以上。

为了更好度量预训练得到的视觉表征能力，我们固定住训练好的视觉模型的参数，将其应用到 Linear probing 、zero-shot 、10-shot 等分类任务，同时接入到 LLM 做视觉和语言多模态下游任务进行评测。

所有实验中，我们均采用和 CLIP 相同的模型和训练参数设置。

更好的视觉表征

结果显示，SuperClass 在各种模型大小和数据规模都取得不错的精度。与其他无监督方法相比， SuperClass 由于依靠语义信息作为监督，训练数据多样，在各种图像分类数据集和不同分类任务上均取得更好精度。

与 CLIP 相比，SuperClass 在使用相同数据集的训练参数设置下，图像分类精度也基本优于 CLIP 模型，比如 ImageNet linear probing 分类，SuperClass 比 CLIP 高 1.1% (85.0 vs. 83.9) 。考虑到 SuperClass 无需文本编码器和构建大规模 Batch Size ，使其更加适合应用于大模型预训练场景。

更好的跨模态能力

CLIP 广泛应用的另一个场景是多模态理解，作为多模态大模型中的视觉编码器，展现了很好的跨模态能力。在预训练过程中，SuperClass 的特征也对齐到了文本空间，同样可应用于多模态理解任务中。

本文采用了 2 种大语言模型，按照 clipcap 中的设置，使用 GPT-2 作为 Decoder ，在 COCO captions 上评估 image captioning 能力。根据表 3 的结果所示，SuperClass 取得了略优于 CLIP 的 CIDEr 结果。

另外按照 LLaVA 的设置，使用 7B 的 LLM 评估了更多的多模态下游任务，同样 SuperClass 也取得了更好的精度。

更多实验配置和测试细节请移步完整论文（https://arxiv.org/abs/2411.03313）。

更好的可扩展性 Scalability

团队对比了 SuperClass 和 CLIP 在不同的模型大小和不同的数据规模下的精度，包括纯视觉任务和多模态下游任务：

在纯视觉任务和多模态下游任务上，SuperClass 和 CLIP 具有相似的 Scalability ；
在 Text-VQA 任务上，SuperClass 明显取得了比 CLIP 更好的精度和 Scalability ，团队推测，SuperClass 训练可能可以学习到更强的 OCR 能力。

4. 展望未来

团队会继续推进图像文本预训练技术迭代，基于文本顺序信息，训练得到更强视觉模型，以便更好地服务于视觉和多模态相关的任务。如果你对该团队研究工作感兴趣，有志于探索视觉大模型前沿课题，可点击阅读原文，前往豆包大模型团队官网，了解更多信息。

点击“阅读原文”，了解更多团队信息

字节跳动技术团队

字节跳动的技术实践分享

NDSS 2025｜抖音集团安全研究团队提出机密沙箱内存管理方案WAVEN

ABCoder 在大模型编程领域的探索

来战！「豆包 MarsCode 算法竞技赛」第二期开赛，丰厚奖金等你来拿

豆包视觉理解模型正式发布，通用模型能力全面对齐GPT-4o！

豆包MarsCode AI编程云课堂回顾｜「入门开发者系列」

Kitex/Hertz 助力大模型：三周年重要特性回顾

北京大学-字节跳动“豆包大模型系统软件联合实验室”成立，聚焦AI系统软件关键问题

直播预约｜字节跳动豆包大模型团队 NeurIPS 2024 中选论文精讲

火山引擎veImageX助力谱时智能云深耕照片直播赛道

见证无限可能！火山引擎冬季 Force 大会开发者论坛来袭

首次覆盖超 11 类真实编程场景！豆包大模型团队开源代码大模型全新基准

参与AI 红人共创计划，拿万元现金大奖！每日投票抽奖！

深度揭秘“快稳省”背后的数仓硬核技术

来战！激发你的编程潜力，挑战极限！豆包 MarsCode 算法竞技赛火热来袭！

APMPlus 发布 HarmonyOS NEXT 鸿蒙系统 App 性能监控

更快、更稳、更优，揭秘火山引擎全站加速 DCDN 规模容器化最佳实践

初级开发者系列｜AI编程云课堂课程预告来啦！

大幅降低数据科学门槛！豆包大模型团队开源AutoKaggle，端到端解决数据处理

QCon演讲实录|赵彦奇：HTTPDNS 边缘下沉，性能、成本和稳定性之间的取舍与思考

字节跳动基于 Ray 的大规模多模态数据处理框架

无文本编码器仍能媲美CLIP！豆包大模型团队首创SuperClass模型

首度揭示！个性化视频技术——短视频体验的秘密！

又稳又快！基于ByteHouse ELT构建高性能离/在线一体化数仓

【请领取打卡礼】刷题不停，Offer可期！豆包MarsCode & 掘金 AI 刷题功能再次升级！

「会说话」的 AI ，扣子智能语音 OpenAPI 开启内测申请

火山引擎论文入选国际会议ACM IMC'24｜一种面向大规模视频点播系统的算法实验平台

火山引擎多媒体实验室VR全链路处理传输显示方案ResVR入选ACM Multimedia 2024最佳论文提名

创新实践：基于边缘智能+扣子的智能取物机器人解决方案

QCon演讲实录|徐广治：边缘云原生操作系统的设计与思考

一句话轻松 P 图！字节跳动图像编辑模型SeedEdit发布，产品端可体验

直播预约｜豆包MarsCode校园发布会即将上线！万元大奖，玩法多多先睹为快

视频生成模型能否“理解”物理规律？豆包大模型团队公布系统性实验结论

抖音集团也在用的数仓「降本」利器

BlockFramework —— 客户端模块化业务开发框架

超低延迟多路径传输：技术演进与大规模业务实践

最高提升20倍吞吐量！豆包大模型团队发布全新 RLHF 框架，现已开源！

AI 代码编程助手真的有用吗

万圣节，一起 Cozeplay ！ iPhone 16 Pro Max、Switch、扣子周边等500份“糖果”掉落！

单元化架构在字节跳动的落地实践

技术专题27期 | 后端Java技术创意冠军角逐赛

【万字干货】保姆级AI编程基础入门，看这篇就够了！

豆包MarsCode Agent 登顶 SWE-bench Lite 评测集

1024 码上奇妙夜｜开发者专属，万元“豪”礼，宠爱满满！

揭秘云数仓ByteHouse四大「降本」硬招

1024限时加码｜豆包MarCode小助手给合伙人送礼啦！

扣子上新！文生播客、客服、陪伴、教育…官方带你抄作业！

一文教会你轻松上手豆包MarsCode 编程助手！（文末送AirPods 4啦）

1024，火山引擎开发者社区给你精彩！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉