字节跳动豆包大模型视觉基础研究团队于近日公布最新成果 SuperClass 。该模型首次去掉了文本编码器,仅利用海量的图像-文本数据集预训练,无需文本编码器及构建大规模对比 Batch Size ,就能得到强大甚至表现更好的视觉模型。
SuperClass: Classification Done Right for Vision-Language Pre-Training 论文链接:https://arxiv.org/abs/2411.03313 代码链接:https://github.com/x-cls/superclass
2. 首创超级简单的多分类方法,无文本编解码器
实现原理
文本映射成分类标签
分类损失函数
逆文档频率作为类别权重
我们使用类别(子词)的逆文档频率(IDF)统计作为分类标签的权重,为分类标签 c 分配不同的权重:
其中, 是图像-文本对的总数, 是子词 c 的文档频率(df),也就是包含子词 c 的文本数量。为了更加便于使用,我们在训练过程中实现了在线 IDF 统计,无需在训练前离线统计。这使得 SuperClass 方法更加友好且便于移植。
3. SuperClass 不仅简单和高效,还能学习到更好的视觉表征
更好的视觉表征
更好的跨模态能力
更多实验配置和测试细节请移步完整论文(https://arxiv.org/abs/2411.03313)。
更好的可扩展性 Scalability
在纯视觉任务和多模态下游任务上,SuperClass 和 CLIP 具有相似的 Scalability ; 在 Text-VQA 任务上,SuperClass 明显取得了比 CLIP 更好的精度和 Scalability ,团队推测,SuperClass 训练可能可以学习到更强的 OCR 能力。
点击“阅读原文”,了解更多团队信息