ModernBERT:下一代 Encoder-Only 模型的全面进化

2025-01-02 17:42   上海  

模型简介

2018年,BERT横空出世,成为自然语言处理(NLP)领域的一次革命,极大地提升了检索、分类、实体识别等任务的效果。然而,BERT的局限性也逐渐显现,尤其在处理长文本、硬件适配性和效率等方面。因此,六年后,由 Answer.AI、LightOn、英伟达、Hugging Face 和约翰斯·霍普金斯大学 联合推出的 ModernBERT 横空出世,为 BERT 的短板提供了答案,成为新一代 Encoder-Only 模型的标杆。
ModernBERT 不仅在准确率和速度上实现了突破,还通过一系列架构创新和训练优化,显著提升了处理长文本的能力,同时兼顾了硬件适配性,使其在传统 NLP 任务中表现优异。
ModernBERT 是基于 Transformer 编码器架构的模型,是对经典 BERT 的一次全面升级。它专为检索、文本分类、实体识别和代码理解等任务设计,目标是以更高效的方式提供卓越的性能。

ModernBERT 的亮点

  • 超长上下文支持:支持 8192 tokens 的上下文长度,是原始 BERT 的 16 倍。
  • 更快的推理速度:在变长输入场景下,推理速度提升达 4 倍
  • 硬件友好:适配消费级 GPU(如 RTX 4090 和 NVIDIA H100),实现了高效的内存和计算资源利用。
  • 多样化训练数据:涵盖自然语言、代码和科学文献,增强了模型在不同领域的适用性。

ModernBERT 的架构创新

ModernBERT 的架构在保留 BERT 精髓的基础上,融入了近年来的诸多技术进展,尤其是在以下几个方面实现了突破:

旋转位置嵌入(RoPE)

  • 替代传统的位置编码,通过对单词间相对位置信息的嵌入,使模型能够更好地理解长文本。
  • 支持长达 8192 tokens 的上下文,是大多数现有编码器模型(如 BERT 和 RoBERTa)的 16 倍。

GeGLU 激活函数

  • 以 GeGLU 层取代传统的多层感知机(MLP)层,提高了模型捕获复杂关系的能力,并增强了在下游任务中的性能。

参数优化

  • 去除了不必要的偏置项,简化了架构,同时通过嵌入层后添加归一化层,提升了训练的稳定性。

高效注意力机制

  • 引入 交替注意力机制
  • 每三层使用全局注意力,其余层采用滑动窗口策略(每个标记仅关注最近的 128 个标记)。在提升计算效率的同时,保持了长文本的全局语义理解能力。

Flash Attention 与 Unpadding

  • Flash Attention
  • 减少长序列计算开销,加速训练和推理速度。
  • Unpadding
  • 移除填充标记,避免浪费计算资源,大幅提高内存利用效率。

ModernBERT 的性能

实验结果显示,ModernBERT 在包括 natural language understanding、text retrieval、long-context text retrieval 和 code retrieval 在内的四类任务上都取得了最佳效果。

处理长输入:ModernBERT 可以处理 8192 个 token 的长输入,相对于 BERT 和 RoBERTa 显著提升。

更高的效率:ModernBERT 对模型结构进行了多项优化,降低内存开销的同时也提升了单位时间内能够处理的token 数量,因此使 training 和 inference 效率更高。

模型下载

OpenCSG社区:https://opencsg.com/models/answerdotai/ModernBERT-base




欢迎加入OpenCSG社区



•贡献代码,与我们一同共建更好的OpenCSG


•Github主页

欢迎🌟:https://github.com/OpenCSGs


•Huggingface主页

欢迎下载:https://huggingface.co/opencsg


•加入我们的用户交流群,分享经验



扫描上方二维码添加小助手






“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。


OpenCSG社区
该账号是开放传神(OpenCSG)分享大模型的技术、见解、传神开放社区等方面的内容!
 最新文章