模型简介
ModernBERT 的亮点
超长上下文支持:支持 8192 tokens 的上下文长度,是原始 BERT 的 16 倍。 更快的推理速度:在变长输入场景下,推理速度提升达 4 倍。 硬件友好:适配消费级 GPU(如 RTX 4090 和 NVIDIA H100),实现了高效的内存和计算资源利用。 多样化训练数据:涵盖自然语言、代码和科学文献,增强了模型在不同领域的适用性。
ModernBERT 的架构创新
旋转位置嵌入(RoPE)
替代传统的位置编码,通过对单词间相对位置信息的嵌入,使模型能够更好地理解长文本。 支持长达 8192 tokens 的上下文,是大多数现有编码器模型(如 BERT 和 RoBERTa)的 16 倍。
GeGLU 激活函数
以 GeGLU 层取代传统的多层感知机(MLP)层,提高了模型捕获复杂关系的能力,并增强了在下游任务中的性能。
参数优化
去除了不必要的偏置项,简化了架构,同时通过嵌入层后添加归一化层,提升了训练的稳定性。
高效注意力机制
引入 交替注意力机制:
Flash Attention 与 Unpadding
Flash Attention: Unpadding:
ModernBERT 的性能
实验结果显示,ModernBERT 在包括 natural language understanding、text retrieval、long-context text retrieval 和 code retrieval 在内的四类任务上都取得了最佳效果。
处理长输入:ModernBERT 可以处理 8192 个 token 的长输入,相对于 BERT 和 RoBERTa 显著提升。
更高的效率:ModernBERT 对模型结构进行了多项优化,降低内存开销的同时也提升了单位时间内能够处理的token 数量,因此使 training 和 inference 效率更高。
模型下载
OpenCSG社区:https://opencsg.com/models/answerdotai/ModernBERT-base
欢迎加入OpenCSG社区
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https://github.com/OpenCSGs
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
扫描上方二维码添加小助手
“ 关于OpenCSG