DeepSeek-V2:一个强大、经济和高效的专家混合语言模型
科技
2025-01-31 21:57
山东
加入知识星球:人工智能、算力算网 下载文件
![]()
我们提出了DeepSeek-V2,一个强大的专家混合(MoE)语言模型,其特点是经济的训练和高效的推理。它总共包括236B个参数,其中21B个为每个令牌激活,并支持128K令牌的上下文长度DeepSeek-V2采用了创新的架构,包括多头潜在注意力(MLA)和DeepSeekMoE。MLA通过将键值(KV)缓存显著压缩到潜在向量中来保证高效推理,而DeepSeekMoE通过稀疏计算以经济的成本训练强大的与DeepSeek67 B相比,DeepSeek-V2的性能显著提升,同时节省了42.5%的训练成本,KV缓存减少了93.3%,最大生成吞吐量提升至5.76倍。我们在由8.1T令牌组成的高质量和多源语料库上预训练DeepSeek-V2,并进一步执行监督微调(SFT)和强化学习(RL)以充分释放其潜力。评测结果表明,即使只有21 B激活参数,DeepSeek-V2及其聊天版本仍然在开源模型中达到顶级性能模型检查点可以在https:∥/github.com/deepseek-ai/DeepSeek-V2上找到。![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
| -
![](/static/gotop.png)