DeepSeek LLM 使用长期主义来扩展开源语言模型

科技   2025-02-01 21:57   山东  

加入知识星球:人工智能、算力算网 下载文件

开源大型语言模型(LLM)的快速发展确实令人瞩目。然而,在以前的文献中描述的标度律给出了不同的结论,这给标度LLM蒙上了一层乌云。我们深入研究了尺度律,并提出了我们独特的发现,促进了两个流行的开源配置,7B和67B的大规模模型的缩放在缩放定律的指导下,我们引入了DeepSeek LLM,这是一个致力于从长远角度推进开源语言模型的项目。为了支持预训练阶段,我们开发了一个数据集,目前包含2万亿个令牌,并且正在不断扩展。我们进一步对DeepSeek LLM Base模型进行了监督微调我们的评估结果表明,DeepSeek LLM67 B在一系列基准测试中优于LLaMA-270B,尤其是在代码、数学和推理领域。此外,开放式评估表明,我们的DeepSeek LLM67 B聊天显示出优于GPT-3.5的性能。

| -

计算机与网络安全
帮助网络安全从业者学习与成长
 最新文章