这两天,DeepSeek V3 一直霸榜 X(推特),可能很多人还不知道这是什么。
但你只需要知道它是迄今为止最强大的开源 LLM 模型之一。
DeepSeek 的背后是一家利用 AI 来辅助交易决策的量化对冲基金:High-Flyer(幻方),一家总部位于杭州的对冲基金和人工智能(AI)公司,成立于 2015 年。它是中国最大的量化基金之一。
DeepSeek V3的强大功能
DeepSeek V3 能够处理包括编程、翻译、以及从描述性提示中生成文章和电子邮件等一系列基于文本的任务。这款模型的优势不仅在于其广泛的应用能力,还在于其在多个领域的出色表现。
根据 DeepSeek 的内部基准测试,DeepSeek V3 在性能上超越了许多开放可下载的开源 LLM 以及仅能通过 API 访问的闭源 LLM。在 Codeforces 这一编程竞赛平台上,DeepSeek V3 在一个子集的编程比赛中超越了包括 Meta 的 Llama 3.1 405B、OpenAI 的 GPT-4o 和阿里巴巴的 Qwen 2.5 72B 等多个竞赛模型。
在 Aider Polyglot 测试中,DeepSeek V3 的表现尤为突出。这个测试旨在评估模型是否能成功编写新的代码,并将其与现有代码进行集成。DeepSeek V3 在此测试中几乎碾压了所有竞争对手。
大模型的小成本快速训练
DeepSeek V3 的训练数据集达到了 148 万亿个 token(100 万个 token 约等于75万个单词)。
此外,DeepSeek V3 的规模也相当庞大,拥有 6710 亿个参数(Hugging Face上的数据显示为 6850 亿个参数)。这一参数量约为 Llama 3.1 405B 的 1.6 倍!
顺便提一嘴:虽然参数数量通常(但并非总是)与模型的性能成正比,具有更多参数的模型往往能够提供更强的表现,但大型模型也需要更强大的硬件支持才能高效运行。
尽管 DeepSeek V3 的体积庞大,它的训练速度和成本却令人惊讶。DeepSeek 团队在仅约两个月的时间里,利用一台配置有 Nvidia H800 GPU(最近被美国商务部限制了中国企业的采购)的数据中心完成了模型训练。
DeepSeek 还声称,他们仅花费了 550 万美元训练 DeepSeek V3,这比 OpenAI 的 GPT-4 等模型的开发成本低得多。
小道消息说幻方最新耗资约 1.38 亿美元建立了一个拥有 10000 个 Nvidia A100 GPU 的集群。估计要搞大事情。
重大意义
文章来源:PyTorch研习社