万万没想到,一家中国量化基金公司年底发布了最强开源LLM:DeepSeek V3

文摘   2024-12-28 11:00   安徽  

这两天,DeepSeek V3 一直霸榜 X(推特),可能很多人还不知道这是什么。


但你只需要知道它是迄今为止最强大的开源 LLM 模型之一


DeepSeek 的背后是一家利用 AI 来辅助交决策的量化对冲基金:High-Flyer(幻方),一家总部位于杭州的对冲基金和人工智能(AI)公司,成立于 2015 年。它是中国最大的量化基金之一。



DeepSeek V3的强大功能  



DeepSeek V3 能够处理包括编程、翻译、以及从描述性提示中生成文章和电子邮件等一系列基于文本的任务。这款模型的优势不仅在于其广泛的应用能力,还在于其在多个领域的出色表现。


根据 DeepSeek 的内部基准测试,DeepSeek V3 在性能上超越了许多开放可下载的开源 LLM 以及仅能通过 API 访问的闭源 LLM。在 Codeforces 这一编程竞赛平台上,DeepSeek V3 在一个子集的编程比赛中超越了包括 Meta 的 Llama 3.1 405B、OpenAI 的 GPT-4o 和阿里巴巴的 Qwen 2.5 72B 等多个竞赛模型。




在 Aider Polyglot 测试中,DeepSeek V3 的表现尤为突出。这个测试旨在评估模型是否能成功编写新的代码,并将其与现有代码进行集成。DeepSeek V3 在此测试中几乎碾压了所有竞争对手



大模型的小成本快速训练 



DeepSeek V3 的训练数据集达到了 148 万亿个 token(100 万个 token 约等于75万个单词)。


此外,DeepSeek V3 的规模也相当庞大,拥有 6710 亿个参数(Hugging Face上的数据显示为 6850 亿个参数)。这一参数量约为 Llama 3.1 405B 的 1.6 倍


顺便提一嘴:虽然参数数量通常(但并非总是)与模型的性能成正比,具有更多参数的模型往往能够提供更强的表现,但大型模型也需要更强大的硬件支持才能高效运行。



尽管 DeepSeek V3 的体积庞大,它的训练速度和成本却令人惊讶。DeepSeek 团队在仅约两个月的时间里,利用一台配置有 Nvidia H800 GPU最近被美国商务部限制了中国企业的采购)的数据中心完成了模型训练。


DeepSeek 还声称,他们仅花费了 550 万美元训练 DeepSeek V3,这比 OpenAI 的 GPT-4 等模型的开发成本低得多。


小道消息说幻方最新耗资约 1.38 亿美元建立了一个拥有 10000 个 Nvidia A100 GPU 的。估计要搞大事情。



重大意义 




DeepSeek V3 的发布标志着开源 LLM 的一大步进。尽管它在某些方面可能还不具备普及应用的条件,但其强大的性能和低廉的训练成本无疑为 LLM 领域带来了新的竞争局面,也让我们看到了我们中国在 AI 技术领域日益崛起的势头


文章来源:PyTorch研习社




PyTorch研习社
打破知识壁垒,做一名知识的传播者
 最新文章