万万没想到，一家中国量化基金公司年底发布了最强开源LLM：DeepSeek V3

文摘 2024-12-28 11:00 安徽

这两天，DeepSeek V3 一直霸榜 X（推特），可能很多人还不知道这是什么。

但你只需要知道它是迄今为止最强大的开源 LLM 模型之一。

DeepSeek 的背后是一家利用 AI 来辅助交易决策的量化对冲基金：High-Flyer（幻方），一家总部位于杭州的对冲基金和人工智能（AI）公司，成立于 2015 年。它是中国最大的量化基金之一。

DeepSeek V3的强大功能

DeepSeek V3 能够处理包括编程、翻译、以及从描述性提示中生成文章和电子邮件等一系列基于文本的任务。这款模型的优势不仅在于其广泛的应用能力，还在于其在多个领域的出色表现。

根据 DeepSeek 的内部基准测试，DeepSeek V3 在性能上超越了许多开放可下载的开源 LLM 以及仅能通过 API 访问的闭源 LLM。在 Codeforces 这一编程竞赛平台上，DeepSeek V3 在一个子集的编程比赛中超越了包括 Meta 的 Llama 3.1 405B、OpenAI 的 GPT-4o 和阿里巴巴的 Qwen 2.5 72B 等多个竞赛模型。

在 Aider Polyglot 测试中，DeepSeek V3 的表现尤为突出。这个测试旨在评估模型是否能成功编写新的代码，并将其与现有代码进行集成。DeepSeek V3 在此测试中几乎碾压了所有竞争对手。

大模型的小成本快速训练

DeepSeek V3 的训练数据集达到了 148 万亿个 token（100 万个 token 约等于75万个单词）。

此外，DeepSeek V3 的规模也相当庞大，拥有 6710 亿个参数（Hugging Face上的数据显示为 6850 亿个参数）。这一参数量约为 Llama 3.1 405B 的 1.6 倍！

顺便提一嘴：虽然参数数量通常（但并非总是）与模型的性能成正比，具有更多参数的模型往往能够提供更强的表现，但大型模型也需要更强大的硬件支持才能高效运行。

尽管 DeepSeek V3 的体积庞大，它的训练速度和成本却令人惊讶。DeepSeek 团队在仅约两个月的时间里，利用一台配置有 Nvidia H800 GPU（最近被美国商务部限制了中国企业的采购）的数据中心完成了模型训练。

DeepSeek 还声称，他们仅花费了 550 万美元训练 DeepSeek V3，这比 OpenAI 的 GPT-4 等模型的开发成本低得多。

小道消息说幻方最新耗资约 1.38 亿美元建立了一个拥有 10000 个 Nvidia A100 GPU 的集群。估计要搞大事情。

重大意义

DeepSeek V3 的发布标志着开源 LLM 的一大步进。尽管它在某些方面可能还不具备普及应用的条件，但其强大的性能和低廉的训练成本无疑为 LLM 领域带来了新的竞争局面，也让我们看到了我们中国在 AI 技术领域日益崛起的势头。

文章来源：PyTorch研习社

PyTorch研习社

打破知识壁垒，做一名知识的传播者

最新文章

结合Neo4j与Milvus的图谱与向量搜索构建GraphRAG Agent

OpenAI o3-mini 干翻了 DeepSeek R1？

探索提升RAG系统问答质量的技术路线

微软CoRAG：提升多步骤问答任务的表现

5种LLM微调策略：动态图示清晰解析

RAG从入门到精通系列6：Retrieval（检索）

深度解析DeepSeek-R1——打造推理型大模型的配方

Model2Vec加速RAG：模型小15倍，速度快500倍：

RAG从入门到精通系列5：Indexing（索引）

RAG从入门到精通系列4：Query Construction（查询构造）

RAG中的5种文档切分策略：动态图示清晰解析

OpenAI发布的Operator是什么？

AI制裁无效！DeepSeek-R1、DeepSeek-V3和GRPO论文总结

Kimi k1.5：与全功率o1性能匹敌的LLM技术分析

DeepSeek-R1发布24小时后，AI行业反应怎么样？

DeepSeek-R1：一款革命性的国产开源推理LLM，挑战OpenAI的高性能模型

Medium上20万次阅读的思维链高级提示付费文章

RAG从入门到精通系列3：Routing（路由）

Agentic RAG实战：LangChain+LangGraph+Docling+ChromaDB

GitHub上41.3k颗星的2025年最新免费LLM课程

传统 RAG vs. Agentic RAG：动态图示清晰解析

吴恩达：AI产品管理的黄金时代已来，未来属于懂技术的PM！

RAG从入门到精通系列2：Query Translation（查询翻译）

OpenAI率先突围：AI自我进化

RAG从入门到精通系列1：基础RAG

LLM应用落地：购买GPU的最佳指南

用LangChain的LLM Graph Transformer解锁构建知识图谱构的新姿势

2025年这7种用于构建Agentic RAG系统的架构不可或缺

CAG能取代RAG吗？别被表面现象迷惑！

增强版o1模型：Search-o1=Agentic搜索+文档内推理机制

8000字文章的AI Agent全解析：工具、规划与失败模式的深度探索

传统的SaaS的将在2025 Agent时代走向终结

NVIDIA CES2025 大会凭什么震撼了整个 AI 领域？

2025如何学习Agent？谷歌重磅发布Agent白皮书

探索AI Agent工作流设计模式：构建智能任务协作的未来

微调提升LLM准确性，SQL查询任务实现从0%到90%准确率的突破！

用基于Qwen-2.5-7B的Code Agent打造本地、开源的Multi-Agent RAG系统

大模型不一定是最优解！小模型更适合企业？

四种腾讯最新的QO技术提高RAG系统的效率和准确性：扩展、分解、消歧、抽象

Graph RAG实战：使用知识图谱和AI检索、筛选和总结医学期刊文章

AGI前夜的思考：从o3到AGI，未来已来（前端可能没未来了）

2025 Agent之年：Anthropic万字文章披露如何构建高效的AI Agent系统

从创意到工作效率，谷歌为你整理了321个生成式AI在多个行业的变革性应用

万万没想到，一家中国量化基金公司年底发布了最强开源LLM：DeepSeek V3

2025年值得入坑AI Agent的五大框架

GPT之父从OpenAI离职！OpenAI“众叛亲离”对AI的发展或许是一件好事

ModernBERT在LLM时代重塑BERT的速度与效能

12天12大突破！OpenAI的创新狂潮，彻底改变未来科技

用 PydanticAI 构建智能体应用：评估驱动开发的新时代

HuggingChat：开源、自由、高效的生成式对话平台

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉