DeepSeek 在国内大模型创业领域独树一帜。它出身不凡,背后有量化私募巨头幻方支持,曾因储备万张 A100 芯片引人瞩目,后凭 DeepSeek V2 开源模型引爆大模型价格战,以超低推理成本震撼行业,让大厂纷纷跟进。其成功源于深度技术创新,MLA 架构等大幅降本,打破行业常规,获国际认可。团队极具特色,成员年轻且多为本土清北应届生,从实习生到核心成员都能凭兴趣与能力崭露头角,如代达劢、朱琪豪等学术成果丰硕。创始人梁文锋秉持技术理想,看重原创,不囿于商业化,坚持开源,团队组织灵活,不设前置分工,资源调配自由,与 OpenAI 相似,重人才、创新与软硬件协同,志在推动中国 AI 走向前沿,改变行业跟随局面。
一、关于DeepSeek引发的大模型价格战
1、问:DeepSeek在大模型领域似乎掀起了不小的波澜,听说引发了一场价格战,这是怎么回事?
答:去年 5 月,DeepSeek 发布了 DeepSeek V2 开源模型,提供了超高性价比,推理成本被降到每百万 token 仅 1 块钱,约等于 Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一。这个价格让大家很敏感,没想到引发了行业震动,智谱 AI 5 天后跟进,字节更是率先将旗舰模型降到和 DeepSeek 一样的价格,随后阿里、百度、腾讯等大厂也纷纷降价,中国大模型价格战就此爆发。但 DeepSeek 表示并非有意当“鲶鱼”,只是按照自己步调做事,基于成本核算定价,原则是不贴钱也不赚暴利,只是没想到会引发这样的连锁反应。
2、问:DeepSeek 降价的目的是什么呢?
答:一方面是因为在探索下一代模型结构时,成本率先降下来了;另一方面,DeepSeek 认为无论 API 还是 AI,都应该是普惠的、人人用得起的东西,抢用户并非主要目的。
二、DeepSeek的技术创新
3、问:DeepSeek 在技术上有哪些突出的创新点,能让它在竞争激烈的大模型领域脱颖而出?
答:DeepSeek 对模型架构进行了全方位创新。提出了崭新的 MLA(一种新的多头潜在注意力机制)架构,把显存占用降到过去最常用的 MHA 架构的 5%-13%;独创的 DeepSeekMoESparse 结构,将计算量降到极致,这些创新最终促成成本大幅下降。像 DeepSeek V2 论文就备受关注,SemiAnalysis 首席分析师认为它“可能是今年最好的一篇”,OpenAI 前员工也称赞其“充满惊人智慧”,还将训练设置应用于自己的模型。
4、问:为什么 DeepSeek 选择从模型结构切入创新,而不像很多中国公司一样直接 copy 现有结构做应用?
答:因为 DeepSeek 的目标是 AGI,这需要研究新的模型结构,在有限资源下实现更强模型能力,这是 scale up 到更大模型所需的基础研究之一。而且 Llama 的结构在训练效率和推理成本上,和国外先进水平已有两代差距,所以 DeepSeek 选择自主创新,除模型结构外,还在构造数据、让模型更像人类等方面做了大量研究。
三、DeepSeek的团队特色
5、问:能给我们介绍一下 DeepSeek 的团队吗?看起来这个团队很神秘,却又能量巨大。
答:DeepSeek 团队最大的特点就是年轻,应届生、在读生,特别是来自清北的应届生非常活跃。团队成员有的参与了从 DeepSeek LLM v1 到 DeepSeek-v3 的全程,有的实习一段时间也做出重要成果。像为 DeepSeek 提出 MLA 新型注意力、GRPO 强化学习对齐算法等关键创新的,几乎都是年轻人。创始人梁文锋招人标准是看能力而非经验,核心技术岗位以应届和毕业一两年的人为主,团队 leader 级别也偏年轻化,以毕业 4 - 6 年的为主。
MLA 架构创新者:高华佐(北大物理系毕业,行事低调)、曾旺丁(北邮,导师张洪刚),为 DeepSeek-V2 关键创新助力。
GRPO 算法贡献者:邵智宏(清华 CoAI 课题组博士生,师从黄民烈,曾就职微软研究院,参与多项目)、朱琪豪(北大软件所 2024 届博士,发表 16 篇 CCF-A 类论文,获奖众多,主导开发 DeepSeek-Coder-V1,论文入选激励计划)、Peiyi Wang(北大博士生,受穗志方教授指导)。
全程参与者:代达劢(北大 2024 年博士毕业,师从穗志方,顶会论文 20 +,获多项大奖)、王炳宣(北大元培学院,硕士毕业后参与 DeepSeek 系列工作)、赵成钢(清华,竞赛经验丰富,担任基础架构工程师,有英伟达实习经历)。
6、问:听说 DeepSeek 的团队组织架构也很有特色,具体是怎样的呢?
答:DeepSeek 不做前置的岗位分工,而是自然分工。每个人对于卡和人的调动不设上限,只要几个人有兴趣,就可以随时调用训练集群开始一个项目;当一个 idea 显示出潜力,公司也会自上而下地调配资源,这种运作结构和 OpenAI 有些相似。
四、DeepSeek的发展战略
7、问:目前很多大模型公司既做模型又做应用,DeepSeek 却很不一样,为什么选择只做研究探索,不涉足 toC 应用呢?
答:DeepSeek 觉得当下最重要的是参与到全球创新浪潮里,过去中国公司习惯拿别人的技术做应用变现,但这波 AI 浪潮中,DeepSeek 出发点是走到技术前沿,推动整个生态发展,而不是趁机赚一笔。长远来说,DeepSeek 希望形成一种生态,业界直接使用他们的技术和产出,他们专注基础模型和前沿创新,由其他公司基于此构建 toB、toC 的业务。
8、问:DeepSeek 未来有融资计划吗?会考虑闭源吗?
答:短期内没有融资计划,DeepSeek 面临的问题不是钱,而是高端芯片被禁运。并且他们不会闭源,认为先有强大的技术生态更重要。五、DeepSeek与国内大模型行业对比
9、问:对比其他中国大模型创业公司,DeepSeek 的优势和差异化体现在哪里?
答:优势在于技术创新能力强,从模型架构到算法都有自研成果,且成本控制出色,能以较低算力训练出高性能模型。差异化方面,它是唯一一家放弃“既要又要”路线,至今专注研究和技术、未做 toC 应用的公司,也是唯一一家未全面考虑商业化、坚定选择开源路线甚至都没融过资的公司。
10、问:您认为中国大模型创业公司的终局会怎样?DeepSeek 又将在其中扮演什么角色?
答:DeepSeek 创始人梁文锋认为可能活下来 2 到 3 家,那些自我定位清晰、更能精细化运营的公司更有机会。DeepSeek 致力于技术创新,推动行业生态发展,希望成为基础模型和前沿技术的提供者,助力中国 AI 摆脱跟随地位,向原创式创新迈进,为行业发展注入源源不断的动力。