首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

深度求索（DeepSeek-V3）技术报告解析

文摘 2025-01-28 23:40 山东

文章来源于：bboczeng

DeepSeek-V3及其对应产品的基准性能（Credit: Deepseek）

刚才花2小时看完了《DeepSeek-V3 Technical Report》（可点击左下角阅读原文访问），下面说下我的感想。

1

文章贡献主要来自系统（Training Infra），而非模型本身。模型本身依然基于传统的Transformer：

① 他们世界首创在大规模LLM训练中系统性部署fp8（8位浮点）量化技术，这大大降低训练对显卡内存的需求，也加快了训练过程；

② 为了正确使用fp8的矩阵乘法，他们优化并改进了CUDA Kernal的调用方式，甚至给英伟达（Nvidia）提出了诸多Tensor Core方面的设计建议，这没有颠覆Nvidia；

③ 他们开发了自己的训练框架DualPipe，实现了16/64通道的流水线和专家（MOE）并行，极大改善了并行训练中的通信和计算冲突问题，解决了调度瓶颈。

最终，DeepSeek实现了在2048个H800上的集群训练。

2

文章中大部分改进是渐进式的，而非革命性的：

① 对Context 扩展的技术实际上来自2023年文章YaRN，而且最终DeepSeek V3只实现了N=1的MTP，也即比传统的GPT多预测一个词；

② MOE所引入的Aux-Loss-Free Load Balancing技术，其实仅仅是在传统Expert的分配算法面前加入了一个bias term b_{i}；

③ DeepSeek MOE上的另一个革新是加入了“共享Expert”，并保证训练时对于每个Token，这些Expert最多分布在4个node上，以减少通信瓶颈；

分了一组Shared Experts，并且给Expert分配系数加入了一个bias term，防止Mode Collapsing；

④ 其独创的Multihead Latent Attention 本质上是将QKV通过线性变换降维到一个Latent Space存入Cache，提高存储速度；这有利于推理任务加速；

⑤ 利用自己在量化交易中的经验，创造性地将某些移动平均值（如Adam参数状态）存在CPU中，减少并行开销，等等。

当然，能够将如此多新的细节整合在一起，并获得一个几乎没有任何Loss Spike的平滑的训练框架，这不得不说是一个奇迹。

3

DeepSeek 在RL和蒸馏方面确实得到了极其宝贵的经验。Deep Seek证明了：

① 推理能力可以通过RL获得；

② 推理能力可有效的被蒸馏到更小的模型上去。

虽然他们也同时观察到，蒸馏可能让小模型的输出变得更长，语言效率降低。此外，如果RL的Reward Model过于简单，这可能会让模型推理仅限于数学和代码任务。

4

总的来说，确实是一个非常好的论文，证明了在极限的精度和优化条件下，训练一个600B大模型成本能走到多低。

Deepseek不至于颠覆硅谷，但确实利空OpenAI，是一个非常好的阶段性进展。

恭喜全世界的AI研究者们！

######

今天美国三大股指暴跌！

延伸阅读：

转载请注明来源于公众号“全球航天事件”！

我以我写荐轩辕

最新文章

技术风险辨识与控制过程中的“尴尬”

推力器阀门故障导致印度导航卫星升轨失败，无法进入预定轨道

SpaceX领先10年；未来卫星年收入预测1300亿美元

印度新发射导航卫星变轨失败，恐很快再入烧毁

【年度盘点】2024年国外空间核推进技术进展

三比零的僵局如何打破？我们还要不要星辰大海的未来？

中美黄岩岛惊险对峙，B1B近距离挑衅，解放军反击当场见效

波音星际线飞船项目前负责人重返岗位

中国深海黑科技，从水下跟踪5000米高度敌机，颠覆美国反潜优势

美军涌入小红书频频泄密？都是谣言，不过美军宣传真值得好好学学

运载火箭技术风险分析的工作依据和流程概述

“登山机器人”在泰山试用！网友：我又行了

日本成功发射区域导航卫星，2025首次发射

SpaceX 1月完成14次发射

GDP背后的深层次思考

4.63亿可重复使用火箭海上回收系统指挥测控船设计、采购和建造总承包（EPC）项目招标公告

确定！中国卫星发射失利：167天5次轨控，5次修正，成功送入轨道

埃隆・马斯克表示想把两名“被困”宇航员带回家

沃达丰基于美国AST太空通信公司卫星进行全球首次普通手机太空视频通话

美国华盛顿国家机场附近发生致命空难：客机与军用直升机相撞，至少18人遇难

波托马克河上的“叹息桥”——1982年美国佛罗里达航空90号航班

工程的胜利与天才的涌现：DeepSeek背后的本质与未来启示

航天双五归零处置预防性提升刍议

航天双归零的优势和不足

中美关系未来十年

拜年啦，祝各位同仁新春快乐，身体健康，万事如意，阖家幸福！

深度求索（DeepSeek-V3）技术报告解析

“秀肌肉”继续，北部战区7枚东风-41洲际导弹同框拜年！

北京某领导关于医疗的发言，现场鸦雀无声

DeepSeek 逼疯硅谷，美国急眼了

“过年聚会喝酒这么来，欢声笑语杯不停”

中国DeepSeek强势崛起：美国科技界忙着对账，发现账目对不上了！

老胡给DeepSeek下指令：仿《过秦论》写篇《过美利坚论》

5000公里火眼金睛！我巨型战略预警雷达亮相，专盯美国洲际导弹

老棉裤的冬天

海南商业发射场二期开建，预计2026年底竣工

山东潍坊小镇，垄断了中国70%的山楂制品

美的最新极简工作法——值得借鉴！

珍妮特·佩特罗被任命为NASA代理局长，成为该机构成立以来的首位女性局长

民营火箭公司面临的机遇、挑战和建议

【年度盘点】2024年国外液体推进技术进展

美国的新殖民主义：让星条旗在火星竖立

FAA宣布对星舰第七飞和新格伦首飞任务分别开展事故调查

上海航天3.8米试验箭75公里垂直起降（VTVL）飞行试验未达成任务目标

猎鹰火箭发射紧急终止！飞机闯入禁飞区

“三师”型工艺技术人才培养机制

星舰火箭第七次试飞失败：飞船舱段失联原因初步揭晓

尹锡悦，正式进入拘留所！

中航工业歼-20总设计师杨伟、总经理郝照平被免职

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉