DeepSeek(幻方旗下)近期发布了DeepSeek-V3,不但性能吊打OpenAI,Claude等北美大厂而且价格极低,秉承了我天朝一贯的物美价廉的光荣传统。DeepSeek一时间成了国产之光,而微软、谷歌、亚马逊从人类灯塔的位置上迅速跌落成人傻钱多速来的笑话。铁炉堡在对天朝再次弯道超车欣喜之余,看了眼股票,心情瞬间复杂了起来。A股习惯性大跌不说明问题,毕竟这货啥事都抢着买单。可美股算力跌幅比应用跌的少得多啊,按道理模型的成本下降了90%多,那不是利好应用利空硬件吗?所以铁炉堡还是决定应该去研究个究竟,而不是人云亦云。
DeepSeek-V3
DeepSeek-V3模型拥有6710亿参数,采用混合专家(MoE)架构,在多项评测中,DeepSeek-V3的表现GPT-4o、Claude 3.5 Sonnet等顶尖模型相当。
但其训练成本仅为558万美元,远远低于同类大模型动辄数亿美金的开销。
在API服务定价方面,DeepSeek-V3的价格也更具有竞争力。每百万输入tokens的费用为0.5元(缓存命中)或2元(缓存未命中),每百万输出tokens的费用为8元,总成本约为10元人民币。相比之下,OpenAI的GPT-4o定价较高,每百万输入tokens为5美元,输出为15美元,总成本为20美元,约合人民币150元。
DeepSeek 训练成本低主要有以下几方面原因
创新的架构设计
- 采用混合专家架构(MoE):DeepSeek-V3 等模型采用了混合专家架构,在处理不同任务时,只需激活选定的部分参数,而不是全部参数,从而大大减少了计算量和训练成本 。
- 多头潜在注意力机制(MLA):通过显著压缩键值(kv)缓存为潜在向量,减少了在推理过程中对键值缓存的需求,提高了推理效率,进而间接降低了训练成本,因为高效的推理过程可以减少对额外计算资源的依赖,也能使训练过程更加高效地进行。
高效的数据处理和训练策略
- 优化预训练语料库:DeepSeek-V3 优化了预训练语料库,使模型能够以更少的数据量达到更好的训练效果,降低了数据存储和处理成本。
- 多 token 预测(MTP)技术:MTP 将预测范围扩展到每个位置的多个未来 token,一方面使训练信号更加密集,提高了数据效率;另一方面可以使模型预规划其表征,以便更好地预测未来的 token,从而加快训练收敛速度,减少训练时间和成本。
- 无辅助损失的负载平衡策略:DeepSeek-V3 率先采用了无辅助损失的负载平衡策略,减轻了因确保负载平衡而导致的性能下降,提高了训练效率,进一步降低了训练成本。
训练框架和工程优化
- FP8 混合精度训练框架:采用 FP8 混合精度的训练框架,在不损失模型性能的前提下,减少了训练过程中的内存占用和计算量,从而降低了训练成本。
- 分布式训练:使用了管道并行、专家并行和数据并行等分布式训练技术,充分利用了多块 GPU 的计算能力,实现了高效的训练,同时减少了对昂贵的高端 GPU 集群的依赖,降低了硬件成本。
深入解读
以上内容其它人也有总结,这都是DeepSeek-V3 Technical Report的内容,看着是不是很懵圈,感觉很牛但也不知道哪里牛。铁炉堡翻阅了大量资料,对此有了一个初步的认识,下面用通俗易懂的语言解读一下。说的不对的地方还请各位技术大牛指点。
1、减少参数
DeepSeek-V3训练最重要的差别在于减少激活参数。该模型在总参数达到671B的情况下,每个token仅激活37B参数,从而大幅节约训练和推理成本。这是MoE架构的好处,DeepSeek-V3 做的更加精细(专家数量更多)。而要降低训练成本又要保持性能,还需要其它技术配合。比如数据质量要高,也即上文提到的优化预训练语料库,但这是需要成本的,可能并不包含在这558万美元之内。MoE本质上是当输入一个token时先计算它与各个专家模块的亲和度,然后激活那个亲和度最高专家模块的参数,所以专家模块数量越多激活的参数就越少。GPT的模型应该不是这个架构,虽然IIya曾公开披露过GPT运用MoE技术,但是结合上下语境,他的意思更可能是模型的稀疏化技术,而不是这里的MoE架构。事实上,GPT应该是采用Transformer架构中的密集参数方法,也就是每层的神经网络参数都在所有输入上同时激活。这种方式具有较强的通用性和稳定性。所以DeepSeek可能在某些特定任务下表现出色,但是一定会丧失通用性。下面是一段评测,对于一些复杂任务,DeepSeek-V3能力与主流模型能力有很大差距。
https://www.bilibili.com/video/BV1dGCzYJEUQ?t=3.2
2、降低精度
其次,DeepSeek运用了低精度(FP8)的训练框架,在保持模型性能的同时,显著减少了内存占用和计算量。这是因为神经网络算法有很好的鲁棒性,就是对误差不敏感。由于鲁棒性它是也可以做到缩小尺寸和缩短推理时间而不太损失模型性能的,称之为模型量化(quantize),在预训练阶段,通常是将浮点运算的精度从高精度降到低精度。这也是GPU设计的进化方向,比如英伟达最新Blackwell Transformer 引擎利用称为微张量缩放的细粒度缩放技术,优化性能和准确性,支持 4 位浮点 (FP4) AI。神经网络算法需要并且能够降低精度以节省成本,GPU利用这一特性不断推出适用低精度的引擎以换取高性能(更快的运算速度、更少的单位存储和能耗)。所以AI大模型的发展就是模型不断变大,训练不断增多,同时精度不断的下降。但是最近一篇论文阐述了一个残酷的现实就是--精度的下降是有极限的。具体说就是在FP4之后降低训练精度将以模型误差放大为代价。
铁炉堡在Scaling Law撞到墙了?对此论文进行了解读,因为它一度在中文网络上被当成Scaling laws终结的证据,其实并不是。
3、意义:发明灯泡与制造电灯
所以综合看起来,Deepseek只是在工程化方面做了些极致的探索,还谈不上PK掉那些著名的通用大模型。在大兄弟这个外行看起来,OpenAI的Gpt-4相当于爱迪生发明了电灯,失败了99次成功找到了是钨丝,总成本花了100元,DeepSeek基于国内工程师红利在制作钨丝过程中改进工艺降低成本,造出了成本1元的灯泡。这两者的意义显然不可同日而语。
关于算力投资
回到训练算力消耗层面,一定是前沿探索对算力的消耗更大,因为如同科技创新至少需要做99次失败的实验,才会有成功的可能。而追赶复制的成本要低的多。所以主要大模型的进步没有到头,训练算力的投入就不会通过DeepSeek这种方式降低。DeepSeek-V3的意义在于AI商业化落地可能要比我们想的更快。
去年七月份有一篇Meta的论文也探讨了类似的话题,它是通过降低网络架构来降低大模型成本。简单的说就是摒弃传统的 GPU 间全互联范式,只保留必要的连接。因为研究发现,在训练时大部分GPU间的链路是不工作的。
论文指出减少不必要的网络连接,在不影响性能的情况下,可以将网络成本降低了 37%-75%。一时间A股也是瑟瑟发抖,ps: 美股还是一如既往的冷静。但是仔细研读论文,你会发现如何去掉这些不工作的链路,其实是在成熟的模型基础上进行优化,而不是训练前沿未知的大模型,因为你不知道哪些通路不工作。我想这就是在未知领域探索与成熟模型降本的本质差别吧。