DeepSeek表现对算力需求到底有无影响

财富   2024-12-30 22:14   广东  
股票投资
及时获取一线资讯至关重要
加入星球,您能够第一时间获取
最新市场动态政策解读、机构调研纪要
助您做出更明智的投资决策
星球已收录10W+机构投研资料

1、DeepSeek v3训练成本分析(文末有彩蛋)

  • 整体训练成本较低:DeepSeek v3大模型整体训练成本约为557.6万美元,远低于其他同类大模型。训练阶段分为预训练、上下文拓展、后训练三个阶段,通过详细计算各阶段GPU小时耗费,加总得到总训练时间约为278.8万GPU小时,假设H800 GPU租用价格每小时2美元得出该成本。

  • 实际成本可能更高:DeepSeek v3的技术文档中模型训练成本未包含模型架构设计、算法优化或数据处理等前期研究以及消融实验的费用,所以整个训练过程的实际成本或许比技术文档中披露的要多。


2、DeepSeek v3降低算力成本的方法

  • 沿用前代架构优化:DeepSeek v3沿用前代的MLA(多头潜在注意力机制)和自研的DeepSeek MOE架构,MLA架构可降低推理过程中的KV缓存开销,MOE通过动态选择并激活部分专家降低计算开销,通过专用和共享专家显著提升模型稀疏程度。

  • 采取多种优化措施:包括多专家混合架构(MOE的优化)、多头潜在注意力机制(MLA)、多令牌预测(MTP目标)、高效的训练框架设计以及FP8混合精度训练框架等,从不同方面提高计算效率、增强预测能力、优化内存占用等。


3、DeepSeek v3应用和部署阶段算力需求

  • 推理阶段算力需求:在应用和部署阶段所需算力差不多在数百块的H800,其中推理阶段最小部署单元需要大概四个节点,每个节点配备8个GPU,算下来共需要32个GPU。

  • 解码阶段算力需求:解码阶段最小部署单元需要40个节点,每个节点配备8个GPU,共需320个GPU。


4、DeepSeek v3算力成本降低原因总结

  • 训练方法优化:DeepSeek MOE通过参考各类训练方法优化得到,如FP8混合精度训练框架通过对算法及硬件协同设计,克服通信瓶颈,实现加速训练,降低训练成本,能扩大模型规模。

  • 架构降低开销:采用的MLA架构可以降低推理过程中KV缓存开销,其训练方法在特定方向上的选择,使得算力成本有所降低。


5、DeepSeek v3对大模型行业的影响

  • 探索商业化方向:以大规模通用模型为基础,聚焦特定领域,突出自身特点的模型应用开发或是下一阶段商业化探索方向,为未来大模型技术发展提供启发。

  • 降低商业化成本:未来或发展更具特色、成本更低的模型,适合具体应用场景,随着特色模型成熟,AI商业化边际成本有望降低,迎来更广阔应用前景。

6、DeepSeek v3相关风险提示

  • 技术追赶和竞争加剧风险:DeepSeek采用的MLA和MOE架构训练方法为其他大模型开发提供技术参考,国内AI大模型或结合自身特点加强数据利用和模型优化效率,加剧行业竞争态势。

  • 商业化成功不确定性风险:由于下游生态和使用环境的差异,商业化成功存在不确定性;AI生成内容存在知识版权纠纷风险,目前国家未出台相关法律法规明确界定,或给研发团队带来法律风险和不确定性,影响AI应用开发和推广。

  • 加微信领取星球优惠

股市调研
投资必备利器,每日更新上市公司、产业专家调研纪要。
 最新文章