Deepseek V3模型解读:算力不再关键了吗?

百科   2024-12-29 20:29   浙江  

独角兽智库 产业研究第一智库

独角兽投研情报群招募

独角兽智库发展至今,历时9年,积累了大量资源,也和顶尖投研资源形成了利益共同体,并经过今年近一年的产品测试,小范围会员服务近两年。

十一月精准把握住了固态电池、AI+等板块机会,个股桂发祥、华胜天成、供销大集

现开放体验名额,加微信:itouzi8888,文末有二维码


12.26日晚,全新大模型Deepseek V3上线,拥有671B参数,训练数据14.8T 高质量token,训练成本极低,仅为557.6万美金,整个训练只需要280万个GPU小时,而LLama 3(405B)使用了3080万GPU小时,几乎是Deepseek V3的11倍,相比较来说Deepseek V3的参数量/训练成本的能效极高,训练超大模型的成本极低;


#DeepseekV3如何用极低的成本实现超大规模的模型训练?

1)模型架构的差异:

-- OpenAI和Claude普遍采用稠密的Transformer架构,需要在每个前向&后向过程中激活并更新全部参数,因而在大规模预训练时对算力与显存的需求非常高;

-- Deepseek V3采用的是稀疏的MoE(Mixture of Expert)架构,在推理或训练时只会激活少量参数(5%~10% 参数量),有效减少每次前向&后向的计算量,显著降低整体训练开支;

2)精度差异:

-- OpenAI和Claude等模型在训练过程中多采用FP16精度,兼顾数值稳定和计算效率;

-- Deepseek V3 采用了FP8 混合精度训练,从而将单位 GPU 小时的计算利用率推到更高水平,这也是其大幅缩减成本的重要原因之一,但工程复杂度与数值稳定风险也更高;

3)数据质量差异

-- OpenAI和Claude等模型采用的训练数据规模和质量更庞大、更多元化,且在RLHF(人类反馈强化学习)环节上投入很大,这部分也会增加不少成本;

-- DeepSeek V3 数据规模也很大(14.8T tokens),但对质量与重复度进行严格筛选,加之后训练与蒸馏策略做了优化,减少了对额外 RLHF 资源的依赖;

4)算法优化

-- OpenAI和Claude等模型通常拥有定制化的大规模 GPU/TPU 集群(甚至专用硬件),在软件栈、集群管理、数据管线方面投入巨大,但也会带来较高的运营成本;

-- DeepSeek V3 则通过在算法与工程侧的深度耦合,把相同的算力资源利用率最大化;


#算力不再关键了吗?

1)我们认为Deepseek V3通过稀疏的MoE的架构结合FP8的精度来极大的降低训练成本,但在通用性、稳定可靠性上还没有充分得到证明;

2)算力依然关键,同时架构和数据的重要性凸显,大模型厂商通过优化架构算法和提升数据质量,可以将同样算力发挥更高效的作用;

3)大模型训练及推理测需求在持续提升,需要大量的算力资源,Deepseek V3的出现将推进算力高效利用的趋势,算力、架构及数据的重要性同样重要;

4)全球及国内云厂商仍将加大投入推进大模型的训练及推理,高性价比的模型将成为产业链的长期趋势。


#和国内外产业讨论了下,仅参考:

1、DEEPSEEK V3 编码和数学效果很好,超过O1之前的标杆sonnet3.5(CLAUDE)其他也还可以,但不一定超过sonnet 3.5。离O1、O3纸面上看差距还是不小。

2、特定领域实现了很好的数据优化,实现了细分应用比较好的效果和训练性价比。目前看如果相对明确的技术路线参考,不做特别多探索性工作的话能用有性价比的方式达到很好的效果。

3、国内基础模型剩下的几大核心厂商对海外市面上发布的模型都有一定的跟随能力,可能无法预计的是尚未发布的模型。

4、从O3体现的超强能力(纸面仍然领先幅度较大)和训练(预训练、后训练规划10万卡集群)、推理(高阶一个复杂点任务几千美金);另外目前模型离高准确度通用应用还有较大距离,算力爆发逻辑没有影响。


#其他观点汇总:

A:

幻方这消息纯粹就是断章取义。训练一个671B的moe模型,而且用了fp8的架构,来达到gpu耗时数的下降,幻方在技术上确实牛。但幻方在训这个模型之前,是用了他们自己的r1模型(对标op­e­n­ai o1模型)来生成数据的,这个部分的反复尝试要不要算在成本里呢。

且不算前面那笔糊涂账,单就在训练上做降本增效这件事,这不代表推理需求会下降,只代表大厂可以用性价比更高的方式去做模型极限能力的探索。应用端只要有增长的逻辑,推理的需求依然是值得期待的。

B:

-训练只有一次,推理是无数次。推理需求实质上远大于训练需求,尤其是用户基数大了。

- De­e­p­s­e­ek是站在巨人的肩膀上,使用大量高质量合成数据。

- De­e­p­s­e­ek这个统计口径只计算了训练,但数据的配比需要做大量的预实验,合成数据的生成和清洗也需要消耗算力。

- De­e­p­s­e­ek的模型的MoE每个专家都可以单独拿出来训练,本身相比于de­n­se架构就是省力一些的方案。

-人人都超越了GPT 4o,ll­a­ma 3天天被踩在脚底下,消费者和企业界实际使用用的最多的还是这两个模型。这些宣传的成绩未必可靠。

C:

1,FP8的训练本身就不怎么耗资源,而且DS这个是“设定”好的大模型训练,就是已经限定了大模型的能力,这样减小了很多不必要的消耗。

2,Op­e­n­AI和An­t­r­o­p­ic这样的在训练新东西、新能力,走弯路的消耗量可能百倍千倍于最后那个正确路径。就好像看过几遍答案,水平很一般的学生也能在1小时内把高考数学卷整出满分,或者接近满分。一份试卷做过越多次,速度越快,搞不好30分钟就能满分…DS这个模型加入了很多“设定”因素,就是知道这样有效,有利于提高推理能力。

3,模型能力追求的是“通识能力”,为了能考个好成绩,该读的3年书谁也躲不过,现在算力和数据无非就是想卷这个时间缩短。大模型通识能力上限太高了,卷算力才刚开始,谁犹豫,谁质疑,谁掉队。

4,另外就是多模态和具身智能的接口。GPT-5难产有个很重要原因就是GPT-5要有开放机器人模态的潜在能力,就是能处理物理世界数据。这玩意儿也是全新的,超越了现在大模型的能力。


现开放投研情报群体验名额,更多投研情报服务,请往下看



独角兽投研情报会员服务

服务概述

现在的A骨市场,风格切换极快,不论是做赛道成长、风口波段、价值投资、龙头打板、技术短线都处于短暂有效,大多数时间亏损的情况,只有一点持续有价值,那就是快人一步的信息,这种信息不会是财联社的新闻,不是知识星球的调研纪要、更不会是公社的吹票逻辑。

服务主旨

提供各种快人一步的投研信息,让你明明白白知道盘中异动。

情报来源

独角兽智库投研情报团队已经根植在大A各个生态阶层:

1:公募核心圈,提前获取公募看好的大方向和主攻领域。

2:券商分析师圈,深入各大券商核心客户群,提前获取券商主推逻辑。

3:游资核心圈,在游资大佬的小圈子有一席之地,提前获取大资金动向。

4:产业链圈,各个新兴产业技术核心圈子,提前挖掘技术变革推动的A股炒作逻辑。

服务内容

1、大资金抱团动向

2、集合竞价龙头早知道

3、先手小作文

4、券商主推方向及逻辑

5、市场的机会和风向提示

6、个骨和行业避雷

服务方式:

微信群--只有微信群的消息才可以做到第一时间的信息传递。


现开放体验名额(非免费,白嫖勿扰)


加入体验方式(如果您关注短线交易)

请加微信:itouzi8888,备注:体验+姓名+公司+职位

如果您关注基本面,做波段或者价投

请加微信:itouzi5,备注:体验+姓名+公司+职位

群内其他历史记录如下,可自行验证其情报的价值,有投研情报群历史聊天记录的截图,在盘后都会截图并且发在当天文章内,请查看历史文章验证(11月份精选情报)































防止失联,关注备用号



独角兽智库
通过深入的产业链研究,为投资者赋能。
 最新文章