DeepSeek核心十问十答

百科   2025-02-06 23:05   黑龙江  

独角兽智库 产业研究第一智库

独角兽投研情报群招募

独角兽智库发展至今,历时9年,积累了大量资源,也和顶尖投研资源形成了利益共同体,并经过今年近一年的产品测试,小范围会员服务近两年。

十一月精准把握住了固态电池、AI+等板块机会,个股桂发祥、华胜天成、供销大集

现开放体验名额,加微信:itouzi8888,文末有二维码


1、模型发展与用户增长

模型迭代迅速:DeepSeek基于开源模型路线发展,2023年11月2日开发首个大模型,之后陆续推出以LLaMA和MoE架构为主的通用大模型以及多模态模型。其迭代速度较快,平均三个月有一个中大型版本更新,最长不超六个月。这种快速迭代使模型能紧跟技术发展,不断优化性能,满足用户和市场的新需求。

用户量增长显著:在推出API的V3.2.1版本后,DeepSeek的日均下载量增长迅速。在2024年GPT - 4推出前,访问量约200到400多万。春节期间后,月活达到1500万,且在发布第18天就实现这一成绩,相比ChatGPT上线244天才达到1500万DAU有大幅提升。这表明DeepSeek在用户获取方面成效显著,反映出其在市场上的吸引力和竞争力不断增强。

2、模型性能表现

单模态推理能力出色:DeepSeek的RE在推理能力上基本与OpenAI GPT - 4相当,完整版GPT - 4仍有差距。在教育导向的知识任务中能达到90.8的标准,优于V3;中英文搜索和数据分析方面,在无安全RE的情况下准确率达70%;数学能力与GPT - 4相当,优于其他非推理模型;编码能力也有较高分数。在与多个版本模型对比中,英文、代码、数学及中文能力优秀,尤其数学和中文能力明显领先。

多模态能力良好:春节期间推出的多模态模型在多模态基础理解、模型生成的视觉编码流方面表现较好,图文生成能力在密集指令阶段出色。R1已达到OpenAI的O1水平,较O3模型虽有差距,但在O1端实现突破。多模态模型的良好表现证明了DeepSeek图像理解和生成解耦思路的可行性,为模型发展提供了新方向。

3、训练成本优势

成本大幅降低:根据公开资料,通用及推理模型成本较OpenAI的O1同类型成本下降接近十分之一。例如,DeepSeek V3的token收入变为0.5,每百万token为8;R1的API每百万输出模型为16元,而OpenAI的O1每百万输出模型为60美元。V3总训练成本557.6万美元,以H800算力计算,训练阶段不到两个月,耗时266.4万个GPU小时,加上其他需求共278.8万个GPU小时;而O1按2.5万张卡A100计算,至少需3.2万张卡90天。

成本降低原因:DeepSeek通过多种方式降低训练成本。采用DeepSeek的MOE架构,用更细粒度专家模型和稠密模型提高计算利用率、减少激活参数量;V3模型采用MILA算法,通过机制联合压缩助力域限制减少TPU缓存、降低计算量;硬件端框架实现流水线定型,提高GPU应用速度;采用FP8数据格式进行细颗粒度混合精度框架提升训练效率。

4、技术架构创新

核心技术优势:V3的技术革命核心是多头注意力模型MHA,其通过投影方式存储token信息,减少缓存需求,降低内存消耗。MoE模型利用门控技术判断专家参与情况,采用更细粒度专家隔离共享专家,解决专家模型复杂不平衡问题,提升效率并积累参数进行推理。MTP模型将多单token生成转为多模token生成,优化算法,通过增加额外token保证因果性,提升训练效率。

架构优化策略:V3在访问技术架构上进行优化,设计并行管道,通过前后向计算和通信叠加提升效率;采用FP8混合训练架构,关键战略用原始数据训练保持稳定,其他采用汇编代替标准扩大方案实现硬件优化、减少冗余。RL证明纯强化学习对模型推理能力有提升作用,能解决大模型幻觉问题,还为scaling law提供新思路,未来可能成为模型核心训练思路。

5、数据层面特性

合成数据广泛应用:在大模型训练中,合成数据重要性日益提高。以GPT - 3为例,监督微调阶段借助RL模型生成的样本数据筛选高质量数据用于训练;推理训练阶段,RL冷启动利用RL - zero生成和人工标注微调,微调阶段使用大量相关样本;小模型蒸馏和多模态模型也广泛使用合成数据。这表明合成数据在模型训练各阶段都发挥着重要作用。

合成数据应用趋势:合成数据的应用符合新研究趋势,通过自适应策略优化算法,纯强化学习摆脱人类经验限制,挖掘数据价值,助力模型向AGI进化。未来合成数据在数据集中占比将越来越高,其应用将推动模型不断发展和优化,为模型性能提升提供有力支持。

6、Scaling Law分析

Scaling Law有效性:Scaling law仍然有效,但线性有效性因稠密模型发展和训练工程化优势提升而改变。目前scaling law在训练侧面临高参数训练复杂、算力规模及报错率、数据集缺失等瓶颈。不过在MOE架构和并行计算加持下,大模型参数达万亿之上仍有惊人效果,通过思维链方式打开了推理大模型能力提升空间,推动厂商进行推理扩展。

Scaling Law持续性:在DeepSeek v3中,核心是test time scaling,强调在推理阶段合理调配资源,将思维链问题分解逐步解决,使模型思考更深入,性能更强。Scaling law通过自我强化学习路径和test time scaling在推理阶段的落地,增加了对推理算力的需求,虽在低算力低成本下可提升模型效率,但从长远看,对推理算力需求依然较大。

7、产业影响与趋势

AI平权与合作:DeepSeek的出现体现了开源社区的阶段性胜利,一定程度上证明了AI平权。其开源权重型代码和因子权重公布后,全球前沿团队积极复现并取得成果,如UC伯克利团队、港科大等。全球大厂纷纷接触DeepSeek,国内华为云、寒武纪等也与其展开合作,这将推动AI技术的广泛应用和发展。

产业各层变化:基础层方面,小模型蒸馏能力强,催化下游应用产能,算力需求旺盛,国产算力自主可控重要,推理需求增加会使市场规模和销售收入上升;模型层方面,国内大模型月活持续增长,DeepSeek促使模型厂商加快推出新产品;应用侧方面,AI价格下降激发开发者使用和开发模型,模型效果提升促使各厂商降本,数据端凸显高质量和合成数据的重要性。

8、投资方向建议

算力相关:当算力需求系数大于一,即使收费成本下降,总收入仍会快速上涨。因此要关注国产算力和以AI推理需求为核心的算力环节,特别是围绕IDC、服务器、国产芯片等配套产业的公司,这些领域有望在AI发展中受益。

应用与端侧:应用端,B端关注以agent为核心,OA和ERP作为入口的赛道,以及用户数量多、生态好、可云化的软件公司;C端关注垂直领域用户数量多的公司。端侧,教育领域可能率先落地小模型部署,关注相关受益公司,以及AI新终端的供应商和核心供应商。数据方面,关注向量数据库、数据处理类及具备行业数据处理能力的公司。

现开放投研情报群体验名额,更多投研情报服务,请往下看

独角兽投研情报会员服务

服务概述

现在的A骨市场,风格切换极快,不论是做赛道成长、风口波段、价值投资、龙头打板、技术短线都处于短暂有效,大多数时间亏损的情况,只有一点持续有价值,那就是快人一步的信息,这种信息不会是财联社的新闻,不是知识星球的调研纪要、更不会是公社的吹票逻辑。

服务主旨

提供各种快人一步的投研信息,让你明明白白知道盘中异动。

情报来源

独角兽智库投研情报团队已经根植在大A各个生态阶层:

1:公募核心圈,提前获取公募看好的大方向和主攻领域。

2:券商分析师圈,深入各大券商核心客户群,提前获取券商主推逻辑。

3:游资核心圈,在游资大佬的小圈子有一席之地,提前获取大资金动向。

4:产业链圈,各个新兴产业技术核心圈子,提前挖掘技术变革推动的A股炒作逻辑。

服务内容

1、大资金抱团动向

2、集合竞价龙头早知道

3、先手小作文

4、券商主推方向及逻辑

5、市场的机会和风向提示

6、个骨和行业避雷

服务方式:

微信群--只有微信群的消息才可以做到第一时间的信息传递。


现开放体验名额(非免费,白嫖勿扰)


加入体验方式(如果您关注短线交易)

请加微信:itouzi8888,备注:体验+姓名+公司+职位

如果您关注基本面,做波段或者价投

请加微信:itouzi5,备注:体验+姓名+公司+职位

群内其他历史记录如下,可自行验证其情报的价值,有投研情报群历史聊天记录的截图,在盘后都会截图并且发在当天文章内,请查看历史文章验证(11月份精选情报)































防止失联,关注备用号



独角兽智库
通过深入的产业链研究,为投资者赋能。
 最新文章