要点(文末有彩蛋)
1、DeepSync模型发展历程
2024年模型发布与升级:今年发布了V2版本,并在九月份升级到V2.5。11月下旬发布了RE Light模型,RE的正式版预计会在一月份或二月份发布。
AI搜索布局与开放:从今年夏天7、8月份开始在AI搜索上布局,11月份AI搜索的能力同时向C端和B端开放。
多模态模型研发:从去年第四季度就有内部多模态模型,今年五月份后在图文和视频模型上有研发,但未对外公开。
V3模型研发情况:原计划V3模型在12月初上线,但因OpenAI发布GPT-4后,内部技术迭代将部分精力调往推理模型,导致V3模型发布推迟,最终在年底前发布。V3模型预期达到业界前沿水平,其训练总成本下降有多种因素。
2、算力与API调用情况
算力池情况:能够触达到的算力池接近于万卡集群,不同团队使用的卡有所不同,视频团队、AI搜索团队、V3团队在同一池子里跑,部分高等级模型有专门卡口。当前算力卡主要是A卡,A100、A800都有,H800卡有接近4000张,优先训练任务在H800上跑。
API调用量:deep learning的主要API调用中,B端用户日均调用量在2.5到2.6亿次,近两个月增长较快,C端用户日均调用量维持在千万级。
3、数据情况
数据量与变化:从今年夏天训练V2.5版模型时,数据量已达11到12万亿tokens级别,V3数据与原生数据变化不大。数据端的主要变化包括增加数学和代码数据(部分外采),以及合成数据(通过多种方式生成)。
数据作用与创新:内部评估数据对训练成本降低有一定作用,但不是最关键因素。关键变化包括全流程采用FP8混合精度训练、使用多token预测、模型训练收敛超出预期、在损失函数中引入动态调整偏差项、采用FIM策略提升代码能力等。
数据通用点:在主流中文和英文公开数据用尽的情况下,会增加一些比例的全球语料,让大模型将知识点内化为知识,以便用其他语言输出。
4、模型算力消耗与推理成本
RE模型算力消耗比例:以RE lite的经验来看,预训练阶段在总体算力消耗中占比较大,至少75%,V3模型预训练时间占比达92%-93%。PRM训练可独立进行,占剩下的10%左右,MCTS的推理和搜索占比15%左右,该比例在R1正式版训练完成后才能更精确评估。
R1系列推理模型成本差异:RE正式版的推理成本预估与V3差不多,lite版本参数量小,推理成本也小很多。推理模型面临语料问题,数据消耗大。在硬件层面,V3训练使用H800集群,flash attention的V3版本可提升推理速度和能力,降低成本,若使用新显卡如GH300,显存和卡间带宽提升,训练和推理成本可能大幅下降。
5、模型训练优化与稳定性
训练过程优化:在V3训练中,维持了相对保守的MoE架构,采用了内存优化(将指数加权平均参数存储在CPU内存并异步更新)、多token预测训练时的参数共享、混合精度训练(挑核心组件保持高精度)、微调正则化和投影参数等策略,使模型训练更稳定,同时节省显存、加速训练。
训练集群选择:在2000张H800上进行训练,适当缩小训练集群,以降低系统部署复杂度,避免过多数据并行和模型并行对大模型收敛的不利影响。此次训练顺利,超出预期,相关经验将用于后续研发,且大模型参数量提升后具备更强鲁棒性。
6、模型换代与算力展望
2025年上半年展望:AI搜索和多模态的算力需求明年变化不大,通用模型和B端用户垂直模型的算力需求预期增长在4000张卡以内,上限为50%,会贯彻混合精度训练,同时有新的算力需求,如R2推理模型、3.5及4.0版本模型。
7、模型的网络与计算协调创新
减少管道气泡:通过双向管道算法,以50%的比例降低同一节点内多卡GPU之间的通讯操作。
Q&A
Q:DeepSync在AI模型方面的整体布局是怎样的?
A:从2024年开始有几个关键节点:今年发布了V2版本,9月升级到V2.5;公司最大投入在传统语言大模型,早期基于对话的Chat模型和写代码的Coder模型在B端应用是分开的,C端网页展示的是部分模型的对外开放;在金融大模型上有垂直研发和训练;从今年7、8月开始在AI搜索上有布局,11月AI搜索能力向C端和B端开放;多模态方面,去年四季度有内部图文模型,今年五月后内部有图文和视频模型研发,但资源倾斜和投入精力不算大;核心是V3模型,原计划年底上线,因OpenAI发布GPT - 4抽调精力而推迟,11月下旬发布了RE Light模型,内部RE正式版预计1月或最晚2月发布;第四季度更多团队精力在RE模型和V3上。
Q:V3模型训练成本低的原因是什么?
A:一方面是有核心创新和科技,带动训练成本大幅下降;另一方面五百多万美金的训练成本是在模型定型、内部初步测试结束后真实启动训练的结果,比预期好,有研发技术因素,也有一定的幸运因素;V3架构的创新未来会指导后续3.5模型优化和促进推理模型进展。
Q:目前的算力、API调用情况以及相关费用是怎样的?
A:能够触达到的算力池接近于万卡集群,不同团队触达的卡不一样,有纯粹算力池的卡,也有针对高等级模型的专门卡口,当前算力卡主要是A卡,包括A100、A800,H800卡接近4000张,最优先训练任务多在H800上跑;当前deep learning的主要API调用90%多在B端用户,11月份不到95%在B端用户,按11月量算,B端用户日均调用量2.5 - 2.6亿次且在增长,C端用户在增长但维持在千万级调用量。
Q:V3模型中数据方面的情况,包括高质量数据情况、内部做数据的团队数量以及与原有模型在数据方法上的不同点?
A:
Q:从V2.5版模型到V3版模型,数据端有哪些核心变化?
A:从数据端的核心变化主要有两块。一是增加了更多数学和代码数据,数据来源一方面有采购,包括与数据合作方采购以及选取国内过去15年左右高中生数学联赛题目等;另一方面部分数据是训练R1模型时共用的数据。二是合成数据部分,包括用GPT - 3的API进行知识蒸馏产生少量样本、自己训练PRM模型和MCTS架构采样原始数据四倍多的数据量、通过O1模型蒸馏等方式获取,合成数据主要用于数学和编程领域,其他学科数据量相对较少。
Q:合成数据具体是如何产生的?
A:合成数据产生方式较为复杂,一方面会用GPT - 3的API进行知识蒸馏,产生两三万条样本;另一方面用自己训练的包括PRM模型和MCTS蒙特卡罗搜索树架构采样大概原始数据四倍多的数据量。还包括基于O1模型的蒸馏,以及训练过程奖励模型(PRM),针对老的有标签数据额外生成合成数据。
Q:数据端变化对训练成本降低有何作用?
A:数据端变化对训练成本降低有一定作用,但作用相对靠后,最主要的数据还是通过模型合成的。
Q:在训练总成本下降方面,有哪些关键变化?
A:关键变化包括:一是在参数量达600亿以上级别的模型全流程采用FP8精度训练,降低算力和成本消耗;二是使用multi - token prediction(多token预测),减少训练轮次,使模型更快达到预期能力;三是模型训练收敛超出预期,在6 - 7周训练时间内基本没有经历回滚或checkpoint二次迭代;四是在V3版本中不在损失函数额外增加惩罚项,而是引入动态调整的偏差项,降低模型抖动;五是在增加模型代码能力方面采用FIM策略,提升模型在代码层面的能力,缩短模型达到预期能力的时间。
Q:当前版本在合成数据上的主要发力方向是什么?
A:主要发力方向包括基于O1模型的蒸馏,以及训练自己的过程奖励模型(PRM),训练完成后针对老的有标签数据额外生成合成数据。
Q:在公开数据用尽的情况下,数据端有何通用做法?
A:会增加一定比例的全球语料,让大模型将知识点内化为内部知识,后续可以用其他语言输出学会的知识。
Q:在RE这种类OE的模型中,比如合成数据的PRA模型MCTS,在预训练、强化学习等各部分的算力消耗比例大概是怎样的?(包括从OpenAI的OE或者Google以及整个业界来看)
A:以目前跑RE lite的经验来看,在预训练阶段算力消耗占比较大,从总体算力消耗角度评估,预训练阶段至少占据75%,不过其预训练时间占比相较于通用模型已减少很多;从V3模型角度,整个预训练时间占比约为92% - 93%,而在推理模型上,预训练阶段比例会被压低到75% - 80%。PRM训练阶段在训练阶段可独立开,若算上其训练时间,PRM部分算力消耗约占10%,剩下约15%用于包括MCTS的推理和搜索。但内部更精确的评估需在R1完全版训练定下来后才有结论,因为目前RE lite模型参数量为两百多亿,相对较小,正式版会提升几倍参数量,但无法猜测OE模型和O3模型参数量,若其参数量很大,RE lite上的结论可能不可靠。总体而言,推理模型预训练阶段占用的算力(GPU小时)比例比正常通用模型少约15%。
Q:R1系列(包括RE lite)的推理模型与V系列模型的推理成本差异如何,这种差异有多少来自模型架构?
A:当前RE lite即使在一到两个月后发布完整版,其模型参数量与V3相比仍有数量级差距,约为60B和600多B。RE的正式版推理成本预估与V3差不多,因为推理过程消耗的总token数及推理时间与V3相近,但lite版本因参数量小所以成本低。
Q:从deep的RE lite来看,如何实现类似OpenAI最新O3通过多算力消耗获得更好成果的能力?
A:跑推理模型时,数据消耗较大,因为现有语料存在问题,很多语料只有问题和答案,中间的推理过程及失败尝试的数据缺失。
Q:关于整个推理模型的处理算力消耗、推理算力如何scale以及推理算力消耗是否需要新的硬件架构?
A:2024年5、6月份出现的新加速算法flash attention V3版本,在H系列显卡上可使模型推理速度平均提升2 - 3倍(内部测算V3模型效率提升约2.1倍,RE模型提升约1.8倍),成本降低约50%,但在A卡(如A100卡或A800卡)上做不到成本下降。2025年后关注到的GH300等新显卡显存更大、卡间带宽更高,有利于做推理模型,若单显卡显存大幅提升,可能会使训练和推理成本有几倍的下降。目前RE完整版技术路线以MCTS搜索树为主,未来R模型在算法架构和数据端可能会有提升和新策略讨论。
Q:当前这一系列的MCTS模型(包括阿里相关的MCP模型)主要在哪些芯片上跑,算力需求大概是什么量级?
A:当前技术路线没有大量用到CPU和GPU搜索,在当前AI策略中调用相对较少,未来角度看这可能是个待定问题。
Q:在V3的训练过程中不涉及大量回滚checkpoint的情况下,是因为用卡规模相对较小,还是工程角度训练过程的优化,还是其他原因?(考虑到海外大集群训练中单率较高)
A:主要有以下几方面原因:一是从MoE架构角度,采用了相对保守的策略,在参数量大幅增加的情况下,依然保守维持256个路由专家;二是在内存优化方面,将指数加权平均的EMA参数存储在CPU内存中,每次训练后进行异步更新,既优化内存又提升模型稳定性;三是在多token预测训练时,对浅层embedding层和深层output层的参数进行共享,节省显存且让模型更稳定;四是在FP8混合精度训练时,挑选核心模块保留FP32或BF16高精度,其他部分用FP8格式,节省显存、加速训练且让模型更稳定;此外,还对RMSNorm的正则化参数、EMA上的投影参数等按经验微调。同时,训练集群适当缩小,利用H800模型优势,采用混合精度训练等多种策略,此次训练顺利且超出预期,且模型参数量提升后具备更强鲁棒性。
Q:对于模型接下来换代时,模型训练算力的scale展望如何?比如2025年打算在多大集群训练,训练出多少亿参数规模?
A:不是走一步看一步,2025年上半年有展望,下半年因AI变化快暂不做长远规划。2025年上半年,从四条业务线看,AI搜索算力消耗和研发团队对算力需求无变化;多模态暂时也无太大变化,若视频有新突破,算力增长预期在500 - 1000张卡以内;通用模型(包括推理模型)和B端用户垂直模型预期增长在4000张卡以内,不会有太大增长,上限约为50%,因V3模型成功未来会继续贯彻混合精度训练,且明年上半年对R2推理模型、3.5模型、4.0版本等有更多算力需求。
Q:V3模型中使用的双向管道算法具体是如何减少管道气泡的,以及在训练实例中该算法使计算和通信效率有多大程度的提升?
A:为减少管道气泡,主要是减少底层的all-reduce方面的操作。因为同一个节点里的多卡GPU之间存在大量通信,通过双向管道算法后,能以50%的比例降低它们之间的通讯操作。另外,双向管道算法属于系统团队的创新,关于更多细节不太清楚。
Q:在跨节点通信优化方面,V3是如何充分利用H800的NVLink通讯速率和InfiniBand的通信带宽的?
A:这是系统团队负责的工作,从技术角度来说,是两个团队负责的不同事务,对于其中特别细致的改动了解不算太多。
Q:在V3模型实例中,一个H800里分配了多少个SM负责通信?
A:不太清楚系统层面的这个细节。
Q:对于几万卡集群的中断问题,是可以通过技术手段解决只是需要时间,还是受命运定律影响很难解决?
A:从当前技术层面信息以及系统团队消息来看,随着时间推移,未来扩充到万卡集群甚至更大规模时,这个问题是可以解决的。目前使用较小算力群,是希望通过软件和算法手段提升模型能力,未来卡数增长会使模型能力有更大提升。且从OpenAI的情况来看,暂时没有因卡数多导致通信、训练不稳定无法解决的失败例子。
加微信领取星球优惠