2024年12月19-20日,以“多元重构 算力跃迁”为主题的第十九届中国IDC产业年度大典(IDCC2024)在北京首钢园(四高炉)隆重举行。在算力技术创新与应用系列论坛上,北电数智CMO、战略与市场负责人杨震发表了《从成本中心到生产力中心,智算中心发展进入新阶段》主题演讲。
杨震认为,2024年是中国智算的分水岭。在2024年之前国内智算中心建设属于“大干快上”,今年则开始持续建设和有效运营,因此,2024年起中国智能算力市场将迈向以精益化运营为特点的新发展阶段。
他指出,进入智算时代,如何建好算力只是第一步,核心还要管好算力、做好运营,同时需要训好模型、做好推理。市场需要懂芯片,懂模型与懂数据的引领者,以全面的综合运营能力,实现资源、能力与场景的闭环。
(以下内容根据杨震演讲原文整理)
杨震:各位来宾好!我是北电数智的杨震。北电数智是一家面向人工智能产业的国企。今天我带来的主题是从成本中心到生产力中心。
高歌猛进的AI产业与AI基础设施难题
不同于去年,去年大家还在说全球做人工智能就中美两个国家,今年发生了一个根本性变化,全世界都开始重视人工智能。从加拿大,欧洲的法国、德国,到东南亚的韩国、日本,跟中美一样,都以举国之力进军人工智能产业。从资金到基础设施,再到数据、人才、下游的应用,政府方给出了很多政策和资金支持。可以说,全世界已经普遍认同人工智能是第四次工业革命。
2024年,著名风投基金红杉资本的合伙人David Cahn撰文,提出了关于AI基础设施投资的“AI的6000亿美元难题”。他经过计算认为,每1美元GPU投入,需要4美元最终收入才能偿还前期投资,因此根据英伟达预计年化GPU收入1500亿美元计算,如果要收回用于大模型的巨额投资,整个AI行业需要产生 6000 亿美元的收入——2024年距离这个目标差距有5000亿。
在这种前提下,究竟最后人工智能能不能为这么大投入买单?这是一个非常关键的问题。我们细看GPU,如果是裸金属租赁的话,智算中心会越来越没有定价能力,定价能力都在使用方。同时,无论英伟达还是AMD,国内从二代卡到三代卡,迭代速度开始加快,也就是折旧空间被压缩了。
最后有一个问题,从AI的基础设施建设者和运营者来说,究竟谁能够成为最终的赢家,跑到最后?因为算力的投入非常大,在前期建设时存在一些过渡期有很好的表现。但从长线来看,无论有算力还是没算力,建或者不建新算力,AI基础设施建设运营者都面临焦虑:“没有算力的话,你觉得没有做好准备。有了算力后又会思考我的客户在哪,如何进行算力消纳。”
分水岭来临 用好算力核心要看需求
最核心的问题,智算中心分超大型(1000P以上),中大型智算中心(300P到1000P)及小型(300P以下)。不同的智算中心面对的客户不一样,但前期规划建设智算中心时大家都聚焦在大型互联网客户的预训练和海量推理需求。但这类客户的预训练一般三四个月就到头了,当预训练结束后怎么办?很多智算中心采取关机断电的方式,同时持续面临折旧的问题。它在建设时往往只聚焦要吸引大模型厂商作为客户,没有为高频推理、二次训练或微调、低频小规模推理做相应的软件层面、服务层面的准备。当大模型厂商不做预训练时,这些智算中心就面临缺乏向其他客户提供服务的能力,这就是智算中心发展困境的根因。并不是说市场没有需求,整体的需求盘子是在的,但是中腰部或小型客户租不起裸金属,它怎么使用智算服务呢?核心是,只有使用起来,最终应用侧的开花落叶和繁荣才能实现人工智能产业真正的繁荣。
因此,如果想让智算中心从成本中心变成生产力中心,在前期规划时要思考我究竟面对的是什么客户,或者不提前给自己设限,要以全盘服务能力,对任何客户都提供智算服务。前期就要看清楚客户的需求是什么样,再逐步增加算力,这是智算中心有效运营的思考,也是能持续进行建设的本质所在。
ChatGPT o1出来以后,模型行业进入了分叉路。昨天邬院士提到了端侧模型和智能体,这里有几件事。首先,大模型Scaling law大力出奇迹能不能持续呢?国外算力充足,但数据资源已近枯竭。国内某种程度不太缺算力,但是数据的问题更大,因为中国开源数据的总和只是美国开源数据集的九分之一,没有数据,怎么训模型呢?现在LLaMA新的40B模型表现竟比405B的表现还好,呈现出模型小型化的新方向。还有端侧也是一个很大的潜在市场,苹果、华为都在积极布局端侧。以及,慢思考。之前AI主要是背题海战术,未来背解题思路,不再靠数据的堆砌做智力,而靠推理链和慢思考完成,这时需要的不是训练服务,而是推理服务。这是智算中心要看的需求。
另外,随着公共数据消耗殆尽,大模型如何突破呢?专项数据握在政府手里,行业数据在头部企业手里。专业的行业模型的参数量不需要特别大,它要的是专,不要泛化能力。而且垂类模型专有能力越强时,泛化能力越弱,也只有这些专项数据能够训出好的行业模型。结合刚刚提到的二次训练的问题,当智算中心对一个千卡、万卡集群做万亿参数量级的模型训练,需要考虑结合中国的国情,怎么满足垂类模型训练的需求,同时把数据放出来。这是智算中心变成生产力中心的卡点。
进入智能时代以后,建好算力只是第一步。如何运营好算力呢?作为智算中心的运营者,要懂芯片、要懂模型、要懂数据,才能进行全栈布局,不仅是大厂客户,中腰部和小客户也都能提供智算服务,这才是关键。
北电数智是一家以建设数字中国为使命的国企,我们专注于原创性、颠覆性和引领性的科技创新。在这个前提下,我们做了几个产品:前进·AI异构计算平台、红湖·可信数据空间、宝塔模型适配平台、垂类模型矩阵,还有产品“全家桶”性质的——星火·AI算力平台,打通算力、数据、模型全栈链路。
前进·AI异构计算平台现在纳管的国产混元异构多芯算力超过500P,三重优化加速、统一通信、适配&混池、动态调整,打破生态墙,让不同的算力集群不再是算力烟囱,而能够协同作战,对外可以当做一个巨大的虚拟GPU,让客户在使用智算服务时,不需要按卡、按时、按P租用,对外提供无差异的算力服务。
为迎接推理时代,我们也做了非常多的算法调优。举例,通过我们的算法优化,首字延迟可以有10倍优化,解码延迟有10倍优化,在这些的基础上推理吞吐量可以达到81倍的提升。我们通过非常多的调度侧优化,及10套灵敏调度策略,无论是Scaling to zero也好,还是同仁提到的Continuous batch、Page attention也好,都实现了翻倍级的优化,让国产算力集群形成混合集群时,表现能够超过A100。我们已经完成了对8款国产芯片各自的三代卡、二代卡都做了相应的测试和适配,以及23款当下主流基模的交叉适配和支持,即不管用哪个模型,不需要考虑底层算力细节,客户的模型A会话调了1、3集群的能力,B会话调了5、6集群的能力,完全没有体感地在使用算力服务。这是我们在做的事情。
无论是混推还是混训,两个集群加在一起的效果,一定比一个集群效果好。按照MFU(算力模型利用率)来看,多集群在一起的MFU可以提升60%以上。对很多智算中心来说,生产效率实现倍数提升,比裸金属租赁的账户好看很多。
北电数智从2024年1月开始布局可信数据,7月份在全球数字经济大会正式推出了红湖·可信数据空间。这个产品可以说是非常顺应行业需要与政策导向:就在24年9月份,国家数据局在数博会上提出了可信数据空间是最佳路径的理念,11月底,国家发改委协同国家数据局推出了《可信数据空间发展行动计划(2024—2028年)》,提出要在2028年全国至少落100个可信数据空间,涵盖企业级、产业级和区域级。截至目前,北电数智已和中日友好医院联合打造完成了医疗可信数据空间,以及“樱智大模型”及多款Agent医疗助手应用,很快还将在北京再落地一个可信数据空间案例。
刚刚提到建好算力,无论是芯片、网络、存储等关键组件,都是建好算力的事情。我们同时还要管好算力,通过前进·AI异构计算平台,还有宝塔·模型适配平台,在芯片和模型之间交叉适配,以及不同的芯片和主流开发框架之间的交叉适配。这是管好算力。之后是做好运营、训好模型、做好推理,通过训推平台、可信数据空间和垂类模型解决方案来支撑。通过上述这些的叠加,智算中心才能够对大中小型的客户提供无差别的全方位的智算服务,真正让智算中心变成生产力中心。