竞争加剧,智算中心需要深耕细作:从算力租赁到算力服务

科技   2024-10-30 16:03   北京  

编者按:
智算中心算力租赁业务如火如荼,原因在于智算算力的“供不应求”。这是一个比较特殊的局面,一方面受美国芯片禁令影响,一方面受大模型快速兴起影响。
随着国产算力芯片逐渐跟上,也随着大模型市场逐渐成熟,智算算力也会像传统通算一样,变成供大于求(据了解,智算中心供大于求的局面,在今年已经开始显现)。
智算中心,未来该如何发展?这篇文章,我们一起探讨。

01 智算中心行业现状


1.1 推理成本决定大模型最终的胜利


AI大模型如火如荼,国内目前的现状可以总结如下:
  • AI大模型训练相对较少,仅有屈指可数的几个大厂可以做(训练)自己的模型。而更多的公司则主要是基于开源大模型来完成自有AI推理和应用。
  • 大模型应用,没有技术门槛。目前,大模型应用还没有规模化落地的案例,但可以确定的是,一旦有爆款的应用落地,必将有无数个类似的应用迅速出现。应用创新不是决定大模型成功的核心因素。
  • 大模型时代,跟之前的移动互联网时代最大的不同在于:

    1. 移动互联网时代,谁获得用户和流量,谁就能获得成功。底层逻辑是移动互联网的系统边际成本很低。因此,“通过免费吸引客户,然后再获取收益”,成为了最典型的商业模式。
    2. 而大模型时代,底层逻辑发生了很大的变化。大模型时代,系统的成本几乎和客户使用量成线性关系,也即是每次服务都有不菲的成本,边际成本依然很高。这里的成本绝大部分来源是推理的算力消耗。在大模型时代,谁能把推理成本降到极致,谁就能获得最终的胜利。


    1.2 国产算力产业链耦合性高,落地难


    目前,国产GPU/AI算力芯片公司的落地难度非常高,国产芯片想进智算中心,就必须帮智算中心找到最终买单此芯片和设备的最终客户公司。从芯片公司、智算中心、模型公司,再到最终的业务客户,整个链条紧密耦合。只有把链条打通,才能开始一个智算中心项目建设。
    “想要吃国产面包,就必须从种小麦开始”,需要国产算力的时候,通常需要从0-1建设智算中心。这是目前整个行业的困境。
    从成熟产业链来说,整个产业链需要解耦,每个链条需要标准化交付。智算算力,需要像传统公有云一样,实现算力的标准化、服务化,达到随用随取。
    像通算一样,智算也会云化,智算算力随时随地可获取。

    1.3 投入大,利润低,风险高


    目前,一个典型的2000P的智算项目,投资大约10亿左右,其中绝大部分是硬件设备的投入。智算中心是重资产行业,虽然智算中心投入巨大,但仅能获取非常微薄的利润。核心原因在于智算中心距离最终的业务场景非常远,在产业链里话语权较低。
    智算中心,要想获得更多的收益,则需要深耕算力行业。为客户提供更多的附加价值,才能获取更多的市场份额和行业利润。
    智算中心,需要从算力租赁模式,转型到算力服务模式。

    1.4 大客户压价严重,小客户不确定性高


    一方面,大客户压价严重,巨量投入利润微薄。另一方面,小客户不确定性高,可能导致算力闲置率高。从而使得智算行业利润微薄,不确定性高,投资风险大。
    从健康的业务模式来说,智算中心需要:
    • 需要实现算力服务化,既能服务大客户,也能服务长尾小客户。
    • 提供更多的能帮助业务落地的服务和解决方案。
    • 算力需要接入更多的算力(运营)网络,拓展更多的市场渠道。
    • 等等。


    1.5 算力租赁模式,不是长久之计


    目前,智算行业的业务模式主要是裸机租赁。租赁模式发展的核心原因是算力供不应求。而供不应求的大背景是:美国芯片禁令和大模型“刚刚”兴起。
    从行业发展情况来看,普遍的观点是:智算算力供不应求局面持续时间不超过3年。
    随着大模型逐渐成熟,也随着智算算力价格持续回归,智算的算力供应会逐渐供大于求。
    当然,大模型仍在快速发展,大的行业背景仍然是算力需求快速增长,这和算力“供大于求”的情况并不矛盾。行业规模持续快速扩大,与此同时行业竞争会进一步加剧。行业需要从粗犷式发展模式走向精细化发展模式,智算中心需要算力服务化,需要像公有云一样,把智算算力封装成标准服务,随用随取。
    挑战与机遇并存!

    02 充分优化算力的成本


    充分优化算力成本,主要是通过三种方式:
    • 方式一,是通过虚拟化容器等机制,实现算力资源的充分共享,从而达到分摊成本的目的。
    • 方式二,把计算任务,从CPU、GPU进一步卸载到更高效单位算力成本更低的专用加速单元完成。
    • 方式三,更大规模的资源池。通过算力调度,实现更高效的资源共享。


    2.1 虚拟化实现算力资源共享

    我们假设一个12核CPU(C)和一个12G带宽的网卡(N)组成的物理服务器,如上图,我们通过四种方式实现多种规格的算力:
    • 第一种,传统算力租赁方式。完全物理的服务器,可售卖的仅为一个资源量为12的计算实例。最极端的情况,客户仅需要1个资源的情况下,另外11个资源都是浪费。
    • 第二种,基本虚拟化。可以实现算力切分,这样,我们可以把一台物理的机器切分成四台虚拟的机器,可售卖4台计算实例,资源量分别为4-4-2-2。
    • 第三种,精细虚拟化。不同的计算对各类资源的需求并不是完全对等的,可以针对需求分配多一些的某种资源,其他需求少的资源可以少分配一些。这样,我们可以把一台物理的机器切分成6台虚拟的机器,可售卖的机器实例变成6个,其资源量分别为4-4-3-3-2-2。   
    • 第四种,软硬件协同优化。通过硬件级的性能隔离、更高效的迁移调度,能够实现用户业务无感情况下的超卖,这样可售卖的机器数量会继续增加。

    通过精细虚拟化和软硬件协同的方式,可以实现更高效的资源分配和更低的算力成本。

    2.2 硬件加速降低单位算力成本

    随着CPU逐渐性能瓶颈,GPU也越来越难以扛起算力提升的大旗,势必需要更多的加速计算处理器来实现算力的提升。计算架构从同构到异构,再从异构到多异构和异构融合。
    一般来说,在同等算力条件下,CPU成本最高,GPU次之,专用的各类专用加速器(DSA)成本最低。因此,针对各类计算任务,需要尽可能的计算堆栈调优,以及专用算力优先调度(DSA>GPU>CPU),从而实现更多计算任务的更低成本计算。   

    2.3 算力网络和云边端融合,实现更大规模资源池化


    通过算力网络,把更多的算力中心的算力资源整合到一个更大的资源池。
    大规模、超大规模的云算力中心,中小规模的边缘算力中心,以及海量的终端算力设备,都是算力的组成部分。通过算力网络把云边端整合成一个超级巨大的算力资源池。通过云边端算力调度,客户的业务应用,可以方便的获取到最合适的算力资源,实现最优资源匹配。实现更高层次的算力共享,进一步优化算力成本。

    03 行业深耕,从算力租赁到算力服务


    计算,已经相当复杂。不再是传统单体的计算机,而是由云计算、边缘计算以及终端计算所组成的超大规模计算体系。也因此,算力产业,是上下游企业(或业务)组成的庞大的产业链。
    如图所示,这个链条上包含的典型企业业务类型主要有:
    1. IDC所属的机房或机架租赁;
    2. 智算中心所属的服务器裸机租赁;
    3. 传统公有云所属的IaaS级的计算、网络、存储等基础云服务;   
    4. 传统公有云所属的PaaS级的服务,典型的如AI训练、推理服务,以及AI算法服务等;
    5. 传统公有云所属的行业和场景解决方案,针对大中型客户的复杂计算场景,提供的一整套云解决方案。

    在这个产业链条里,距离最终的业务客户越近,越能体现价值,越能赚取更多的利润。与之矛盾的是,越是靠前的产业链条,需要更多的硬件等各类基础设施的投入,投入的资金量反而更大。
    对智算中心投资者来说,投资风险比较高:一方面是大量的资金投入,一方面是较少的价值和利润,还有一方面是智算中心硬件的快速折旧(硬件生命周期通常为5年)。
    如何来解决问题?我们给出的答案是:从租赁到服务,智算中心需要从当前相对粗犷的资源租赁模式逐步转向更加精细化的算力服务模式。
    如上图表格所示,我们对智算中心的业务(服务)类型以及相关的资金投入进行了一个定性的分析(注意:此表格数据非定量分析,不作为算力中心投资和运营参考),相对硬件投入的资金量,IaaS、PaaS等软件的投入量仅占5%左右,几乎可以忽略不计。
    但这5%的投入产出比很高,因此,智算中心的业务模式需要从租赁模式转型成服务模式,从而使得传统智算中心从产业链上游逐步往下游延伸,实现更多的价值贡献,以及获取更多的产业链利润。   

    04 给业务客户更多的价值


    4.1 极低的算力成本

    性能、成本和能耗,是评价算力成本最关键的三个要素:
    1. 智算产业,最核心的参数是算力,也即微观的性能。通过多异构/异构融合计算,实现计算架构的极致优化。在通过融合计算(异构融合 x 软硬件融合 x 云边端融合),实现超大规模的高效协同计算,从而实现更高的算力,更强的智能。
    2. 算力和成本是反比的关系,同等成本下更高的算力,反过来说,就是单位算力更低的成本。通过融合计算的综合优化,算力高效利用,算力价值充分挖掘。与此同时,通过开放架构和生态体系的方式,实现客户无平台和生态依赖,客户仅需要为价值付费。
    3. 还有一个关键的因素,就是智算中心的能耗。绿色智算中心大家最关注的是PUE,PUE优化0.01都非常困难。而实际上,能耗大头其实是在IT设备自身,也就是PUE数值中小数点前的那个“1”。通过融合计算的计算调度优化,优选最低能耗的计算平台(DSA>GPU>CPU),从而实现同等算力情况下更低的计算能耗。与此同时,通过异构的协同和融合,实现更高效的加速计算,进一步实现极低的综合算力的平均能耗。


    4.2综合完善的算力服务


    智算,不仅仅是智算。
    如果把智能计算比作“主菜”,那么综合计算则是一桌“宴席”。
    从计算的形态来看,计算实际上是云计算、边缘计算和终端计算,而AI计算则是业务层次的计算,它可以存在于云端,也可以存在于边缘端和终端。
    AI很重要,但围绕着AI,还有很多其他类型的计算。虽然以AI为主要计算的AI+业务场景越来越多,但也有部分计算任务,不需要AI参与,或AI计算占比较低。因此,相对AI计算,我们给出“综合计算”的概念:以云计算、边缘计算、终端计算为承载,包括AI计算任务也包括其他计算任务,这些任务并行不悖的混合运行在云、边或端。   
    我们通过云计算的IaaS和PaaS服务体系,并且针对AI智算的一些特点,定向优化一些已有的服务,以及开发一些新型的面向AI的服务,实现新型智能计算“算力服务”体系。

    4.3 加速客户业务落地

    算力核心的三方,跟电商行业类似:
    • 算力供应方(卖家),聚焦算力建设,核心竞争力在于给用户提供更低成本的算力。

    • 算力运营方(平台),轻型云计算公司,自身没有算力,但可以从全国甚至全球获取海量低成本算力接入。价值点在于帮助算力客户复杂计算场景的业务落地。

    • 算力需求方(买家),一方面需要海量、优质、多样、低成本的算力。另一方面,随着AI大模型以及多样性云边端算力的发展,业务复杂度进一步,需要算力的提供方(供应方或运营方)提供更多的业务落地解决方案。  


    为了更好的帮助最终的业务客户智算业务落地,不但要提供计算的硬件设备和计算集群,还要提供面向智算大模型场景的IaaS和PaaS服务。并且,在此基础上,还要提供更加丰富的行业解决方案。
    这些解决方案可以分为四类:
    1. (传统的)技术解决方案。如海量计算、安全、高可用、大数据、云备份、物联网、视频云、混合云、智能化运维节约等解决方案。
    2. (传统的)行业解决方案。如面向零售、政府、出海、金融、教育、工业、汽车、园区和物业、云游戏、云桌面、农业、能源、医疗等行业的相关解决方案。
    3. (创新的)AI大模型解决方案。如基于万卡GPU集群的大模型训练平台、基于多样性算力的异构云边端协同推理平台,以及更上层的面向短视频、AI-Agent等方向的AI平台服务等。
    4. (创新的)软硬件结合类解决方案。如高阶智驾、人形机器人、工业自动化、MEC接入等跟终端硬件深度整合的各类解决方案。


    4.4 持续优化的产品和服务


    云主机,是最核心的服务,也是其他服务的承载之所在。我们以云主机为例,当前大家能够实现的通常是最传统的物理机和虚拟机服务。通过软硬件协同的优化,能够把云基础设施层任务进一步卸载到DPU或更加综合的异构融合处理器,可以进一步降低成本提升系统的性能。此外,还可以统一物理机和虚拟机,让两者完全统一,客户的业务更流畅,算力供应商的运维管理更顺畅。   
    网络,是大模型时代,最大的技术瓶颈。在传统的云计算,仅关注数据中心网络。未来,随着云边端进一步深度协同,网络优化方案,需要考虑跨云边端的高性能网络解决方案。
    整体的网络架构,需要从传统云网络架构,向云边端网络架构持续转变。
    如上图所示,在云边端网络架构下,需要实现四类网络连接:
    1. 云-云连接:这和目前公有云跨区域(Region)和可用区(Zone)的网络连接方案一致。同一区域下所有可用区为全相联(所有数据中心均和其他数据中心有直接连接),然后所有的区域为全相联。
    2. 云-边连接:就近接入物理距离最短的云数据中心,跟其他云数据中心或边缘数据中心的链接,通过接入的云数据中心中转。
    3. 云-端连接:端侧和云端的链接,均提供就近的接入点,快速接入算力供应商的全球高速数据网络。
    4. 边-端连接:边缘作为端侧的高速网络接入点,既接入边缘算力服务,又接入算力提供商的全球高速数据网络。
    —END—

    点击下方名片


    即刻关注我们


    算力猩
    隶属于智猩猩,关注计算芯片创新,解读中国算力突破。
     最新文章