01 智算中心行业现状
1.1 推理成本决定大模型最终的胜利
AI大模型训练相对较少,仅有屈指可数的几个大厂可以做(训练)自己的模型。而更多的公司则主要是基于开源大模型来完成自有AI推理和应用。 大模型应用,没有技术门槛。目前,大模型应用还没有规模化落地的案例,但可以确定的是,一旦有爆款的应用落地,必将有无数个类似的应用迅速出现。应用创新不是决定大模型成功的核心因素。 大模型时代,跟之前的移动互联网时代最大的不同在于:
移动互联网时代,谁获得用户和流量,谁就能获得成功。底层逻辑是移动互联网的系统边际成本很低。因此,“通过免费吸引客户,然后再获取收益”,成为了最典型的商业模式。 而大模型时代,底层逻辑发生了很大的变化。大模型时代,系统的成本几乎和客户使用量成线性关系,也即是每次服务都有不菲的成本,边际成本依然很高。这里的成本绝大部分来源是推理的算力消耗。在大模型时代,谁能把推理成本降到极致,谁就能获得最终的胜利。
1.2 国产算力产业链耦合性高,落地难
1.3 投入大,利润低,风险高
1.4 大客户压价严重,小客户不确定性高
需要实现算力服务化,既能服务大客户,也能服务长尾小客户。 提供更多的能帮助业务落地的服务和解决方案。 算力需要接入更多的算力(运营)网络,拓展更多的市场渠道。 等等。
1.5 算力租赁模式,不是长久之计
02 充分优化算力的成本
方式一,是通过虚拟化容器等机制,实现算力资源的充分共享,从而达到分摊成本的目的。 方式二,把计算任务,从CPU、GPU进一步卸载到更高效单位算力成本更低的专用加速单元完成。 方式三,更大规模的资源池。通过算力调度,实现更高效的资源共享。
2.1 虚拟化实现算力资源共享
第一种,传统算力租赁方式。完全物理的服务器,可售卖的仅为一个资源量为12的计算实例。最极端的情况,客户仅需要1个资源的情况下,另外11个资源都是浪费。 第二种,基本虚拟化。可以实现算力切分,这样,我们可以把一台物理的机器切分成四台虚拟的机器,可售卖4台计算实例,资源量分别为4-4-2-2。 第三种,精细虚拟化。不同的计算对各类资源的需求并不是完全对等的,可以针对需求分配多一些的某种资源,其他需求少的资源可以少分配一些。这样,我们可以把一台物理的机器切分成6台虚拟的机器,可售卖的机器实例变成6个,其资源量分别为4-4-3-3-2-2。 第四种,软硬件协同优化。通过硬件级的性能隔离、更高效的迁移调度,能够实现用户业务无感情况下的超卖,这样可售卖的机器数量会继续增加。
2.2 硬件加速降低单位算力成本
2.3 算力网络和云边端融合,实现更大规模资源池化
03 行业深耕,从算力租赁到算力服务
IDC所属的机房或机架租赁; 智算中心所属的服务器裸机租赁; 传统公有云所属的IaaS级的计算、网络、存储等基础云服务; 传统公有云所属的PaaS级的服务,典型的如AI训练、推理服务,以及AI算法服务等; 传统公有云所属的行业和场景解决方案,针对大中型客户的复杂计算场景,提供的一整套云解决方案。
04 给业务客户更多的价值
4.1 极低的算力成本
智算产业,最核心的参数是算力,也即微观的性能。通过多异构/异构融合计算,实现计算架构的极致优化。在通过融合计算(异构融合 x 软硬件融合 x 云边端融合),实现超大规模的高效协同计算,从而实现更高的算力,更强的智能。 算力和成本是反比的关系,同等成本下更高的算力,反过来说,就是单位算力更低的成本。通过融合计算的综合优化,算力高效利用,算力价值充分挖掘。与此同时,通过开放架构和生态体系的方式,实现客户无平台和生态依赖,客户仅需要为价值付费。 还有一个关键的因素,就是智算中心的能耗。绿色智算中心大家最关注的是PUE,PUE优化0.01都非常困难。而实际上,能耗大头其实是在IT设备自身,也就是PUE数值中小数点前的那个“1”。通过融合计算的计算调度优化,优选最低能耗的计算平台(DSA>GPU>CPU),从而实现同等算力情况下更低的计算能耗。与此同时,通过异构的协同和融合,实现更高效的加速计算,进一步实现极低的综合算力的平均能耗。
4.2综合完善的算力服务
4.3 加速客户业务落地
算力供应方(卖家),聚焦算力建设,核心竞争力在于给用户提供更低成本的算力。
算力运营方(平台),轻型云计算公司,自身没有算力,但可以从全国甚至全球获取海量低成本算力接入。价值点在于帮助算力客户复杂计算场景的业务落地。
算力需求方(买家),一方面需要海量、优质、多样、低成本的算力。另一方面,随着AI大模型以及多样性云边端算力的发展,业务复杂度进一步,需要算力的提供方(供应方或运营方)提供更多的业务落地解决方案。
(传统的)技术解决方案。如海量计算、安全、高可用、大数据、云备份、物联网、视频云、混合云、智能化运维节约等解决方案。 (传统的)行业解决方案。如面向零售、政府、出海、金融、教育、工业、汽车、园区和物业、云游戏、云桌面、农业、能源、医疗等行业的相关解决方案。 (创新的)AI大模型解决方案。如基于万卡GPU集群的大模型训练平台、基于多样性算力的异构云边端协同推理平台,以及更上层的面向短视频、AI-Agent等方向的AI平台服务等。 (创新的)软硬件结合类解决方案。如高阶智驾、人形机器人、工业自动化、MEC接入等跟终端硬件深度整合的各类解决方案。
4.4 持续优化的产品和服务
云-云连接:这和目前公有云跨区域(Region)和可用区(Zone)的网络连接方案一致。同一区域下所有可用区为全相联(所有数据中心均和其他数据中心有直接连接),然后所有的区域为全相联。 云-边连接:就近接入物理距离最短的云数据中心,跟其他云数据中心或边缘数据中心的链接,通过接入的云数据中心中转。 云-端连接:端侧和云端的链接,均提供就近的接入点,快速接入算力供应商的全球高速数据网络。 边-端连接:边缘作为端侧的高速网络接入点,既接入边缘算力服务,又接入算力提供商的全球高速数据网络。
点击下方名片
即刻关注我们