1 标准化和差异化
硬件门槛非常高,应尽可能的标准化。在标准化的硬件基础之上,构建满足不同用户需求的差异化的软件产品和服务。 软件服务的标准化和差异化,应遵循二八定律。约20%的服务是标准化的,满足绝大部分客户的常规需求(覆盖所有客户的约80%的算力用量);80%的服务是差异化的,满足不同客户的不同需求(差异化服务整体覆盖所有客户,但不同服务覆盖不同用户,整体的算力需求较少,仅占约20%)。差异化服务的核心价值,在于构建平台跟客户业务之间的粘性。
2 智算中心的挑战和重心
常规智算中心的业务包括:
IDC机房或机架租赁。即传统IDC的业务。行业内有非常多的成功的IDC公司,也因此,此模式是一个非常不错的业务模式。 智算服务器租赁:随着大模型的流行,智算行业逐渐兴起。仅有IDC业务还不够,还需要为客户提供智算设备。当然,智算设备可以找一些专业的公司代为提供,但最终仍需要给买单的算力客户,打包成可远程访问的智算服务器租赁的方式。
抛砖引玉,在传统业务之外,增强型智算中心可提供的算力服务包括:
裸金属主机服务。传统的服务器租赁,通常是手动的。第一步,肯定是把服务器封装成可自动化下单的服务,使之成为货架产品,而不需要线下繁琐的交易流程。第二步,则是由于传统裸机的问题(无法高可用、无法硬件运维等),裸机需要进一步升级成支持高可用的、可以硬件运维的裸金属机服务(需要DPU和底层软件的加持)。 虚拟云主机服务。虚拟化能够实现更高的资源弹性,以及更高的算力利用率,可以进一步优化成本。可以给客户提供从1/N卡到8卡的足够弹性的虚拟主机实例,对一些算力需求较低、成本敏感的客户业务和场景,会更友好。 容器主机服务。虚拟化是面向硬件资源,容器是面向业务应用。因此,对客户来说,容器化对业务更友好,不需要关注太多裸机或虚拟机的底层细节。容器化服务,一般来说,会有两种模式提供:有服务器实例型和无服务器实例型(Serverless)。 训练集群服务。主机,是集群的节点;但集群不止关心节点,还关心互联。因此,需要给客户提供足够弹性的训练集群服务(集群规模通常是从8卡到成千上万卡)。 推理集群服务。推理,理论上可以不需要集群。但推理集群的价值在于,不同架构的多元异构算力整合。多元异构推理集群跟上层的计算框架和模型有一定的关联性,也跟集群算力调度有关联性,技术挑战相对较大。但其广泛落地后的价值也非常的多,比如,最极致的成本、国产算力规模化使用、降低对国外产品的依赖等等。 其他配套的算力服务。智算不仅仅是智算,围绕着智算,还有通算、存储、安全、网络等服务(统称为算力服务)需要提供。
3 算力(运营)网的挑战和重心
4 (使用算力的)企业的挑战和重心
站在企业侧视角,我们觉得,需要解决如下几方面的问题:
第一个,不同算力资源的统筹。对企业来说,有自建的算力资源,有公有云的算力资源,还有从算力网络获取的资源,这些资源需要统筹起来。此外,有的企业,自建算力资源可能存在闲置情况,这些算力资源也需要拿出来共享,获取一些收益。 第二个,多元异构算力的统筹。从技术角度来说,这跟云端的多元异构算力统筹是一个问题。但企业侧此问题有一些新的特点:算力类型极度多样、规模较小、不同企业的算力差异性巨大,等等。 第三个,企业自有或代管的终端的纳管。随着智能汽车、具身智能等领域的发展,跟传统PC机、平板电脑、智能手机相比较,这些新兴的终端,有两个显著的特点,一个是大模型+,一个是业务场景算力需求巨大但终端自有算力远远无法满足。 第四个,是云边端算力资源的统筹。终端算力不够,需要从云端和边缘端借算力,同时终端业务无感,这些算力就像在终端本地一样。此外,需要统一的云边端开发和运行环境,既能帮助终端客户解决共性的基础的计算问题,又能提供统一的云边端融合的开发运行环境。 其他未尽事宜。包括但不限于上述这些问题,仍有很多问题需要解决。
5 智算行业三元模式总结
我们总结一下算力行业的业务模式。(按照我们理解,)主要有这三种模式:
传统公有云的二元模式。这在通算时代,为算力公司的主流业务方式。 新型的电商三元模式。自己是平台方,没有额外的增值价值。我们认为,在算力行业,这种模式没有太多存在的价值。 新型的算力流转三元模式。这是一个相对健康合理的算力链,每个环节有自己的定位和核心竞争力,大家形成繁荣的算力产业生态体系。
最后,我们总结一下三者的核心价值定位,用三个字总结就是“建、落、用”,详细说明:
智算中心,主“建”。核心竞争力在于建设超大规模、超低价格的算力。 算力(运营)网,主“落”。需要比客户更懂场景,帮助客户业务从0到1。 算力企业,主“用”。(从算力视角,)企业重心在于从1到100快速复制。企业需要开拓市场,需要快速做大做强。企业只有业务规模化,才能产生更多新的算力需求。
本文章来源于软硬件融合,作者Chaobowx