//
过去的一年里,AI作为驱动新质生产力发展的关键力量,其主导下的新兴技术正在不断推动千行百业数字化转型变革升级,不少企业在数字化转型方面、特别是华东地区企业在竞争新前沿和加速增长上都取得了显著进步,通过AI大规模商业部署构建了新的价值链。
2025年1月5日,由CIO时代、CIO时代华东分院主办,新基建创新研究院作为智库支持的“驾驭数字浪潮 共筑智慧未来 | 2024-2025华东CIO班新年会”于上海圆满举办!
活动主论坛上,优刻得科技股份有限公司解决方案架构师沈超带来“智算引领,生态共生:算力产业发展未来之路”的主题分享。
优刻得科技股份有限公司解决方案架构师 沈超
精彩观点:
智算中心生态构建需要投-建-用三方参与,通过构建“综合能力平台”+“一站式贴身服务”的模式,协同合作伙伴,加速各领域、各产业AI数字化。
以下为主题演讲的精华内容,经编辑后的文字实录:
AI时代,算力不仅是推动技术进步的关键力量,也是构建生态体系的重要基石。
随着AI技术的迅猛发展,算力需求正以前所未有的速度增长。那么,如何高效地利用企业内部的算力资源,同时又不影响业务的正常运行,已经成为了当前一个重要课题。
优刻得算力资源管理方案及实践
很多企业在面对算力资源的管理和优化时,都感到颇为棘手。一个不容忽视的事实——如果能够将GPU资源的使用率发挥到极致,那么采购成本往往能够直接下降5%甚至是10%。这样的价值,无疑是更加显著的。
优刻得深刻认识到AI时代算力的重要性,致力于通过创新的解决方案和丰富的实践经验,帮助企业用户最大化地利用算力资源,实现业务的持续发展和生态的共赢共生。
从智算中心的发展趋势以及生态构建的角度出发,优刻得在算力资源管理和优化方面积累一些解决方案和实践经验。
优刻得成立于2012年,是一家纯内资的中立云计算服务商。提供公有云、私有云以及混合云的全方位解决方案。目前,全球已经有超过85000家企业用户选择了优刻得,其中不乏300多家上市公司。
2020年,优刻得成功登陆A股科创板,成为了中国A股市场云计算第一股,同时也是A股市场第一家同股不同权的上市公司。
优刻得在全球24个区域设有31个可用区,遍布各大洲。拥有两个自建的数据中心,并在全球二三十个可用区内提供优刻得公有云的全栈产品和服务。这样的布局,不仅确保服务能够覆盖到全球范围内的用户,也提供了强大的算力资源支持。
目前,优刻的发展势头正猛,在中国智算云服务市场中占据着重要的位置。
智算中心起源
智算中心的诞生,主要源自两大核心因素的推动——大模型训练对算力的需求急剧增长,传统数据中心已难以满足AI时代对算力机房的新要求。
大模型训练对算力的需求急剧增长,成为智算中心兴起的首要驱动力。以GPT-5为例,其模型参数规模已突破万亿大关。若采用20万至30万张H100显卡进行训练,整个过程需耗时四至六个月。这一案例鲜明地展示了模型参数的增长如何带动算力需求的飙升。每一代模型的迭代,都伴随着算力需求的急剧增加。不仅是GPT系列,Google的Palmdale E以及Step Diffusion的3.5版本等图像识别模型同样展现出参数量与所需算力的几何级增长态势。
传统数据中心已难以满足AI时代对算力机房的新要求,则是智算中心兴起的另一大关键原因。传统数据中心的设计初衷是为CPU算力提供支持,因此在面对AI算力需求时显得力不从心。
具体而言,传统数据中心存在以下几大问题:
首先,规模不足。无论是机房整体规模还是机柜数量,都难以满足当前AI算力的高需求。
其次,机柜规格不匹配。传统数据中心的机柜往往电力配置较低,且能源效率、能耗管理等方面也无法适应GPU大功率场景下的需求。
第三,技术复杂度提升。大模型算力不仅涉及资源的简单堆叠,更需要在底层进行复杂的网络和存储改造,同时在上层构建高效的调度平台以满足多样化需求。
最后,是地缘政治风险。海外制裁等因素也对算力资源的获取与部署构成了潜在威胁,进一步凸显了构建自主可控智算中心的重要性。
算力中心的演进
算力中心的演进历程主要可以分为三个阶段:
第一阶段——最早的传统IDC(Internet Data Center)时代。在这个阶段,IDC的主要功能就是提供一个机房环境,托管服务器,并通过购买接入外网和安全设备,为企业提供外网服务。这是最早的、可以提供服务的一种IDC环境。企业只需将服务器托管在IDC机房中,就可以通过外网进行访问和使用。
第二阶段——混合云架构时代。在这个阶段,云计算的弹性、按需分配以及全球多个节点的特性,使得企业可以构建混合云架构。通过混合云的能力,企业可以实现弹性伸缩和跨云灾备,极大地提高了业务的灵活性和可靠性。同时,企业也仅需一次性投入成本,就可以快速地将业务部署上线,并在业务后期增长时,迅速进行弹性扩张。
而第三阶段——智算中心时代。这也是我们当前正处的阶段,智算中心已经重新定义了计算、存储和网络的概念。现在的计算主要基于GPU,存储需要更高速率的吞吐以及更低时延的解决方案,网络也需要基于RDMA进行改造。因此,在智算中心时代,一个智算中心不仅需要进行底层的改造,还需要在上层提供与模型相关的技术服务来支撑业务需求。
建立一个智算中心,需要三方参与,即投资主体(投)、建设方(建)和使用方(用)——
投资主体:一般由政府或高新企业牵头,主要负责解决基建、土建选址以及投资立项等问题。其利用自身的资源和优势,推动智算中心的建设和发展。
建设方:负责具体的建设工作。除了要解决最基础的算力需求,即购买服务器或网络设备之外,还需要具备其他方面的能力,包括最基础的IDC建设能力、机柜建设能力、网络接入能力以及能源建设能力。此外,建设方还需要有算力调度平台来管理算力集群,并具备统筹建设的能力,以协调各方的资源,最终将算力中心建设起来。
使用方:一般来说,使用方会与投资主体和建设方联合运营智算平台,并将其最终应用于实际业务中。
UCloud算力中心解决方案全解析
UCloud的算力中心究竟能解决哪些问题呢?可以从以下几个方面进行深入探讨:
首先,UCloud针对当前GPU服务器高功率的需求,提供了高电机柜解决方案。传统的机柜,如16安或20安的机柜,在托管CPU服务器时完全足够,但面对高功率的GPU服务器时则显得力不从心。GPU服务器通常需要30安以上的机柜才能托管。而UCloud则提供了40安以上,甚至更高功率的高电机柜,直接满足了GPU算力对电力的需求。
其次,在存储吞吐方面,模型训练需要极高的吞吐并发来满足其需求。传统的存储可能只能达到GB级别的存储量,而UCloud的UP FS则可以达到TB per second的读写速率,极大地提升了存储性能。
再者,高速率的网络也是当前算力需求不可或缺的一部分。仅仅基于万兆的以太网已经无法满足现在的算力需求。UCloud底层采用了RDMA网络,如IB或Rocket网络,以满足网络低延时和高并发的需求。
此外,UCloud还注重兼容性问题。除了英伟达的显卡外,UCloud还整合了国内众多显卡资源,为用户提供了更多的选择。
行业合作方面,UCloud与上百家的行业模型公司携手合作,共同推进多个项目的实施。在这个过程中,UCloud不仅提供技术支持,还负责项目的保障工作。
智算中心的结构
智算中心的最底层是数据中心,这是其最基础的能力,包括IDC的建设、机柜布线、运维以及资产管理系统的搭建。再往上层,则是算力资源,包括服务器、存储以及网络等。再往上,则是专线和带宽资源。而最外面一层,则是资产管理平台、算力调度平台以及对外租户管理平台、运维管理平台和监控管理平台。最外层,UCloud还可以进行模型的微调、模型训练等工作。
除了作为算力平台外,UCloud还可以实现上下游的打通。对于一些拥有自己算力但算力有冗余的企业,UCloud可以通过其专有云搭建一个管理平台,将这些冗余算力纳管到平台中,并通过平台进行售卖。同时,对于那些有最终客户但没有自己算力的集成商或伙伴,UCloud可以通过其专属云为其定制一个Web Console,如A公司可以定制名为A云的专属云,完全沿用UCloud的底层技术架构,并自主运营其用户资源。
UCloud的算力中心解决方案在解决高功率GPU服务器托管、高吞吐存储、高速率网络、兼容性问题以及行业合作等方面都展现出了强大的实力。同时,其还可以实现上下游的打通,为企业提供更加全面、高效的算力服务。
写在最后:
智算中心的兴起是AI技术快速发展与算力需求激增的必然结果,同时也是对传统数据中心难以满足新时代需求的直接回应。面对这一系列挑战与机遇,智算中心的构建与发展显得尤为迫切与重要。从传统IDC到混合云架构,再到现在的智算中心时代,算力中心的每一个阶段都代表了技术的不断进步和业务需求的不断变化。在未来,随着技术的进一步发展,算力中心将会继续演进和发展,为企业的数字化转型和智能化升级提供更加有力的支持。
·END·