要点(文末有彩蛋)
1、算力产业发展现状及政策
全球算力战略部署:全球主要国家将算力、人工智能上升为国家级战略部署,我国这两年出台了多项算力相关政策,如加快构建全国一体化算力网的实施意见、算力基础设施高质量发展行动计划等。
算力规模及分布:2023年全球算力规模为911 FLOPS,中国国内约为240左右,美国和中国占全球算力的三分之二。我国算力总体规模为246 EFLOPS,通算与智算的比例在变化,但存在计算中心建设超前且分散,规模偏小,设备利用率偏低的问题,计算设备出货量中实际运营可跑应用的仅占四分之一左右。
2、算力调度及互联存在的问题
超前建设及思路沿袭:计算中心建设超前,但人工智能训练对卡的要求高,数据计算规模大,仍沿袭超前建设的方针,但存在兼容不匹配、标准不统一、电价差别大、布局思路不清晰等问题。
算网搭配及成本控制:算的支撑力度大,但算离开了网无法使用,尤其是东数西算背景下,超长距离传输的时延和成本难以平衡,网络成为制约动用算力的关键因素,专线建设成本高且存在诸多复杂问题。
商业模式不清晰:传统计算中心建设的商业模式不适用于算力调度场景,算力调度更多面向to B,to C的杀手级应用少,商业模式亟待清晰。
区域发展不平衡:西部虽有政策倾斜,但算力产业发展的需求和供给更多在东部及沿海地区,建了算力中心也难以拉动当地算力产业发展。
3、算力互联网
算力互联网的概念:算力调度是个悖论,动的是需求、任务和数据,算力互联网旨在解决广义层面上任务和数据的互联问题,产业对其有一定共识。
算力互联网的需求:算力互联网的任务提出了找调用的新需求,但资源布局分散,存在调用壁垒,包括成本、接口、归属、计量计费等问题,不同服务商在平台上统一调配资源存在困难。
各方平台的现状:各方在算力互联网方面进行了探索,但平台多为披着壳的CMP平台,研究思路尚未形成统一标准,工信部、地方管局、发改委等的思路在大路径和逻辑上需做统一,具体技术上如标识接口、开发软件生态等难以统一。
算力互联网的实质:算力互联是一种促进算力服务新型服务业态的模式,实现不同主体、类型、地域的算力在业务层的标准化互联,包括不同主体的算力、不同类型的CPU、GPU等,要实现算力可查询、任务可兑换、数据需求可调用的服务能力。
实现算力互联网的思路:借鉴工业互联网思路,通过一套标识符、一个新调度系统以及主管部门要求大企业开放部分AZ资源,实现算力互联网。基于此,可实现枢纽间、集群间的互联互通,其体系架构参考互联网TCP/IP模型,简化为三层,组网逻辑为一个国家级平台、M个地方区域平台、N个行业平台。
算力互联网的试点及运行:京津冀已可进行简单试点和运行,接入算力资源两三百P,接入运营商和服务商众多;深圳在进行远距离试点。未来三年左右,地方级主管部门可能搭建类似新型互联网交换中心的平台。
标识码:自主创新研制的标识码,是解决不同服务商提供算力标准化的方法,已有25家企业获得相关编码。
传输流动:提高应用调度效率,解决跨集群调用及大规模卡间通讯效率、高性能等问题,做一套开源的新系统,基于现有网络改造实现远距离网络传输。
软件生态:国内建卡能力虽强,但软件生态依赖英伟达的CUDA,短时间内难以改变,新软件生态出现后,现有卡和集群的改造成本大。
4、算力互联网的业务生态及展望
新业务生态:算力互联网将带来新的业务生态,服务商角色会发生变化,公共服务与管理体系将出现企业和主管部门共同运营的公共服务平台,现有的大包大揽模式可能会优化,新的角色如算力服务商、算力互联网运营商、资源提供商等将出现。
标准化及国际进展:在中国工业标准化协会设立行业标准,包括调度相关要求、业务互通、数据流动、标识、交易服务规范、统一计量计费等;国际上国外不提总控计算,完全市场化竞争,我国可在云技术无太大技术壁垒的前提下走出自己的道路。
地方工作及成果:在北京等地建立专用互联网平台,部署算力资源,弥补智算缺口,完成预测业务需求,在重庆、深圳做跨区域、远距离试点,接入大量CPU和卡,规模上千P,但仍处于试验环境。
行业平台构想:行业算力模式还处于构想状态,行业大模型标准化程度不高,公共服务平台的存在及运营方有待讨论,但已在一些地方建立M平台,做了算力网关部署和算力资源可查。
具体解决方案及应用:优先解决能源、园区、工业等场景的需求,以中小企业为算力普惠化推广的切入点;寻找to C业务的杀手级应用,如云电脑、云手机,以及数据快递等新应用。
算网一体及算力大市场:构建算网一体的低空算力互联网,希望全国算力大市场能产生新生态,实现标识与任务、资源、企业的走通,形成新的计算机制模式和角色赋予,成为算力服务的工业化重启。
Q&A
Q:“一加M加N”的国家级算力公共服务平台目前进展如何?是否要存在?若存在,运营方是国家还是国企控股?
A:从底部往上面走,“一”即国家级平台还在论证之中,相对比较敏感,主要支撑部委是工信部还是发改委尚未明确。更多是地方平台推进相对快一些,例如和北京市管局合作的地方性战略互联网品牌,因有地方主管权会推进得快一点。关于运营方是国家还是国企控股的问题还在讨论中。
Q:底层网络由三大运营商负责,对于跨运营商或跨云的情况,是统一规划还是市场化行为?
A:目前处于试验的第二阶段。第一阶段是有平台后企业接入资源,产生任务需求后推送回企业自己平台处理;第二阶段是资源完全开放,要求新的算力资源以偏标准化方式建立,方便后续接口编码、计量计费等调度,每家会有所贡献;第三阶段是大服务商在特定可用区开放资源,运营权在当地新成立的公司。现在处于第二阶段。
Q:算力云专网是复用原有网络还是新建?
A:大部分还是属于复用。例如北京会优先复用天翼云政企专网,并做部分光模块引入和改造,如有跨地区需求,可能在接入两头弄新专线,中间走CN2,以最低成本实现资源调度,因为重建成本太高且归属难评判。
Q:在建设互联的算力节点时,是一开始就按照最高标准建设(如按照分布式训练标准),还是会根据不同需求进行规格适配?
A:一开始是按照低规格去建立平台的,因为跟部委相关的事情,需要看到成绩才会有资源投入。目前平台能获取相关资源的实时状态和任务状态,大的任务(如训练和推理任务)需要推送到服务商自己的平台,平台现阶段只能做一些小的渲染、迁移等轻量级任务,大的耗卡任务还做不了。
Q:与云计算时的通信规格相比,做AI推理时,AZ之间或者POD之间的互联带宽会有什么变化?
A:从平台角度来说,目前还没有完全考虑服务器之间大带宽互联的问题,包括公有云相关平台、公司内网平台都解决不了涉及多卡、半卡以上集群等问题,还需要回到原来的服务商平台去做。因为通信网络、通信协议每家都不一样,企业有自己的定制化改变,作为第三方平台难以统一,所以平台目前还是以任务推送为主,做一些偏轻量级的任务。
Q:到2026年,算力利用率提升空间有多少?未来主要靠存量算力提升还是靠其他方面提升?
A:存量数据中心的资源利用率很难有大幅度提升,能提升的部分更多来自大规模新建的以及资源偏标准化、可直接进入算力平台的部分。有40%的公共算力标准化接到平台里,但具体能调用多少还很难说。
Q:存量算力具体指的是什么?
A:比如一些地方自己建的所谓人工智能计算中心,其中相当一部分是改名而来,之前并非人工智能计算中心,很多是为了拿到当地补贴而建的,这些缺乏实际应用场景,很难被利用,就属于存量算力。
加微信领取星球优惠