全球各国通过政策支持、战略规划等手段,加速构建领先的算力竞争力。美国公布 2024 财年政府预算,包括国防部、能源部、国土安全部等多个机构,累计向 AI 领域计划投入超过 2511 亿美元,以推动 AI 研究和软硬件服务;欧洲陆续发布《塑造欧洲的数字未来》、《欧洲芯片法案》等文件,围绕数字化转型进行算力产业布局;日本近年来频繁强调振兴半导体产业,坚持以应用、绿色为导向发展算力,不断扩大国内尖端半导体生产。这些政策的实施加速了全球产业升级和科技创新,并提升了这些国家的算力竞争地位。我国以算力基础设施建设为锚点,全面推动算力高质量发展。二十届三中全会提出,高质量发展是全面建设社会主义现代化国家的首要任务。我国通过加强算力基础设施建设,推动算力技术与产业的创新发展,为经济社会的高质量发展注入新动能。在国家层面,《数字中国建设整体布局规划》、《深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》、《算力基础设施高质量发展行动计划》、《数据中心绿色低碳发展专项行动计划》等提出我国算力高质量发展的具体要求;在地方层面,浙江、北京、上海、广东、贵州、山西等省市也纷纷发布相关政策明确未来几年算力高质量发展行动计划。表 1 我国算力中心相关政策规划人工智能以生成式 AI 技术为核心快速发展。以 ChatGPT 为代表的 AIGC 技术加速成为 AI 领域的最新发展方向,对经济社会发展产生了重大的影响。随着人工智能预训练大模型的不断进步、AIGC 算法的持续创新,以及多模态 AI 技术的日益普及,AI 已经能够生成包括文本、代码、图像、语音和视频在内的多样化内容。这些技术的发展提升了 AIGC 模型的通用性和工业化水平,AIGC 的商业潜力变得更加显著,如今大模型已成为企业在 AI 领域竞争的核心焦点。算力成为推动生成式 AI 发展的关键。在大模型训练和生成式 AI应用的推动下,GPU 和异构计算资源需求显著增长,算力的提升从简单的硬件扩展发展为涵盖算法优化、系统设计、资源调度和网络通信等多个层面的系统优化,算力性能和效率对模型推理、训练至关重要。在大模型训练中,通常采用多机多卡构建的算力集群进行分布式训练,而拥有大量的计算节点并不等同于拥有强大的计算能力。在分布式训练环境中,拥有数千亿至万亿参数的庞大模型通信时间可能占据整个训练过程的一半,网络通信和数据缓存等瓶颈问题会显著降低训练效率。另外,随着模型参数量增加,传统的训练方式可能会导致训练过程中算力利用率的降低。在大模型训练中,Checkpoint 机制常用于在训练中定期保存模型参数,然而对于参数量极大的模型,该训练方式可能会导致显著的写入延迟,如 GPT-3(1750 亿参数),以 15GB/s 的文件系统写入速度计算,完成一次 Checkpoint 需要 2.5 分钟,这不仅增加了训练时间,也降低了 GPU 的利用率。国家以直接投资或补贴方式推动算力产业投资建设。美国计划 5年内投资 2800 亿美元以保持美国在芯片技术领域的领先地位;中国全面启动““东数西算”工程,截至 2024 年 6 月底,““东数西算”八大国家枢纽节点直接投资超过 435 亿元,拉动投资超过 2000 亿元;欧盟计划提供 12 亿欧元的公共资金用于“欧洲共同利益重要计划——下一代云基础设施和服务”;日本经济产业省拟为 5 家日本企业提供总额 725 亿日元的补贴,用于打造人工智能超级计算机。随着全球各国在算力领域的竞争愈发激烈,算力相关产业市场规模将呈现持续增长态势。以 AI 服务器为例,据 IDC 预测,未来几年全球人工智能服务器市场规模将持续增加。图 1 全球人工智能服务器市场规模预测
科技巨头发力智能算力,万卡算力集群布局加快。2023 年以来人工智能市场持续保持高增长态势,成为推动各国经济增长和技术创新的关键因素。据 IDC 研究,预计 2022 年至 2032 年全球人工智能产业规模的复合增长率高达 42%,2032 年将达到 1.3 万亿美元。基于人工智能的广阔前景,全球科技巨头纷纷加大对 AI 基础设施布局以维持行业竞争力。国际上 Meta、微软&OpenAI、xAI 等多家 AI 巨头陆续宣布或者完成 10 万卡集群建设,国内通信运营商、头部互联网、大型 AI 研发企业等均发力超万卡集群的布局。图 2 全球 AI 产业规模预测(单位:十亿美元)
表 2 全球科技巨头智算布局
全球算力规模稳步扩张,智算同比翻倍增长。以 AIGC 为代表的智能应用、大模型训练等新需求、新业务的崛起,推动全球智算规模呈现高速增长态势。据中国信通院测算,截至 2023 年底,全球算力总规模约为 910EFLOPS1“,同增增长 40%,智能算力规模达到335EFLOPS,同增增长达 136%,增速远超算力整体规模增速。我国智能算力占增显著增加,智算中心集聚分布。据中国信通院测算,截至 2023 年底,智能算力规模占整体算力规模的增例近 30%,增效明显。国家及地方层面积极推进智算中心建设,北京、广东等多地提出2025 年智算规模目标。从区域分布上来看,智算中心呈集群建设趋势,过半分布在我国东部地区。图 3 全球算力规模(单位:EFLOPS)
我国算力发展正处在由“量的扩张”转向“质的提高”这一重要关口。我国算力产业规模扩张下开始以应用为导向,推动过去的重资产、重硬件模式向软硬协同、服务驱动转型等高质量发展方向转型升级,算力发展从规模速度型粗放增长转向质量效率型集约增长。在应用导向下,全国各地增加智能算力生产以提升算力在人工智能领域的适配水平,建设超大规模算力中心集群,以匹配大模型训练需求。随着集群建设规模越来越大,算力效率问题引起关注。算力中心建设、运营开始重视超大规模组网互联、集群有效计算效率、训练高稳定性与可用性等算力处理效率相关的性能。另外,双碳目标日益紧迫,能耗要求日趋严格,算力行业的高耗能和碳排放问题引起诸多关注。我国出台了一系列政策对算力产业节能降碳提出更加严格的要求,相关企业通过技术创新、绿色管理等措施不断开展节能降碳行动,绿色低碳成为算力产业重要发展方向。与此同时,算力中心作为算力的主要载体,承载功能逐渐多元化。算力中心可为服务购买方提供多元化业务支撑和多样化算力服务,不再只是提供计算、存储等服务的场所,数据、算力、算法、生态合作等服务内容不断拓宽算力中心能力边界。算力提供方越来越注重提升算力服务的品质,整合各类算力资源,为用户提供一站式服务,降低用户获取算力资源的成本,推动算力普适普惠。一方面,AIGC 带动算力需求总量不断增长,大模型训练亟需大量 AI 算力支撑。从整体需求规模上看,模型训练引起 AI 算力需求暴增。据《新一代人工智能基础设施白皮书》表明,过去几年,大模型参数量以年均 400%复合增长,AI 算力需求增长也超过 15 万倍,远超摩尔定律。在单个大模型训练需求上,模型越大算力需求越大,以参数规模达到 4050 亿的 Llama3.1 大模型为例,其单次训练算力需求相较于 700 亿的 Llama2 翻了 50 倍。另外伴随模型不断迭代,训练数据集规模将不断增大,未来的大模型的算力需求将呈现指数级爆发式增长。另一方面,现有供给结构与用户实际的算力需求不匹配造成资源浪费。一是供需错位问题,国内算力产业链企业相对分散,众多芯片厂商和大模型企业技术路径不同容易造成芯片和模型之间不适配,且大多数智算服务仍是‘裸金属租赁’的粗放式经营方式,无法精准满足不同企业的多元化需求。二是资源利用率不足问题,据清华大学研究表明,大模型在处理大量数据时,由于算力调度、系统架构、算法优化等诸多问题,很多大模型企业的 GPU 算力利用率低于 50%,造成了巨大的资源浪费。1.2.2 挑战二:算力智能水平较低,难以满足多元应用场景人工智能、大数据、物联网等数字技术不断发展,多元应用场景对算力的智能水平和计算能力要求不断提升。从需求上看,算力应用场景的复杂化导致数据量和算法复杂度急剧增加,这要求算力具备更高的智能化水平。算力是算法自主学习的基础,能够灵活处理和分析大规模的数据集,有助于满足更大参数量模型的训练需求,不断提升模型的自主学习和泛化能力。从技术上看,传统芯片架构面临着““存储墙”和““功耗墙”的问题,难以满足现阶段人工智能应用的低时延、高能效、高可扩展性的需求,需要先进的计算架构将更多算力单元高密度、高效率、低功耗地连接在一起,提高异构多核之间的传输速率,从而为人工智能大模型提供强大计算能力保障。
1.2.3 挑战三:算力面临能源考验,节能降碳刻不容缓双碳目标下,算力产业面临节能降碳挑战。算力中心是算力的主要载体,是公认的高耗能基础设施。据中国信通院数据表明,截至2023年底,我国算力中心耗电量达 1500 亿千瓦时,预计到 2030 年将超过4000 亿千瓦时,若不加大可再生能源利用增例,2030 年全国算力中心二氧化碳排放或将超 2 亿吨。人工智能模型训练的能耗远高于常规计算能耗,根据 Digital Information World 数据,训练 AI 模型产生的能耗是常规云工作的三倍。OpenAI 曾发布报告称,自 2012 年以来,AI 训练的电力需求每 3-4 个月就会翻一倍。据浪潮信息测算,一个10 万亿参数大模型训练需要 10 万卡 H100 集群,训练 1193 天,所消耗的电量约 40 亿千瓦时,约 1.4 亿美国家庭 1 天用电量。面对人工智能对算力的旺盛需求,算力产业如何在高速发展的同时实现“碳中和”,是当下整个行业需要解决的重要问题。图 4 近 5 年我国算力中心耗电量(单位:亿千瓦时)
1.2.4 挑战四:多样化算力需求提升,普适普惠水平较低算力资源获取成本有待降低,多元算力匹配能力有待加强。一是算力资源获取上,据斯坦福《2024 年人工智能指数报告》估算,OpenAI的 GPT-4 预计使用了价值 7800 万美元的计算资源进行训练,而谷歌的 Gemini Ultra 耗费了高达 1.91 亿美元的计算资源成本。目前大模型研发已进入万卡时代,一家企业如果想拥有自己的大模型,至少需要几十亿投资,对于中小企业来说算力成本过高。二是算力应用上,大模型训练、推理等业务场景的出现促使企业业务对多样化算力需求提升,如今产业界不论是模型还是算力芯片,正处于百花齐放、创新并存的阶段,算力资源多元并用,多元算力与多种模型及框架的适配难度较大。另外,大模型应用能够帮助企业更高效率的实现商业目标,但对于绝大多数企业而言,大模型的应用开发流程繁琐,模型设计、训练、调优等环节需要专业开发人员,自研大模型成本高且研发门槛过高。1.2.5 挑战五:供应链完备性不足,生态构建待完善一是随着多元异构算力的发展,不同 OS、固件、整机、芯片平台兼容性问题突出,不同硬件生态系统封闭且互不兼容,给算力使用方带来一系列技术挑战。二是算力服务商资源采购受各厂商芯片生态影响,存在应用与硬件紧耦合、难迁移问题。如一些芯片厂商为了维护自身利益,会构建相对封闭的生态系统,限制其他厂商或第三方开发者的接入。这种封闭性导致应用开发者只能针对特定厂商的芯片进行优化和定制,进一步加剧了应用与硬件之间的紧耦合关系。1.2.6 挑战六:性能评价简单,算力实测性能欠缺现有算力评估体系评估场景简单,无法全面、深入地反映算力应用的实际效果。如今算力基础设施面临着更高的建设与发展要求,应对算力质量进行系统评估,保障算力安全稳定运行和资源高效利用。在万亿参数模型的训练过程中,软硬件组件需精密配合,一旦出现问题,其定界与定位过程极为复杂。根据公开资料显示,业界在硬件故障定位上通常需要 1-2 天,复杂应用类故障的定位时间则更长。节点故障不仅会导致训练时间大幅延长,还会对算力资源造成巨大浪费。然而,当前算力评估体系由于评估场景相对单一,往往难以全面、深入地揭示算力应用在实际复杂环境中的真实效果,测试评估指标主要以单芯片性能测试为主,测试结果偏理论,参考价值有限,对于多场景下算力的性能评估也缺乏深入研究与重视,这严重限制了评估体系在指导高效能、多元化算力资源配置中的应用广度和效果。
欢迎大家添加CIO时代“小希”,
加入“智算交流群”,
后续将有更多精彩算力内容活动及礼品邀您互动!
免责声明:本文系网络转载,版权归原作者所有。但因转载众多,或无法确认真正原始作者,故仅标明转载来源,如涉及作品版权问题,请与我们联系,我们将在第一时间协商版权问题或删除内容!内容为作者个人观点,并不代表本公众号赞同其观点和对其真实性负责。