我们经常认为软件是完全数字化的存在,是一个完全独立于“原子”世界的“比特”世界。我们可以将无限量的数据下载到手机上,而手机的重量却丝毫不会变重;我们可以观看数百部电影而不用接触物理磁盘;我们可以收集数百本书而不用拥有一张纸。
但数字基础设施最终需要物理基础设施。所有这些软件都需要某种计算机来运行。需要的计算越多,所需的物理基础设施就越多。几周前,我们在 研究制造现代半导体所需的价值200 亿美元的庞大设施时看到了这一点 。我们在最先进的 AI 软件中也看到了这一点。创建一个尖端的大型语言模型需要大量的计算,既要训练模型,也要在模型完成后运行它们。训练 OpenAI 的 GPT-4 大约需要 210 亿 petaFLOP (1 petaFLOP 是 10^15 次浮点运算)。1相比之下 ,iPhone 12 每秒能够进行大约 11 万亿次浮点运算(每秒 0.01 petaFLOP),这意味着如果你能够以某种方式在 iPhone 12 上训练 GPT-4,则需要超过 60,000 年才能完成。在 1997 年推出的100 Mhz Pentium 处理器上 ,每秒仅能进行 920 万次浮点运算,理论上训练需要超过 660 亿年。GPT-4 并不是一个例外,而是 AI 模型变得越来越大、需要更多计算才能创建的长期趋势的一部分。
但 GPT-4 当然不是在 iPhone 上训练的。它是 在数据中心训练的,该数据中心位于一栋专门设计的建筑物中,由数万台计算机及其所需的支持基础设施组成。随着各家公司竞相创建自己的 AI 模型,它们正在构建巨大的计算能力来训练和运行这些模型。 为了满足 AI 需求的增长,亚马逊计划未来 15 年在数据中心上 投资 1500 亿美元。仅在 2024 年,Meta 就计划在基础设施和数据中心上投资370 亿美元 ,其中大部分与 AI 相关。为 AI 公司提供云计算和计算服务的初创公司 Coreweave 已筹集数十亿美元资金来建设其基础设施,并将 在 2024 年建设 28 个数据中心。所谓的“超大规模企业”,即拥有大量计算需求的科技公司,如 Meta、亚马逊和谷歌,估计它们计划或正在开发的数据中心足以将其现有容量翻一番。在全国各地的城市,数据中心建设正在飙升。
但即使对容量的需求猛增,建设更多数据中心也可能变得越来越困难。特别是,运营数据中心需要大量电力,而可用电力正迅速成为数据中心建设的制约因素。 美国十大公用事业公司 中有九家将数据中心列为客户增长的主要来源,而 对数据中心专业人士的调查 将电力可用性和价格列为推动数据中心选址的两大因素。随着即将建设的数据中心数量创下历史新高,问题只会变得更加严重。
输掉 AI 领先竞争的后续影响值得考虑。如果过去几年的快速发展持续下去,先进的 AI 系统将极大地加速科技进步和经济增长。强大的 AI 系统对国家安全也非常重要,可以实现新型的进攻和防御技术。失去 AI 发展的前沿将严重削弱我们的国家安全能力以及我们塑造未来的能力。而 另一项 主要在美国发明和开发的变革性技术将输给外国竞争对手。
人工智能依赖于稳定电力的可用性。美国在创新清洁稳定电力新来源方面的领导地位可以而且应该得到利用,以确保未来的人工智能数据中心建设在这里进行。
数据中心的工作原理
大型数据中心的典型布局,来自“数据中心作为一台计算机”。
数据中心是一种非常简单的结构:一个容纳计算机或其他 IT 设备的空间。它可以是一个装有服务器的小柜子,也可以是办公楼里的几个房间,甚至可以是专门为容纳计算机而建造的大型独立结构。
大型计算设备始终需要设计专门的空间来容纳它。当 IBM 在 1964 年推出其 System/360 时,它提供了一份 200 页的 物理规划手册 ,其中提供了有关空间和电源需求、工作温度范围、空气过滤建议以及计算机正常运行所需的所有其他信息。但从历史上看,即使是大型计算操作也可以在主要用于其他用途的建筑物内完成。即使在今天,大多数“数据中心”也只是多用途建筑中的房间或楼层。 根据 EIA 的数据,截至 2012 年,全国 97,000 栋建筑中设有数据中心,包括办公室、学校、实验室和仓库。这些数据中心通常面积约为 2,000 平方英尺,平均仅占用其所在建筑的 2%。
我们所认为的现代数据中心,即专门建造的容纳数万台计算机的大型建筑,在很大程度上是后互联网时代的产物。谷歌的第一个“数据中心”是 一个 28 平方英尺的笼子,里面有 30 台服务器,与 AltaVista、eBay 和 Inktomi共享空间。如今,谷歌 在 全球 37 个专用数据中心运营着 数百万台服务器 ,其中一些数据中心的面积接近一百万平方英尺。这些数据中心以及 全球数千个 其他数据中心为网络应用、流媒体视频、云存储和人工智能工具等互联网服务提供支持。
大型现代化数据中心包含数以万计的独立计算机,这些计算机经过专门设计,可以垂直堆叠在大型机架中。机架一次可容纳数十台计算机,以及操作这些计算机所需的其他设备,如网络交换机、电源和备用电池。数据中心内部的走廊包含数十或数百个机架。
服务器机架,来自“数据中心即计算机”。机架以“单位”为单位,一个单位高 1.75 英寸。常见的机架容量为 42U 或 48U,但也有许多其他容量可供选择。
数据中心所容纳的计算机设备数量意味着其会消耗大量电力。单台计算机并不是特别耗电:机架式服务器可能消耗几百瓦电力,或约为 吹风机功率的 1/5 。但数以万计的计算机加在一起会产生巨大的需求。今天,大型数据中心可能需要 100 兆瓦(1 亿瓦)或更多的电力。这大约相当于 75,000 户家庭所需的电力,或在电弧炉 中熔化 150 吨钢所需的电力 。2事实上,电力需求如此重要,以至于数据中心通常以它们消耗的电力来衡量,而不是以平方英尺为单位(这份 CBRE 报告 估计,美国正在建设的数据中心容量为 3,077.8 兆瓦,但具体数字未知)。它们的电力需求意味着数据中心需要大型变压器、高容量电气设备(如开关设备),在某些情况下甚至需要一个新的 变电站 来将它们连接到输电线。
所有这些电力最终都会在数据中心内转化为热量,这意味着它需要同样坚固的设备来在通电后尽快将热量散发出去。机架位于架空地板上,通过从下方吸入并穿过设备的大量空气保持凉爽。机架通常布置成交替的“热通道”(热空气排出的地方)和“冷通道”(冷空气吸入的地方)。热废气由数据中心的冷却系统排出,冷却后再循环。这些冷却系统可能很复杂,具有多个热交换流体“冷却回路”,但几乎所有数据中心都使用空气来冷却 IT 设备本身。
热通道冷通道数据中心布置,通过 42U。
三环路数据中心冷却系统,来自“数据中心即计算机”。
这些冷却系统规模庞大,这并不令人意外。去除一千瓦电力所需的最小空气量约为每分钟 120 立方英尺;对于 100 兆瓦电力,这意味着每分钟 1200 万立方英尺。数据中心冷却器的冷却系统容量是普通家用空调的数千倍。即使是相对较小的数据中心也会有巨大的空气管道、高容量冷却设备和大型冷却塔。 此视频 展示了一个拥有一百万加仑“冷电池”水箱的数据中心:水在夜间电费较低时冷却,并在白天用于减轻冷却系统的负担。
由于耗电量巨大,人们付出了巨大的努力来提高数据中心的能源效率。数据中心的一个常见性能指标是电源使用效率 (PUE),即数据中心消耗的总电量与其 IT 设备消耗的电量之比。该比率越低,除运行计算机之外的其他用途所用的电量就越少,数据中心的效率就越高。
数据中心的 PUE 一直在稳步下降。2007 年,大型数据中心的平均 PUE 约为 2.5:为计算机供电的每瓦电力中,有 1.5 瓦用于冷却系统、备用电源或其他设备。如今,平均 PUE 已降至 1.5 多一点。超大规模企业的表现甚至更好:Meta 的平均数据中心 PUE 仅为 1.09,而 Google 的为 1.1。这些改进来自诸如更高效的组件(例如转换损耗更低的不间断电源系统)、更好的数据中心架构(改为热通道、冷通道布置)以及在更高的温度下运行数据中心,从而减少冷却需求。
大型数据中心的平均PUE
567名受访者对“您最大的数据中心的PUE是多少?”的平均回应
电力进入计算机后,效率也有所提高。计算机必须将电网中的交流电转换为直流电;在旧式计算机上,这种转换效率只有 60-70%,但现代组件可以实现高达 95% 的转换效率。无论是否在做有用工作,旧式计算机都会使用几乎相同的电量。但现代计算机在空闲时更有能力降低功耗,从而减少电力消耗。而且,由于摩尔定律,计算本身的能源效率随着时间的推移而提高:晶体管越来越小,意味着运行它们所需的电力更少,这意味着给定量的计算所需的功率更少。从 1970 年到 2020 年,计算的能源效率大约每 1.5 年翻一番。
由于数据中心效率的稳步提高,尽管单个数据中心变得越来越大,耗电量越来越大,但数据中心整体的耗电量却出人意料地保持平稳。在美国,数据中心的能耗在 2000 年至 2007 年间翻了一番,但在接下来的 10 年里一直保持平稳,尽管全球互联网流量增长了 20 倍以上。2015 年至 2022 年间,全球数据中心的能耗预计将增长 20% 至 70%,但数据中心的工作量增长了 340%,互联网流量增长了 600%。
2000 年至 2014 年数据中心的用电量,来自 LBL。
全球互联网和数据中心趋势
除了功耗之外,可靠性是数据中心设计的另一个关键因素。一个数据中心可能服务于数百万客户,服务中断每分钟可能造成数万美元的损失。因此,数据中心的设计旨在最大限度地降低停机风险。数据中心可靠性按等级系统分级,从一级到四级,较高等级比较低等级更可靠。3
选择数据中心可靠性要求
美国大多数大型数据中心的等级介于 Tier III 和 Tier IV 之间。它们配备备用柴油发电机、冗余组件以防止单点故障、多条独立的供电和冷却路径等。Tier IV 数据中心理论上可实现 99.995% 的正常运行时间,但实际上人为错误往往会降低这一可靠性水平。
2N 冗余电源系统,其中每个电源组件(供电、发电机、UPS 等)都有完整备份。来自 数据中心建造者圣经。
随着时间的推移,数据中心的规模越来越大,耗电量也随之增加。21 世纪初,数据中心的一个机架可能消耗一千瓦电力。如今,企业数据中心的典型机架耗电量为 10 千瓦或更少,而超大规模数据中心的机架耗电量可能达到 20 千瓦或更多。同样,10 年前,几乎所有数据中心的耗电量都低于 10 兆瓦,但如今大型数据中心的耗电量将达到 100 兆瓦或更多。而且,许多公司正在建设包含多个独立数据中心的大型园区,将总电力需求推高至 千兆瓦范围。备受关注的亚马逊购买核电数据中心就是这样一个园区;它包括一个现有的 48 兆瓦数据中心 和足够的扩展空间,总容量可达到 960 兆瓦 。随着超大规模数据中心占据 数据中心总容量的更大比例 ,大型数据中心和园区将变得更加普遍。
如今,数据中心仍只占整体电力需求的一小部分。国际能源署估计,截至 2022 年,全球数据中心消耗的电力占全球电力需求的 1% 至 1.3%(另有 0.4% 的电力用于加密货币挖矿)。但预计这一数字会随着时间的推移而增长。SemiAnalysis 预测,到 2030 年,数据中心的电力消耗可能会增加两倍,达到全球电力消耗的 3% 至 4.5%。而且由于数据中心建设往往高度集中,数据中心已经是某些市场最大的电力消耗者之一。例如,在爱尔兰,数据中心使用了近 18% 的电力,到 2028 年可能会增加到 30%。在全球最大的数据中心市场弗吉尼亚州, 弗吉尼亚电力公司出售的电力中有 24% 流向了数据中心。
电力供应已经成为建设新数据中心的主要瓶颈。一些司法管辖区,包括数据中心历来是主要业务的司法管辖区,正在缩减建设。新加坡是世界上最大的数据中心枢纽之一,但在 2019 年至 2022 年期间暂停了数据中心的建设,并 在暂停期结束后 制定了严格的效率要求。在爱尔兰,都柏林地区已暂停 建设新数据中心,直至 2028 年。北弗吉尼亚州是世界上最大的数据中心市场,但 最近, 由于电力供应问题,一个县有史以来首次拒绝了数据中心申请。
在美国,建设新电力基础设施的困难使问题更加严重。公用事业公司建设的 输电线路数量 达到历史最低水平,而冗长的互连队列 也推迟了新的发电来源。从公用事业公司的角度来看,数据中心尤其具有挑战性,因为它们的需求或多或少是恒定的,从而提供了更少的 负载转移机会 ,并对稳定电力产生了更大的需求。一家数据中心公司老板 声称 ,美国的数据中心几乎“断电”,主要是因为输电容量不足。Meta 首席执行官马克·扎克伯格 也发表了类似的说法,他指出“如果我们有足够的能源,我们可能会建设比现在更大的集群”。一位能源顾问 简洁地总结了这个问题 :“数据中心的建设周期为一到两年,但能源可用性却是三年之久。”
电力基础设施问题的一部分是时间错配。公用事业公司将主要电力基础设施视为一项长期投资,旨在应对持续的需求增长。任何新的电力基础设施的使用时间都可能 比数据中心的寿命要长得多 ,而公用事业公司可能不愿意仅仅为了容纳它们而建造新的基础设施。在某些情况下,数据中心和公用事业公司之间必须签订长期协议才能建造新的基础设施。俄亥俄州一家电力公司 最近提交了一份提案 ,要求数据中心从公用事业公司购买 90% 的电力,无论它们使用了多少电力。为北弗吉尼亚州供电的杜克能源公司也同样对数据中心提出了 最低购买量要求 ,要求它们购买最低限度的电力。
数据中心建设者正在通过探索替代地点和能源来应对有限的电力供应。从历史上看,数据中心建在主要需求源(如大都市区)或主要互联网基础设施附近,以减少延迟。4但 这些地区 电力短缺和 邻避主义的兴起可能会将数据中心建设转移到电力更容易获得的小城市。建设者也在尝试公用电力的替代方案,例如 连接到微电网的本地太阳能和风力发电、 天然气燃料电池和 小型模块化反应堆。
人工智能的影响
人工智能将对数据中心建设产生什么影响?有人预测,人工智能模型将变得如此庞大,训练它们所需的计算量如此之大,以至于几年内数据中心可能会使用 所有电力的 20%。 怀疑论者 指出,历史上数据中心需求的增长几乎完全被数据中心效率的提高所抵消。他们指出,Nvidia 的新型、更高效的人工智能超级计算机(GB200 NVL72)、计算效率更高的人工智能模型以及未来潜在的超高效芯片技术(如 光子学 或 超导芯片) 等都表明这一趋势将继续下去。
我们可以将人工智能对数据中心的可能影响分为两个独立的问题:对单个数据中心及其所在地区的影响以及数据中心整体对总功耗的影响。
对于单个数据中心,AI 可能会继续推动其规模更大、功耗更高。如前所述,训练和运行 AI 模型需要大量计算,而为 AI 设计的专用计算机会消耗大量电力。虽然典型数据中心的机架功耗约为 5 到 10 千瓦,但 Nvidia superPOD 数据中心包含 32 个 H100(Nvidia 正在以数百万台的速度销售的专为 AI 工作负载设计的专用图形处理单元或 GPU)的机架功耗可能超过 40 千瓦。虽然 Nvidia 的新款 GB200 NVL72 可以更高效地训练和运行 AI 模型,但从绝对意义上讲,它的功耗要高得多,每个机架的功耗高达 120 千瓦。 未来专用于 AI 的芯片 功耗可能会更高。即使未来的芯片计算效率更高(而且很有可能如此),它们仍将消耗更大的电量。
这种功率不仅远远超出了大多数现有数据中心的设计输出能力,而且废热量也开始突破传统空气冷却系统能够有效消除的界限。传统空气冷却可能仅限于约 20 至 30 千瓦的机架,如果使用后部热交换器,则可能为 50 千瓦。 一份数据中心设计指南 指出,人工智能需求可能需要大量的气流,因此设备需要间隔开来,由于气流通道很大,IT 设备仅占数据中心地板空间的 10%。对于其 H100 superPOD, Nvidia 建议 要么每个机架使用更少的计算机,要么将机架间隔开来以分散电力需求和冷却要求。
由于目前的数据中心不一定适合 AI 工作负载,因此 AI 需求可能会导致专门为 AI 设计的数据中心。SemiAnalysis 预测 ,到 2028 年,超过一半的数据中心将用于 AI。Meta 最近 取消了几个数据中心项目 ,以便重新设计它们以处理 AI 工作负载。AI 数据中心需要能够为单个机架提供更大的电力,并在电力转化为废热时将其移除。这可能意味着从空气冷却转向液体冷却,液体冷却使用水或其他导热流体从计算机和 IT 设备中去除热量。在不久的将来,这可能意味着直接到芯片的冷却,其中流体直接通过管道输送到计算机芯片周围。谷歌为 AI 工作设计的张量处理单元 (TPU) 和 Nvidia 的 GB200 NVL72 已经采用了这种策略。从长远来看,我们可能会看到浸入式冷却,其中整个计算机都浸入导热流体中。
无论采用何种冷却技术,这些专用于人工智能的数据中心都消耗大量电力,需要建设大量新的电力基础设施,如输电线路、变电站和稳定的低碳电力来源,以满足科技公司的气候目标。解除这些基础设施建设的阻碍对于美国在人工智能竞赛中保持领先地位至关重要。
我们的第二个问题是人工智能对数据中心总功耗的影响。人工智能是否会促使数据中心消耗美国越来越大的电力份额,从而危及气候目标?还是说,即使单个人工智能数据中心变得非常庞大,效率的提高是否意味着数据中心总功耗的增加微乎其微?
这更难预测,但结果可能介于两者之间。怀疑论者正确地指出,从历史上看,数据中心的功耗增长远低于需求,芯片和人工智能模型可能会变得更高效,而对当前功率需求的天真推断可能不准确。但也有理由相信,数据中心的功耗仍将大幅上升。在某些情况下,效率改进被夸大了。Nvidia 的 NVL72 的效率改进在实践中可能远低于 Nvidia 用于营销目的的 25 倍数字。许多电力需求预测,例如超大规模企业内部使用的预测,已经考虑到了未来的效率改进。虽然超导芯片或光子学等新型超低功耗芯片技术可能是未来的可行选择,但这些都是遥远的技术,在未来几年内不会解决电力问题。
从某种程度上来说,数据中心节能的机会比以前少了很多。从历史上看,数据中心的电力消耗基本持平,主要是因为 PUE 增加(用于冷却、UPS 系统等的电力减少)。但其中许多收益已经实现:最好的数据中心已经只将 10% 的电力用于冷却和其他非 IT 设备。
怀疑论者还没有意识到 AI 模型可能会变得多么庞大,而提高的芯片效率可能会多么容易被更多的计算需求所吞噬。互联网流量用了大约 10 年的时间才增长了 20 倍,但尖端 AI 模型 每年的计算强度 却增加了4 到 7 倍。SemiAnalysis对数据中心的预测考虑了当前和预计的 AI 芯片订单、科技公司资本支出计划以及现有数据中心的功耗和 PUE 等因素,表明到 2030 年全球数据中心的功耗将增加两倍以上,达到全球电力需求的 4.5%。无论总体趋势如何,单个数据中心不断增长的电力需求仍将带来需要解决的基础设施和选址挑战。
我们的目标
互联网及其数字基础设施的兴起需要建设大量的物理基础设施来支持它:容纳数万台计算机和其他 IT 设备的数据中心。随着对这些基础设施的需求不断增加,数据中心变得越来越大,耗电量也越来越大。现代数据中心所需的电力与一座小城市相当,而多个数据中心的园区使用的电力与一座大型核反应堆相当。
人工智能的兴起将加速这一趋势,需要更多数据中心,而这些数据中心的耗电量也越来越大。为它们找到足够的电力将变得越来越具有挑战性。这已经开始推动数据中心建设到有可用电力的地区,随着数据中心建设和更广泛的电气化需求不断增加,这种限制只会变得更加严格。