Eric Flaningam 是 Felicis(风险投资公司)的投资人和研究员,近期他在 Substack (在线内容分享平台)分享了一篇关于人工智能数据中心的文章,详细阐述了人工智能数据中心发展的历史、技术和企业概况,适合想了解数据中心的读者作为入门读物阅读。
我们对作者的文章做了整理和翻译,希望可以给到大家一些思考和启发,原文内容可以通过点击「阅读原文」链接进行查阅。
📝 文章正文
我们正处于历史上规模最大的计算基础设施的建设期。当今的场景很像一百多年前的电网建设。在电网的诞生过程中,我们看到了发电厂规模扩张、天文数字的资本支出和电力成本的急剧下降。今天,我们看到的是数据中心的规模扩张、来自超大规模供应商的大额资本支出,以及人工智能计算成本的骤降。
这是一篇对人工智能数据中心的介绍文章,我们将分几部分对人工智能数据中心进行系统性分析:它是什么、上下游企业链,以及潜在的投资机会。
01 人工智能数据中心概述
“数据中心”这个词并不能准确描述这些人工智能工厂的庞大规模。研究发现,超大数据中心的建设需要耗资数十亿美元,包括土地、电力和冷却设备、建设成本、GPU 以及其他计算基础设施。
这还不包括能源成本。如果我们算上能源成本,一个超大规模数据中心将消耗高达 1 千兆瓦的能源。作为参考,纽约市的电力消耗约为 5.5 千兆瓦。因此,每五个这样的超大数据中心,我们就在电网中增加了一个相当于纽约市的负荷。
我们可以将数据中心的价值链大致分为几个类别:开发数据中心的初始建设、支持数据中心的工业设备、数据中心的计算基础设施,以及数据中心供电所需的能源。此外,还有一些公司拥有或租赁数据中心,为消费者提供终端服务。
在这里,我们可以将价值链形象化:
注意:这幅图片并没有触及数据中心所涉及的每一家公司。金融家、房地产开发商、建筑公司和其他许多公司都为数据中心的建设做出了贡献。
在深入探讨之前,我们应该先看看数据中心的历史,这与我们今天看到的能源紧缺尤其相关,特别是在美国北弗吉尼亚地区。
02 数据中心的简史
数据中心在很大程度上是随计算机和互联网的兴起而发展的,我将简要讨论这些趋势的发展历史以及我们是如何走到今天的。
2.1 数据中心的早期历史
早期版本的计算机看起来与今天的数据中心相似:一个集中式计算机,旨在计算密集型的复杂任务。
我们有两个早期的例子:
1. Colossus:艾伦·图灵(Alan Turing)为了破译恩尼格玛机而建造的计算机。
2. ENIAC:二战期间美国军方设计的计算机,但直到 1946 年才完成。Colossus 是在 ENIAC 之前建造的,但由于 Colossus 的保密性质,ENIAC 通常被视为第一台计算机。
这两个计算机都可以被称之为“最早的数据中心”。
20 世纪 50 年代,IBM 凭借其推出的大型计算机成为了计算机领域的霸主,并在计算机技术领域占据了数十年的主导地位。AT&T 也是当时另一家占主导地位的科技公司。
1969 年发布的 ARPANET(阿帕网)是为了连接美国日益增多的计算机而开发的,它现在被认为是互联网的早期版本。由于这是一个政府项目,其最密集的连接主要集中在美国华盛顿特区附近。
这就是美国北弗吉尼亚州在计算领域占据主导地位的根本原因。时至今日,随着新一代数据中心的建立,他们希望利用现有的基础设施,于是更多的数据中心在弗吉尼亚州北部地区建立和发展。
2.2 互联网和云的崛起
20 世纪 90 年代,随着互联网的发展,我们需要更多的物理基础设施来处理日益增长的互联网数据,这在一定程度上表现为数据中心作为互联互通的节点。AT&T(美国电话电报公司)等电信提供商已经建立了通信基础设施,因此,对他们来说,建设数据中心是顺理成章的扩张。
然而,这些电信公司的合作竞争态势与今天的垂直整合云提供商类似。AT&T 拥有通过其基础设施传输的数据以及基础设施本身。因此,在容量有限的情况下,AT&T 会优先处理自己的数据。公司对这种动态保持警惕,这导致了 Digital Realty 和 Equinix 等数据中心公司的崛起。
在整个互联网泡沫期间,数据中心得到了大量投资,但泡沫破灭后,投资速度明显放缓。
2006 年,随着亚马逊 AWS(Amazon Web Services)的发布,数据中心的低迷状态开始扭转。从那时起,美国的数据中心容量开始稳步增长。到今天,这种稳定的增长还在持续,据估计,到 2030 年,数据中心的容量将翻一番。
2.3 进入人工智能数据中心
2023 年人工智能狂潮席卷而来,模型训练所需的算力资源促使人们重新关注数据中心的规模。研究发现,计算基础设施之间的距离越近,性能就越强。此外,当数据中心被设计为计算单元而不仅仅是服务器机房时,企业可以获得额外的集成优势。不仅如此,由于模型训练不需要靠近最终用户,数据中心可以建在任何地方。
总结当今的人工智能数据中心的特点:注重规模、性能和成本,而且可以在任何地方建造。
03 如何构建人工智能数据中心
3.1 构建人工智能数据中心
构建数据中心有两种方式,算力提供商可以选择自行构建,或者与数据中心开发商(如 Vantage、QTS 或 Equinix)合作完成。
首先他们需要寻找一个合适的地方。然后会需要聘请一名总承包商来管理整个建设过程,总承包商会根据功能分别聘请专业的分包商进行施工,如电气、管道、暖通空调等。工人们将在项目进行期间搬到该地区。数据中心建筑外壳搭建完成后,下一步是安装设备。
数据中心的工业设备大致可分为电气设备和冷却设备两个部分。
1. 电器设备:电气设备主要包含能够连接外部能源的主开关柜、配电装置、不间断电源(UPS)和服务器电源连接线。大多数数据中心还配有柴油发电机,作为停电时的备用电源。
2. 冷却设备:主要包括冷却器、冷却塔、暖通空调设备(HVAC)以及连接服务器本身的冷却液或空气冷却设备。
3.2 人工智能数据中心的计算
数据中心计算所需的基础设施主要包括运行模型训练和推理工作负载的设备。主要设备是 GPU 或加速器(Accelerator)。除了 Nvidia、AMD 和超级计算机之外,还有许多初创公司也在争夺人工智能加速器这块蛋糕。
虽然 CPU 的重要性不如过去,但在执行复杂运算和"任务分配"方面仍然扮演着重要角色。在数据存储方面,存储设备负责将数据保存在芯片之外,而内存则专门用于存储需要频繁访问的数据。至于网络,它的作用是连接所有组件,实现服务器内部以及服务器与外部之间的通信。
最后,所有这些都被打包到服务器中,安装在数据中心。如下图所示,我们可以在这里直观地看到其中一台服务器。
3.3 为人工智能数据中心提供动力
能源供应链大致可分为以下几个部分。
1. 电力来源:可以发电的化石燃料、可再生能源和核能。
2. 发电:发电厂将化石燃料转化为电能;而可再生能源的发电则更接近电能的来源。
3. 输电:变压器和变电站将高压电能转换为可控的电能,并通过高压线向目的地输电,以供人们使用。
4. 配电:公共事业公司将管理最后一英里的配电,并通过购电协议 (PPA) 管理电力的输送。
输电和配电就是通常所说的电网,由当地管理,根据地点的不同,其中任何一个都可能成为能源输送的瓶颈。
事实证明,能源是人工智能数据中心建设的关键瓶颈。
遗憾的是,要快速提高能源容量并不容易。数据中心有两种选择:并网能源和离网能源。1)并网能源通过电网,由公用事业公司分配。2)离网能源绕过电网,如太阳能、风能和电池。3)除此之外,还可以选择在 2.5 千兆瓦核电站旁边建造一个千兆瓦数据中心,这样效果会更好。
使用电网能源的问题在于扩大电网容量所需的时间。下图显示了公司申请商业用电需要的等待时间。
04 人工智能数据中心的特点
新一代数据中心规模更大、密度更高、速度更快、能耗更高。建设超大规模的数据中心并非新鲜事。从 2001 年的几兆瓦,到 2010 年代的 50 兆瓦,到 2020 年的 120 兆瓦大型数据中心,再到今天的千兆瓦级数据中心,每隔几年就会有关于数据中心超大规模的文章。
这些千兆瓦的数据中心从系统角度进行设计,密度也更高。这里要解决的核心问题是摩尔定律的放缓,即随着晶体管密度的增加,半导体的性能将不断提高。然而,晶体管的改进正变得越来越具有挑战。因此,解决方案是将服务器甚至整个数据中心更紧密地结合在一起。
在实践中,这意味着数据中心正在被设计成集成系统,而不是堆满单个服务器的房间。这些服务器也被设计成集成系统,使所有设备更紧密地结合在一起。
这就是 Nvidia 销售服务器和 POD(最小的可部署计算单元)的原因,也是超大规模企业建设系统级数据中心的原因, 大概也是 AMD 收购 ZT Systems 的原因。
我们可以在下面看到 Nvidia DGX H100 的视觉效果,它可以是一台独立的服务器,也可以通过 POD(最小的可部署计算单元)与其他 GPU 相连,或者通过 SuperPOD(超级计算集群)连接,以实现更多连接。
Nvidia 还帮助开创了加速计算,即从 CPU 中卸载任务,从而提高了包括 GPU、网络和软件在内的所有其他组件的重要性。
除此之外,人工智能的独特需求还要求处理海量数据。这就使得存储越来越多的数据(内存 /存储)和快速移动越来越多数据的能力变得更加重要。这类似于心脏泵血,GPU 是心脏,数据是血液。
这些零部件汇聚在一起,形成了这个星球上最强大的计算机。然而随着计算能力的提升,也会导致更多的能源消耗、更多的热量产生以及每台服务器所需的更多冷却,而且这种能耗只会越来越高。
05 人工智能数据中心构建的机遇和挑战
5.1 并网和离网
很明显,我们的能源基础设施需要发展,以支持这种建设。几乎每家科技公司都希望使用电网供电,因为这样更可靠,管理起来也更省事。不幸的是,当电网无法提供电力时,超大规模的科技企业就需要自行解决电力问题。例如,AWS 将投资 110 亿美元在印第安纳州建设一个数据中心园区,并建设四个太阳能发电场和一个风力发电场(600 兆瓦)为其供电。
从中长期来看,我最看好解决能源瓶颈的两个领域:核能和高储能电池。这两个领域都能为数据中心提供更具可持续性的能源。
核电的优点有目共睹:清洁、可靠。现在的挑战是如何以经济可行的方式建造核电。依我来看,世界上一些最令人兴奋的初创公司正在应对这一挑战。
高储能电池创新将是可再生能源向前迈出的重要一步。太阳能和风能的问题在于它们的不稳定性。它们只能在刮风或太阳出来时提供能源,而长期电池可以在能源过剩时储存能源,在能源匮乏时调配能源,从而帮助解决这一问题。
5.2 施工许可自动化和冷却液
在工业方面,我对施工许可自动化和液体冷却这两个趋势感到兴奋。
1. 施工许可自动化:当我与研究人员交谈时,有一个话题始终是制约数据中心建设的瓶颈:施工许可。对于数据中心和能源扩建,开发商需要获得建筑、环境、分区、噪音等方面的许可。他们可能需要获得地方、州和国家机构的批准。此外,还需要遵守不同地区的优先购买权法律。
2. 冷却液:新型人工智能数据中心的一个明显不同是服务器产生的热量越来越大。这一代数据中心将采用液冷技术,而下一代数据中心可能会采用浸入式冷却。
5.3 向科技公司致敬
我们必须承认:(1)Nvidia 在构建生态系统方面所做的了不起的工作;(2)AMD 在巩固自己作为后来者所做的努力。
从应用到软件基础设施,再到云计算、系统和芯片, Nvidia 在人工智能领域的地位之高令人难以置信。如果你想编写一本为技术浪潮做准备的完美剧本,Nvidia 已经做到了。此外,Crusoe 是另一家优秀的算力基础设施建设公司,它同时提供人工智能计算资源和能源服务。
总的来说,参与数据中心建设的科技公司应该会继续保持良好的业绩,因为收入会在价值链中流动。从网络到存储,再到服务器,如果一家公司能提供顶级性能,那么他们的业绩就会表现出色。
5.4 最后的思考
关于数据中心建设,我的最后一点想法是:这的确是一个我们这个时代新的大趋势,但它可能只是整个计算发展史的一部分。我认为人工智能、数据中心和算力这三者是一个整体,不能分开讨论。
正如萨姆·奥特曼(Sam Altman)所描述的那样:
“我们可以从一个狭义的角度来看待人类历史:经过数千年的科学发现和技术进步,我们已经知道如何熔化沙子,加入一些杂质,以惊人的精度和超小的规模将其排列成计算机芯片,通过它运行能量,最终形成能够创造出越来越强大的人工智能的系统。”
在过去的 100 年历史中, 创造智能是一个始终不变的趋势,而数据中心正是当今这一趋势的核心。
📮 更多阅读