AI数据中心历史、技术与关键企业

科技 2024-12-13 18:54 北京

文章转载自公众号：OneFlow。本文只做学术/技术分享，如有侵权，联系删文。

过去一年，通过模型架构创新、更优质训练数据和更大算力规模来训练模型，顶尖大模型之间的性能差距急剧缩小。

如果Scaling law依然有效，为了进一步扩展模型规模与性能，在模型架构创新存在极大不确定性情况下，通过获得更多的算力来建造全新的数据中心，从而更快地训练模型以取得领先地位，这是确定性更高的收益。目前，以马斯克xAI为代表的大模型公司，快速部署了10万台GPU集群，成为数据中心扩展的领头羊，可预见的是，所需算力的数据还会成倍增长。

不过，正如人类最初构建电网那样，建设数据中心是一项复杂的业务。在本文中，风险投资专家Eric Flaningam从历史、技术及关键企业探讨来构建AI数据中心所需的基础设施。

（本文由OneFlow编译发布，转载请联系授权。原文：https://www.generativevalue.com/p/a-primer-on-ai-data-center/）

题图由SiliconCloud平台生成

“正如当时一位金融家所观察到的，新兴的美国电力系统所需的资金量‘令人震惊’，听起来‘像是天文数字，而非实实在在、辛苦赚来的钱。’”——[1900年左右电网建设的描述] 《电力损耗》，理查德·赫什，1999 年，摘自《建设物理学》

我们正身处有史以来最大规模的计算基础设施扩建之中。

百余年前，我们见证了电网的类似扩张（讽刺的是，这如今却成了当前扩张的瓶颈）。在电网诞生过程中，我们目睹了发电厂规模的扩大（尽可能建造大型发电厂以获取性能提升）、“天文数字”般的资本支出投入，以及电价的大幅下降。

当前，我们见证了数据中心的规模化发展，超大规模企业巨大的资本支出，以及AI计算成本的急剧下降：

图源：https://cloudedjudgement.substack.com/p/clouded-judgement-92724-the-foundation

这篇文章是一组系列文章的开篇之作，我将会在该系列中深入解析AI数据中心：其确切含义、谁提供数据中心组件，以及可能存在的机会所在。

01 AI数据中心概述

“数据中心”这一术语远不足以形容这些“AI工厂”（Jensen对其的爱称）的宏大规模。最大的数据中心耗资数十亿美元，涵盖土地、电力与冷却设备、建设成本、GPU及其他计算基础设施。

这还没算上能源成本。新建的、规模最大的超大规模数据中心将消耗高达1吉瓦（GW）的能源容量（纽约市消耗约5.5吉瓦）。因此，每拥有五个这样的巨型数据中心，我们就相当于在电网中增加了一个纽约市的用电量。

我们可以将数据中心价值链大致分为几个类别：数据中心的初期建设、支持数据中心的工业设备、数据中心内的计算基础设施，以及为数据中心供电所需的能源。此外，还有拥有或租赁数据中心以向消费者提供终端服务的公司。

其价值链如图所示：

（这张图并未涵盖所有涉及数据中心的公司。还有金融家、房地产开发商、建筑公司以及众多其他企业共同参与了这一建设。）

在深入探讨之前，我们先回顾一下数据中心的历史（这对我们如今面临的能源危机尤为重要，尤其是在北弗吉尼亚地区）。

02 数据中心简史

数据中心在很大程度上伴随着计算机和互联网的崛起而发展。我将简要探讨这些趋势的发展历史以及我们如何走到今天这一步。

数据中心早期历史

计算的早期版本与当今的数据中心相似：一台集中式计算机，旨在解决计算密集型且关键的任务。

我们有两个早期的例子：

1.巨像（Colossus） - 由艾伦·图灵建造，用于破解恩尼格玛密码机的计算机。（注：图灵也被认为是人工智能和计算机科学的奠基人。他提出了图灵测试，作为检验人工智能是否真实的一种手段，而 ChatGPT 在去年通过了这一测试）。

2.ENIAC - 由美国军方在二战期间设计，但直到1946年才完成的计算机。巨像机比ENIAC更早建造，但由于巨像机的机密性质，ENIAC常被视为第一台计算机。

两者目前都放置在“首批数据中心”的地方。

https://www.simslifecycle.com/blog/2022/the-journey-of-eniac-the-worlds-first-computer/

20世纪 50年代，IBM凭借大型机在计算机领域崛起并占据主导地位。这使得他们在接下来的数十年间在科技领域保持了统治地位，而AT&T则是当时另一家主导性的科技公司。

ARPANET（高级研究计划署网络），于1969年推出，是为了连接美国日益增长的计算机数量而开发的。现在，它被认为是互联网的最早版本。由于这是一个政府项目，其最密集的连接区域集中在华盛顿特区周围。

这便是北弗吉尼亚计算领域称霸的根源。每当新一代数据中心拔地而起，他们总希望利用现有的基础设施。而这一基础设施恰好位于北弗吉尼亚地区，至今依然如此！

https://www.visualcapitalist.com/cp/top-data-center-markets/

互联网与云端的崛起

20世纪90年代，随着互联网的发展，我们迫切需要更多的物理基础设施来处理日益增长的海量网络数据。其中，数据中心作为互联节点应运而生。像AT&T这样的电信运营商早已铺设了通信基础设施，因此，向数据中心领域拓展对他们而言是顺理成章的事情。

然而，这些电信公司与当今垂直整合的云服务提供商之间存在类似的竞合动态。AT&T不仅拥有通过其基础设施传输的数据，还拥有基础设施本身。因此，在容量有限的情况下，AT&T 会优先处理自己的数据。这种动态使得企业对其保持警惕，从而催生了Digital Realty和 Equinix等数据中心公司的崛起。

数据中心在互联网泡沫期间获得了大量投资，但泡沫破裂后投资显著放缓（我们在推断数据时应牢记这一教训）。

图源：https://www.fabricatedknowledge.com/p/lessons-from-history-the-rise-and

2006年，随着亚马逊网络服务的发布，数据中心开始扭转颓势，自那时起，美国数据中心容量基本上稳步增长。

https://www.datacenterknowledge.com/data-center-construction/catching-up-with-data-center-construction-constraints

走进人工智能数据中心

这种稳步增长一直持续到2023年，那时人工智能热潮席卷而来。据估计，到2030年，数据中心容量将翻倍（https://www.srgresearch.com/articles/hyperscale-data-centers-hit-the-thousand-mark-total-capacity-is-doubling-every-four-years）（请注意，这些只是估算）。

图源：https://www.semianalysis.com/p/ai-datacenter-energy-dilemma-race

AI训练的独特工作负载促使人们重新关注数据中心规模。计算基础设施越集中，性能就越优越。此外，当数据中心设计为计算单元而不仅仅是服务器时，企业可以获得额外的集成效益。

最后，由于训练无需靠近终端用户，所以数据中心可以建在任何地方。

当今AI数据中心的特点可以总结为：注重规模、性能和成本，并且可以灵活选址。

03 构建一个AI数据中心需要什么？

1. 构建AI数据中心

计算服务提供商（如超大规模云服务企业、AI公司、GPU云服务商）将自行建设数据中心，或与 Vantage、QTS、Equinix等数据中心开发商合作，寻找具备能源容量的土地。

接下来，他们会雇佣总承包商来管理施工过程，而总承包商则会聘请分包商负责各项功能（如电力、管道、暖通空调）并采购原材料。工人们将在项目进行期间迁至施工区域。在建造完成“建筑外壳”后，下一步是安装设备。

https://blog.rsisecurity.com/how-to-build-and-maintain-proper-data-center-security/

数据中心工业设备大致可分为电气设备和冷却设备。电气设备始于连接外部能源的主配电盘，随后连接至配电单元、不间断电源（UPS）以及连接至服务器机架的电缆。多数数据中心还配备柴油发电机，以应对断电情况。

第二类是机械与冷却设备，包括冷水机组、冷却塔、暖通空调设备，以及直接连接到服务器本身的液体或空气冷却系统。

2. AI数据中心的计算

计算基础设施包括运行AI训练和推理工作负载的设备。主要设备是GPU或加速器。除了英伟达、AMD和超大规模云服务提供商外，还有众多初创公司竞相争夺AI加速器市场的一席之地：

图源：https://www.chipstrat.com/p/etched-silicon-valleys-speedrun

CPU虽然不如过去重要，但其仍在完成复杂操作和“任务分配”中扮演着重要角色。存储设备将数据独立存储，而内存则存储需要频繁访问的数据。网络则连接服务器内外的所有组件。

最终，这些组件被包装成一个服务器安装在数据中心内。下图展示了一台服务器的示意图（注：存储设备通常是外置的）。

图源：https://www.nvidia.com/en-us/data-center/dgx-basepod/

3. 为AI数据中心供电

能源供应链大致分为以下几部分：

来源：化石燃料、可再生能源和核能。
发电：化石燃料通过发电厂转化为电能；可再生能源则更接近于源头完成这一过程。
传输：电力通过高压线传输至目的地附近。变压器和变电站将高压电能降为可管理的电压供使用。
公用事业/分配：公用事业公司管理最后一公里的电力分配，并通过购电协议（PPA）完成电力的交付。

传输和分配通常被称为“电网”，由当地管理。根据地点不同，这两者中的任意一个可能成为能源交付的瓶颈。

能源正成为AI数据中心建设的关键瓶颈。

不幸的是，快速提高能源容量并非易事。数据中心有两个选择：电网供能和离网供能。电网供能通过电网分配，而离网供能则绕过电网，如现场太阳能、风能和电池系统。更理想的情况是，将一个吉瓦级数据中心建在2.5 吉瓦核电厂附近！

电网供能的问题在于扩大电网容量所需的时间。下图展示了从申请传输容量到商业运行的等待时间（这指的是从能源源头申请输电容量到实际投入使用的时间）。

https://emp.lbl.gov/queues

解决这些挑战不可避免地需要多种方案的结合。更多内容将在最后部分讨论。

04 AI数据中心有哪些新变化？

这一代数据中心更大、更密集、更快，同时也对能源的需求更高。

“超大型化”数据中心并非新趋势。从2001年几兆瓦的数据中心，到2010年代50兆瓦的数据中心，再到2020年的“超大型120兆瓦”数据中心，如今已发展到千兆瓦级的数据中心。

这些千兆瓦级数据中心也更为密集，其设计理念从单纯的服务器堆砌转向了系统化的整体设计。背后的核心问题在于摩尔定律的放缓——即随着晶体管密度的增加，半导体性能将不断提高，但目前实现这种提升正变得愈发困难。因此，解决方案是让服务器，甚至整个数据中心更加紧密地结合在一起（https://www.fabricatedknowledge.com/p/the-data-center-is-the-new-compute）。

具体而言，这意味着数据中心正被设计为集成系统，而不是单纯的服务器堆积。这些服务器也被设计为更紧密集成的系统，从而缩短组件之间的距离。

因此，英伟达出售的不仅仅是服务器，还包括成套的POD和SuperPOD系统；超大规模计算公司正在建设系统化的数据中心（https://www.semianalysis.com/p/google-ai-infrastructure-supremacy）；而AMD收购ZT系统也是出于同样的考虑。

我们可以通过下图了解英伟达的DGX H100，这种设备可以单独作为服务器使用，也可以通过POD连接其他GPU，甚至可以通过SuperPOD进一步扩大规模：

图源：https://www.amax.com/nvidia-dgx-cloud/

英伟达还开创了“加速计算”的概念，将部分任务从CPU卸载到其他组件，这提高了GPU、网络和软件等其他组件的重要性。

AI的独特需求还包括处理海量数据。这使得存储更多数据（内存/存储）和更快地传输这些数据（网络）的能力变得至关重要。可以将这一过程比作心脏泵血——GPU是心脏，数据是血液。（这也是为什么谷歌TPU架构被称为“脉动阵列”的原因。

所有这些趋势汇聚在一起，构成了世界上最强大的计算机。这种强大的计算能力带来了更多的能源消耗、更多的热量产生，以及对每台服务器更高的冷却需求。这种能源消耗正在不断增长（与我们对计算能力的需求一同增加）：

https://www.goldmansachs.com/pdfs/insights/pages/generational-growth-ai-data-centers-and-the-coming-us-power-surge/report.pdf

05 瓶颈与受益者

这并非受益者的详尽清单，但却是目前我最关注的列表。整个供应链已极度紧张，我听闻各种瓶颈轶事，从缺乏熟练工人建造变压器，到自动化许可的审批难题。

1. 扩展（或增强）电网，或另辟蹊径

显然，我们的能源基础设施需要发展以支持这些建设。几乎每家科技公司都更倾向于使用电网电力：它更可靠且管理起来更省事。然而，当电网电力不可用时，超大规模企业开始亲自解决问题。例如，AWS正在印第安纳州投资110亿美元建设一个数据中心园区，并建设了四座太阳能发电站和一座风力发电站以供电（600 MW）。

从中长期来看，我最看好核能和电池这两个领域来解决能源瓶颈，为数据中心提供更可持续的能源来源。

核能的优势显而易见：清洁、可靠。然而，挑战在于如何以经济可行的方式建设核电站。一些初创企业正在努力解决这一问题。

长时电池创新将是可再生能源向前迈进的重要一步。太阳能和风能的问题在于不稳定性；它们仅在有风或日照时提供能源。长时电池通过在能源过剩时存储能量，在能源短缺时释放能量，从而解决这一问题。

2. 建设审批与液体冷却

在工业领域，我对审批自动化和液体冷却这两个趋势感到兴奋。在为本文做研究时，与我交谈的多位人士一致提到审批问题是这一建设中的瓶颈。

对于数据中心和能源扩展，开发商需要获得建设、环保、分区、噪声等方面的许可。他们可能需要来自地方、州和国家机构的批准。此外，还需要应对因地而异的优先拒绝权法律。对于能源基础设施，这一过程更加痛苦。像PermitFlow这样的审批软件公司（https://www.permitflow.com）正处于缓解这些痛点的有利位置。

新一代 AI 数据中心的一个显著变化是服务器产生的热量越来越多。新一代数据中心将采用液体冷却技术，而下一代可能会使用浸入式冷却技术。

3. 致敬计算公司

我们不得不提到以下两点：(1) Nvidia在构建其生态系统方面所做的卓越工作；(2) AMD在巩固自己作为一个合法替代方案方面的努力。Nvidia在AI 领域的定位非常出色，从应用到软件基础设施、云计算、系统和芯片。可以说，Nvidia完美地制定了迎接技术浪潮的脚本。

Crusoe是另一家在这一领域非常有前景的公司，提供AI计算和能源服务。

最后，那些涉足数据中心建设领域的计算公司应继续表现良好，因为收入在整个价值链中流转。从网络设备、存储设备到服务器，只要公司提供一流的性能，它们就能蓬勃发展。

4. 总结

关于数据中心建设，我的最后一点思考是：尽管这看起来像是一个新趋势，但它实际上是计算增长历史的一部分。我认为人工智能、数据中心和计算不应被割裂开来讨论。

正如 Sam Altman 描述的那样（https://ia.samaltman.com/）：

用一种狭义的方式来看人类历史：经过数千年的科学发现和技术进步的复利积累，我们终于学会了如何熔化沙子、加入一些杂质、以令人惊叹的精度在极小的尺度上排列成计算机芯片、通过它们传导能量，最终创建能够生成越来越强大的人工智能的系统。

艾伦·图灵被誉为现代计算机、计算机科学及人工智能之父，这绝非偶然。过去一百年间，创造智能始终是科技发展的核心趋势，而如今，数据中心正是这一趋势的核心所在。

—END—

点击下方名片

即刻关注我们

算力猩

隶属于智猩猩，关注计算芯片创新，解读中国算力突破。

算力网（络），应该是什么

先进封装技术解读 | 台积电

IBM 的大规模 A100/H100 GPU 集群 Infra 建设

22页PPT详解 NVIDIA RTX™ 5880 Ada 及训推一体机【附下载】

AI数据中心：网络设计和选型标准

突破内存墙：DRAM技术演进及3D DRAM革命

SC24｜谷歌AI加速器：TPU v6e Trillium技术解析

公开课预告：大规模异构GPU集群的互联、运维与调度｜基流科技技术负责人敬阳主讲

揭秘 AWS 10p10u 最新网络架构！

AI时代的以太网：应对大规模GPU集群网络挑战

智算中心正在CDN化

博通3.5D F2F技术：定义AI XPU的未来

NVIDIA RTX™ 5880 Ada 性能解析与私有化大模型部署｜在线研讨会直播预告

AI数据中心历史、技术与关键企业

揭秘！世界第一个采用CXL 3.1交换机的AI集群

公开课预告：大模型时代的智算GPU集群｜阿里云智能集团智算集群产品专家陈祎主讲

GPU服务器支持的“卡数”由哪些因素决定？

HBM制裁加码下的困境与出路

Meta 万卡 GPU 集群稳定性剖析与最佳实践

通往万亿晶体管GPU之路

亚马逊芯片帝国背后的功臣

比GPU快20倍？d-Matrix推理性价比分析

AWS最强AI芯片，深度解读！

功能安全的图形显示解决方案与汽车制造业模拟数字孪生平台 | NVIDIA 加速汽车制造与智驾开发专场直播预告

公开课预告：OISA构建开放高性能GPU卡间互联体系｜中国移动研究院李锴主讲

NVIDIA GH200 内部架构探究

UEC 和 UAL 应该合并吗？

AI Infra峰会与大模型峰会议程全公布！2024中国生成式AI大会上海站本周举行，报名即将截止！

公开课预告：针对先进封装的2.5D/3D Chiplet协同设计仿真EDA工具探讨｜硅芯科技创始人赵毅主讲

一文看懂Infinity Fabric

大模型时代：交换机衡量指标、技术演变及性能分析

爱芯元智吴炜：多模态大模型在端侧的创新实践与挑战｜GenAICon 2024上海站演讲预告

智算中心：现状、挑战、策略与未来机遇

GenAICon 2024上海站主会场议程公布！34位学者专家全景式解构大模型与AI Infra

追赶NVIDIA，国产AI芯片需努力的5个方面

光羽芯辰创始人周强：通向个人大模型之路｜演讲预告

从UALink近期发展再看GPU Scale Up的互连方向

无问芯穹首席科学家戴国浩教授：软硬协同与多元异构，共筑大模型算力底座｜演讲预告

公开课预告：智算中心 AI Scale-Up 网络技术｜益思芯科技解决方案副总裁唐杰主讲

大规模AI计算时代的存储：挑战与优化

聊一聊算力调度

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性｜GMI Cloud 亚太区总裁 King.Cui演讲预告

中国系统级封装大会SiP China 2024周三开启！免费报名～

面向大规模AI计算的高性能网络架构：Enfabrica ACF-S解决方案深度解析

近30家大模型与AI Infra企业来了！年度生成式AI大会上海站公布最新嘉宾，报名进入最后阶段

高性能GPU服务器硬件拓扑及集群组网

GPU互连新标准：UALink联盟能否打破NVIDIA垄断？

高性能智算集群设计思考与实践｜阿里云智算集群产品解决方案负责人丛培岩演讲预告

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性？｜GMI Cloud 亚太区总裁 King.Cui演讲预告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉