从4年缩短至4个月的速成超算中心!美国政府效率部马部长变身AI基建狂魔,意味着什么?| IDCF

科技   2024-11-28 07:59   天津  

点这里👇星标关注,获取最新资讯!


近日,美国政府效率部的马部长(Elon Musk)“跨到科技界”做了一个超级计算机/数据中心,名字叫做 Colossus (巨像)。

如果说这个超级计算机有什么值得关注的地方,那就是:

1:建得超快

2:建得超大

这个价值数十亿美元的 AI 集群拥有 100,000 个 NVIDIA H100 GPU,马部长计划在未来几年筹集 60 亿美元(大部分来自中东主权财富基金),将在现有 GPU 上再添加 100,000 个 GPU —— 太豪横了。

Colossus 的基本构建模块是 Supermicro 液冷机架,图中可以看到:每个液冷机架里有 8 台8 台 4U 服务器,每台服务器配备 8 个 NVIDIA H100,这种设计的目的是最大化 GPU 的计算性能,同时通过液冷技术有效管理散热,为 AI 和高性能计算任务提供可靠的运行环境。

这个Colossus不仅规模大,而且建造速度快。

我们之前在“美国,会是下一代AI基建狂魔吗?”这篇文章中说到,现在美国各界大佬的共识是:美国应当扫除一切障碍,大力发展AI基础设施。

不过,AI基建又贵又慢,根据英伟达的老黄所说,大规模的GPU集群往往需要三年的规划与设计周期,再加上一年的建设时间方能投入使用。

但,这个Colossus (巨像),

仅用 122 天!其中部署仅用了 19 天!

看到这个数字的时候,OpenAI、微软、谷歌等公司都集体懵逼了……毕竟,AI需要超大规模数据中心作为算力来支撑,基础设施就是AI的命门,数据中心的建设速度和规模,直接决定了AI模型的性能和效率,也决定了这些公司的未来。

毋庸置疑,Colossus (巨像)将为马斯克去年成立的新公司 xAI 提供核心算力,支持 AI 模型的训练与部署。曾经,老马也是OpenAI的联合创始人,但由于对OpenAI管理层及其对人工智能安全态度的分歧,他于2018年离开了该公司。为了实现他自己对AI的愿景,他干脆撸起袖子自己干了,做了个xAI,与OpenAI、Google、Anthropic等业内巨头正面刚。

所以,黄仁勋在说到“巨像”项目时,感慨道:

“现在大家都辗转难眠了!据我所知,全球唯有马斯克一人具备这样的能力,他对工程、建筑、大型系统构建以及资源调配的独到见解,堪称举世无双。”

我们今天这篇文章想探讨三个话题

1,为什么巨像的建造效率可以这么高?

2,这背后反映了AI巨头可能的两种打法,分别是什么?

3,美国成为新一代“AI基建狂魔”,中国怎么办?

1

只用了122天怎么做到的

马部长最不能忍受的就是低效,美国《连线》杂志曾做过一个研究,结论是:马斯克一年完成了别人八年的工作量。

做为效率达人的下属,做他想要推进的项目,高效率自然也是一个必选项。

高效不仅要求快速行动,更要求有系统性的“效率思维”,其中包括深厚的技术储备、灵活的团队文化,以及对风险的容忍度、打破常规等等。

“巨像”数据中心建设展现了极致速度背后的系统性的“效率思维”。

其实一开始,xAI是想用甲骨文的AI服务器来支持其AI模型的训练和运行的,但双方没谈拢,主要是,马斯克想在今年把巨像搞起来,但甲骨文认为这是异想天开。于是,xAI决定不跟甲骨文合作了,自己建,悄悄打脸所有人。

其实这很“马斯克”,马斯克一贯强调的“全栈掌控(Full-Stack Control)”理念,如果合作伙伴不符合预期时,就迅速决定独立开发系统,最好是通过垂直整合掌握核心技术,以减少对外部资源的依赖。

但这种管理风格,对团队的快速执行、对管理和资源调度提出了巨大挑战,只有经常“打效率战”的团队才能适应。

此外,建设过程中也打破了不少常规流程:

比如快速启动:一般来说,美国的电网升级有一个漫长的等待过程,巨像的做法是,不等电网升级了,直接启动建设,采用临时移动天然气涡轮机供电。

这一策略借鉴了特斯拉“超级工厂”早期阶段的操作模式,以临时性方案确保项目不断推进,虽然会有一些风险,但马斯克的风格历来都是“先破后立”,对问题的容忍度非常之高,以短期妥协换取整体速度。

再比如,目标聚焦,明确优先级。

传统数据中心多为通用型设计,服务于广泛的外部客户需求,必须满足行业多种复杂标准(如冗余设计、可扩展性、容灾能力等)。

但“巨像”的目标非常简洁明确:为xAI公司的AI模型(如Grok)训练服务。既然是为自家模型提供算力支持,就无需面向外部客户认证,从而减少了大量复杂设计流程。

2

两套打法

在马斯克高速自建数据中心的背后,我们也看到了国外AI巨头的两种打法。

第一条路径是平台化生态:

比如,微软和OpenAI联手,将Azure云计算平台和OpenAI的大语言模型结合;同样AWS牵手了Anthropic也是一样的逻辑。

其背后反映的是,超算能力成为企业生态的一部分,谁用计算能力构建的“朋友圈”更大、更有料,谁就更有能力吸引更多的开发者和合作伙伴,从而形成良性循环。

还有另一条不同的路径——那就是垂直整合。简单来说,垂直整合就是“自己干到底”,控制全链条,每一个环节都牢牢掌握在自己手中。

马斯克显然更喜欢垂直整合,比如特斯拉。

你要说,特斯拉与许多供应商合作呀,怎么会是垂直整合呢!

是,特斯拉的供应商非常多,但,与苹果类似,在核心技术和关键环节上,特斯拉选择自行研发和生产,比如特斯拉自研自动驾驶算法、芯片、电池、超级充电站等,成为一家集合硬件与软件能力的公司,把用户“锁”在了一套无缝衔接的生态里,用来确保产品的差异化和竞争优势。

如果说特斯拉的垂直整合是从汽车出发,

那么xAI的整合思路则更加直接——从硬件到模型,再到应用,它的目标是将AI产业的每一个环节都纳入掌控之中。

xAI打造了一个拥有10万颗GPU的“巨像”超算中心,完全不依赖其他传统云服务商,也能大幅提升训练速度。同时,xAI自主研发的Grok大语言模型,与其硬件高度适配。这种软硬件一体化的模式,让它在面对行业竞争时,比那些依赖外部服务的企业更具弹性。

另外,马斯克手握大量应用场景:无论是自动驾驶,还是机器人领域,还是脑机接口,xAI的AI技术都能为特斯拉带来颠覆性的应用场景,形成一个跨行业的闭环生态。

当然,现在还处于AI发展的早期,每一家企业都在探索自己的生态版图。未来,到底哪种模式谁会胜出,也需要时间来给出回答,欢迎你给出高见!

3

新一代的AI基建狂魔

现在,数据中心和超算的战略意义正在超越传统意义上的“基础设施”,成为企业甚至是国家竞争的核心。

而且,从某种意义上来说,美国通过AI基础设施的建设,正在成为新一代“基建狂魔”——值得注意的是,AI基建不仅是建筑本身,它更是一个高度技术化的系统工程,涵盖了从规划设计到运营维护的各个环节,并且每一个节点上都有大量的创新。

特别是随着高性能计算(HPC)的日益复杂化,数据中心设计和技术必须迅速跟上,这需要一大批专业人才,他们不仅需要具备深厚的硬件知识,还需要掌握从网络配置到分布式架构、从高性能计算到安全合规的一系列专业知识。

以数据中心内部的“线缆排布和冷却设备”为例,这些都需要精密的设计与调试,确保高密度硬件设备能够在高效散热的同时维持长期稳定运行.

比如微软就在研究液体浸没作为 AI 等高性能计算应用的冷却解决方案↓

而在数据中心建成后,全面的测试是必不可少的,确保系统在实际运行环境中应对各种预期和突发情况。此外,数据中心的运营团队必须持续监控系统性能,并根据实际使用情况对硬件、软件和网络架构进行优化,确保其始终处于最佳状态。

当这些系统成功部署并投入使用后,数据中心就成为推动AI技术进步的重要引擎,同时也会沉淀大量拥有高技术能力的产业工人。

根据统计,2017年到2021年间,美国数据中心行业的就业岗位从290万个增长到350万个,增幅达20%,远远超过了美国整体就业岗位2%的增幅。

更令人瞩目的是,每一个数据中心的直接就业岗位,都能在美国经济中创造7.4个辅助就业机会。这些间接岗位包括电信、软件开发、设施管理、发电等领域的数据中心相关支持工作。

以俄亥俄州为例,随着数据中心项目的扩展,俄亥俄州不仅创造了数以千计的建筑、运营和维护岗位,为该州的GDP贡献了数十亿美元,还推动了教育项目的发展,为满足高技术人才需求提供了专业培训。

可以说,数据中心建设已经成为推动美国地方经济转型和提升就业率的核心引擎。

随着AI技术的进一步发展,数据中心的规模和功能持续扩展,美国的AI产业链也将进一步强化,吸引越多的资金进入,推动更多的技术创新,培养更多的技术人才,进而吸引更多资本的持续注入……

目前,美国在全球拥有数量最多的数据中心,数量级上领先其他任何一个国家;而这种正向反馈机制,或许将确保美国在全球AI竞争中的长期领先地位。

留给我们一个问题是,

如果我们要发展AI基建,钱从哪里来?

在美国,像Nvidia、微软和谷歌这样的科技巨头能够轻松通过资本市场筹集巨额资金,很多资本巨头也在大举投资数据中心。

虽然中国的科技巨头们也有强大的资金基础,但它们在AI基础设施的投入力度和融资能力,无法与美国企业相提并论。

一方面,国内资本市场对AI项目的风险认知较高,投资者更加谨慎;

更重要的是,中国AI基建面临着一大短板,那便是芯片的短缺问题,尤其是在高端AI芯片领域。

美国对中国的芯片出口限制,严重影响了中国企业获取核心技术设备。像Nvidia的A100、H100等高端AI芯片是全球大模型训练的核心算力来源,但这些芯片因出口管制变得“一芯难求”。即便是Nvidia为中国市场量身定制的H20芯片,也只能部分满足国内需求,仍然面临供应不足的问题,影响了AI基础设施的布局速度和规模。

于是,面对芯片短缺和封锁,中国企业开始“卷”起了自研芯片的开发。这是中国AI基建破局的关键一步。

政府在AI基础设施建设中也扮演着“定海神针”的角色,一方面通过国家级科技项目、集中资源解决芯片、数据中心等核心技术的短板问题;另外在AI基建落地方面,采用类似于”新基建”的专项扶持政策,为AI基础设施建设提供长期稳定的资金支持和制度保障,发展一批在数据中心设计、建设和运营方面拥有先进的技术和经验的人才队伍。

此外,破局的关键在于能否在AI基建与AI芯片的基础上,并构建出一个扎根于本土、适应中国市场的AI生态系统。

只是,目前国内的AI开发者生态系统也尚未完善,缺乏足够的开发工具和平台来支持大规模AI项目的开发和部署。

但我们手上也不是没牌打。

中国拥有全球最庞大的互联网用户群体,加上飞速增长的数字经济,这给AI相关产业带来了巨大的市场需求,尤其在云计算、大数据、人工智能等领域。

正如黄仁勋日前在香港对话时所言——

“有三种机器人有望实现大规模生产,分别是汽车、无人机和人形机器人……而我们的优势很突出,比如,大湾区是世界上唯一一个同时拥有机电技术和人工智能技术的地区。在其他地方,这种情况并不存在。”

未来如果我们能依托核心优势,自主打造出开发平台和工具,并吸引更多的开发者和初创企业加入到AI产业链中,“AI生态布局”就开始初具规模了,从硬件到软件,再到具体的应用场景,形成一个完整的生态闭环。

技术、生态、市场三者结合,才能真正走出一条自己的AI发展道路。

《研发效能(DevOps)工程师》工信部教考中心-职业技术证书

🏆 考取证书,提升职业竞争力!

报名咨询:黛西老师159 1031 7788

1门顶5门,学习端到端的研发生命周期!

稳稳拿捏400+技术技能知识点。

DevOps
分享研发效能(DevOps)相关趋势、发展、技术、实践等优质内容和组织相关活动。 IDCF国际DevOps教练联合会,培养端到端研发效能人才,链接高效能组织与个人,成就不凡。
 最新文章