首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

马斯克的xAI：使用100K GPU Colossus集群

汽车 2024-11-08 08:18 上海

芝能智芯出品

人工智能技术的迅猛发展，对算力的需求急剧增加，尤其是大型语言模型（LLMs）和生成式AI应用的普及，推动了超大规模计算集群的建设。

由埃隆·马斯克创建的xAI项目通过与超微（Supermicro）的合作，迅速完成了拥有10万块NVIDIA H100 GPU的Colossus集群的建设，不仅在规模上刷新了业界纪录，还在液冷技术、网络架构、存储优化等方面展现了前沿技术。

Part 1

超微液冷技术助力高效计算

在当前的AI集群中，计算热量的管理已成为关键瓶颈。xAI选择超微作为主要硬件供应商的一个重要原因就是其先进的液冷技术。

传统风冷方式难以适应数万GPU并行工作的高热量需求，而液冷方案为这种密集的AI计算提供了有效的散热路径。每个Supermicro 4U液冷机架包含8个NVIDIA H100 GPU服务器，总计64块GPU，这种密集布局要求每个计算节点都能高效散热。

通过定制的液冷块，超微在机架层面上实现了水冷系统的精细控制。

与传统AI服务器仅对风冷系统加装液冷模块不同，超微的液冷设计完全从零开始进行硬件结构和散热路径的重塑。这种自上而下的冷却方案不仅在散热效率上远高于改装液冷系统，还大幅降低了设备的故障率与维护成本。

在xAI Colossus的数据中心中，每个机架配备独立的冷却液分配单元（CDU），并通过快速断开装置，使液冷系统的拆装更加简便，大大缩短了维护时间。

这种液冷方案的成功应用，不仅满足了当前集群的高热负荷，还为未来更高密度的集群布局提供了参考。

NVIDIA H100 GPU是目前最强大的AI计算芯片之一，而在xAI Colossus中，每个Supermicro服务器都配备了8个H100 GPU。通过Broadcom PCIe交换机的加持，这些GPU可以实现更高效的数据传输和计算性能。

超微的主板直接将四个PCIe交换机集成在液冷块上，无需额外的主板模块。这一设计有效减少了硬件体积和连接复杂性，显著提升了数据传输效率。

在多GPU协同工作的情况下，GPU之间的高带宽连接尤为重要，尤其是在处理大型语言模型（LLMs）和训练Transformer模型等数据量极大的AI任务时。

PCIe交换机提供了高速连接的桥梁，将不同GPU的运算资源高效整合。这种架构实现了GPU资源的最大化利用，使得集群在运行超大规模AI模型时依然保持高效、稳定的计算表现。

在AI集群中，数据传输速率对模型的训练时间和效率至关重要。

传统的数据存储方式采用的是磁盘阵列，而xAI Colossus采用了基于NVMe的全闪存架构。这种存储方式在功耗、存取速度和空间效率方面均优于传统磁盘存储。

闪存在成本上高于磁盘阵列，但其数据传输效率显著降低了集群的训练时间，从而在总拥有成本（TCO）上取得优势。

超微在设计NVMe存储节点时，与计算服务器保持了一致的外观和架构，这种“模块化”设计降低了管理的复杂度，也便于在数据中心内灵活配置和扩展。

这种存储架构能够快速响应海量数据存储和读取需求，为xAI Colossus的集群提供了极具弹性的存储支撑。

在如此大规模的集群中，网络架构的选择对整体性能至关重要。

xAI Colossus采用了以太网技术，并利用NVIDIA的BlueField-3 SuperNIC与Spectrum-X网络构建了高达400GbE的连接速度。相比传统的1GbE网络，这种400倍的速度提升为GPU节点之间的通信提供了足够的带宽支持，使得训练任务能够在节点间迅速分布和整合。

BlueField-3 SuperNIC的使用解决了集群在并行运算时常见的数据瓶颈问题。通过RDMA技术，xAI Colossus能够在不同GPU之间实现高速数据共享，极大提高了AI模型训练的效率。

以太网技术在此起到关键作用，其极强的扩展性确保了Colossus集群可以灵活扩容，同时也适用于未来AI负载的快速增长需求。

Part 2

液冷网络交换机：

推进行业冷却技术创新

在参观xAI Colossus设施的过程中，液冷网络交换机的应用成为一大亮点。与传统的风冷交换机不同，液冷交换机通过共封装光学模块实现了更加有效的散热。

当前的高性能网络交换机不仅要处理高密度计算流量，还需要应对设备本身发热问题，这种液冷共封装设计在降低设备热量的同时，大大提升了网络设备的稳定性和寿命。

通过使用液冷交换机，xAI Colossus能够支持更高的网络密度和速度，也为未来AI数据中心的设备选择提供了新的可能性。

这种全液冷方案将逐步替代传统风冷交换机，有望引领未来AI数据中心在冷却技术上的全面革新。

xAI Colossus数据中心不仅展示了如何在短时间内部署超大规模AI集群，也为未来AI数据中心建设提供了重要参考。

这一项目的成功表明，高效的液冷系统、模块化的NVMe存储、以太网网络以及高性能的GPU计算节点构成了现代AI数据中心的核心要素。

此外，超微的定制化解决方案有效地将这些前沿技术整合在一起，充分展现了超大规模AI集群的设计理念和部署技巧。

未来AI数据中心的发展方向将进一步朝着低功耗、高计算密度和快速部署的方向演进。超微在Colossus项目中积累的技术经验，将在未来AI集群中广泛应用，为各类AI任务提供更强的算力支撑。

随着AI应用需求的不断增长，类似xAI Colossus这样的集群将逐步成为主流，推动AI技术的普及与应用。

小结

xAI Colossus集群的建成不仅为全球AI计算设施树立了新的标杆，还通过超微提供的液冷系统、NVMe存储方案以及高速以太网网络，展示了超大规模AI计算的可能性与未来发展方向。

之前是汽车电子设计，现在2024在芝能汽车，紧跟技术创新，助力行业发展。

最新文章

唐唯实：辞职还是被Fire？Stellantis集团面临挑战！

芝能车市周报 | 比亚迪第47周：新能源王者各车型卖了多少？

半导体行业深度洞察（上）：现状与未来趋势分析

速腾2024年Q3财报：从激光雷达到机器人

东南亚车市｜泰国10月汽车销量新低，中国车企表现如何？

2024年11月：汽车月度销量新高，冲刺年底

芝能车市周报 | 日系在华第46周：丰田、本田、日产和马自达

技术解析｜高功率密度车载充电器如何散热设计难点？

东南亚车市 | 新加坡和马来西亚10月:比亚迪新兴崛起，小鹏汽车扩展版图

马自达24年Q3财报深度解读：销量、财务及未来战略走向

芝能车市周报 | 德系车第46周：传统车保持稳定优势，新能源集体拉垮

恩智浦：软件定义汽车解决方案

东南亚车市 | 印尼和越南10月：丰田稳居东南亚之巅，比亚迪崭露头角

新能源周销量｜第47周：销量爬坡冲击60万

Mobileye复合人工智能系统（CAIS）—— 规模化实现全自动驾驶的正解

芝能车市周报 | 中国国企第46周：新能源销量高增长，国企品牌正在破局

芯片行业拐点临近：2024年的繁荣，2025还能延续吗？

北欧车市 | 北欧10月销量观察：快速电动化，中国品牌有机会！

斯巴鲁2025上半年财年：仍然是赚钱的！

芝能车市周报 | 奇瑞集团第46周：智界创下新高！

美国拟成立DOGE：马斯克可能给下一代超级计算机带来突破性进展

北欧车市 | 瑞典10月汽车销量：电动化步伐放缓

本田汽车上半财报：靠摩托车赚钱还能赚多久？

以“天际线”之名，用设计驱动未来——蔚来十周年Logo

芝能车市周报 | 吉利第46周：总销量超过五万台！新品牌增长170%

面板级封装FOPLP：下一个风口

北欧车市 | 挪威10月：销量环比大增，比亚迪等中国品牌正在进入

禾赛科技2024年Q3财报：连续两季度交付量环比猛增50%

蔚来汽车 2024 年第三季度：目标是 2026 年实现盈利！

芝能车市周报 | 长城汽车第46周周报：品牌矩阵几家欢喜几家愁

AI需求飙升，HBM选项不断增加

亚洲车市 | 哈萨克斯坦10月销量：现代领跑，吉利崛起

小鹏汽车 2024 年第三季度：如何在新能源 “淘汰赛” 中突围？

芝能车市周报 | 比亚迪集团第46周：月底冲刺，同比增长75%

英伟达Q3财报：AI浪潮下的霸主

澳大利亚和新西兰10月：中国品牌汽车实现突破性增长！

美国10月汽车市场：特朗普上台以后，电动汽车怎么办？

比亚迪10月国内销量：插混车型是增长基本盘

英飞凌AI服务器战略：从5亿到10亿的计划

中东车市 | 以色列和土耳其10月汽车销量：中国品牌快速崛起

芝能车市周报 | 日系品牌第44-45周表现如何？

特斯拉FSD正接受美国调查：多起事故是否会影响Robotaxi的到来？

特斯拉10月销量：与竞品的对比分析

英飞凌的汽车版图：从硬件到系统

南美车市 | 巴西和阿根廷10月份汽车市场：销量大涨，奇瑞比亚迪长城表现突出

芝能车市周报 | BBA第44-45周：电动化浪潮下的销量下滑

新能源周销量｜第46周：持续突破冲刺过个好年

2024年10月电池行业：增长势头不减！

AI 热潮背后：英特尔与AMD在X86 服务器 CPU 市场的分庭抗礼

亚欧车市 | 俄罗斯汽车市场10月销量：中国品牌接近一半！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉