首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

全球最大AI超算内部首次曝光！马斯克19天神速组装10万块H100，未来规模还将扩大一倍

科技 2024-11-01 09:50 北京

文章转载于新智元

两个月前，马斯克才刚刚自曝了xAI的Colossus超算，称其是世界上最强大的AI训练系统。

最近，马斯克又宣布了一条振奋人心的消息——集群即将扩展到20万张H100/H200显卡！

同时，ServeTheHome也发布了一条15分钟的视频，公布了这台超算的详情！

来自ServeTheHome的Patrick Kennedy带着摄影机探访了这台超级计算机

这台全球最大的AI超级计算机Colossus位于美国田纳西州孟菲斯，配备了10万个英伟达Hopper GPU，并由英伟达Spectrum-X以太网提供网络传输支持。

目前，Colossus的第一阶段建设已完成，集群全面上线，但这并不是终点。它将很快迎来升级，GPU容量将翻倍，新增5万块H100 GPU和5万块下一代H200 GPU。

Colossus正在用于训练xAI的Grok，并为X Premium订阅用户提供聊天机器人功能。

在训练超大规模的Grok时，Colossus展现了前所未有的网络性能。在网络结构的所有层级中，系统在流量冲突的情况下没有经历任何应用延迟降级或数据包丢失。

通过Spectrum-X拥塞控制，它保持了95%的数据吞吐量。这种性能水平无法通过标准以太网实现，标准以太网在传输中会产生数千次流量冲突，数据吞吐量仅能达到60%。

由于保密协议的限制，这台超级计算机的一些细节并没有透露。不过，像Supermicro GPU服务器等关键部件的介绍在视频中都有所涉及。

1

液冷机架

Colossus集群的基本构建单元是Supermicro液冷机架。

每个机架包含八台4U服务器，每台服务器配备八个英伟达H100，共计64个GPU。

八台此类GPU服务器再加上一个Supermicro冷却分配单元（CDU）及相关硬件，构成了一个GPU计算机架。

这些机架以八台为一组排列，共512个GPU，并通过网络连接，形成更大系统中的小型集群。

xAI使用的是Supermicro 4U通用GPU系统。

这是目前市面上最先进的AI服务器，有2个原因：其一是它的液冷程度；其二是设备的可维护性。

该系统被放置在托盘上，无需将系统从机架中移出即可维护。1U机架分流器可为每个系统引入冷却液并排出温热液体。快速断开装置让液冷系统可以迅速移除，甚至可以人工单手拆装；移除后，托盘即可拉出以便维护。

下图是一张该服务器原型的照片，展示了这些系统的内部构造。

SC23展示的Supermicro 4U通用GPU系统：支持液冷英伟达HGX H100和HGX 200

上图SC23原型中的两个x86 CPU液冷模块相对常见。

特别之处在于右侧：Supermicro的主板集成了几乎所有HGX AI服务器中使用的四个Broadcom PCIe交换机，而非将其单独安装在另一块板上。Supermicro为这四个PCIe交换机设计了定制液冷模块。

其他AI服务器通常是在风冷设计的基础上加装液冷，而Supermicro的设计则完全从零开始，为液冷而打造，且所有组件均来自同一供应商。

打个通俗的比方，这类似于汽车——有些车型先设计为燃油车，之后再安装电动动力系统，而有些车型从一开始就是为电动车设计的。这款Supermicro系统就属于后者，而其他HGX H100系统则属于前者。

Patrick怒赞道：测评了各种各样的液冷系统设计，这款Supermicro系统遥遥领先于其他系统！

1

网络系统

这里的每条光纤连接速率为400GbE，是常见1GbE网络速率的400倍。此外，每个系统拥有9条这样的连接，意味着每台GPU计算服务器的带宽达到约3.6Tbps。

打个比方，如果1GbE的普通家庭网络好比是一条单车道公路，那这个400GbE就像是一条拥有400车道的高速公路。而每个系统有9条这样的「高速公路」，相当于每台GPU计算服务器拥有9条这样的超宽带公路，总带宽达到3.6Tbps。

这个带宽甚至超过了2021年初顶级Intel Xeon服务器处理器在所有PCIe通道上所能处理的连接总量。

GPU的RDMA网络构成了该带宽的大部分。每个GPU都有自己的NIC。

在这里，xAI使用英伟达BlueField-3 SuperNIC和Spectrum-X网络。英伟达的网络堆栈中加入了一些独特技术，可以帮助数据绕过集群中的瓶颈，确保数据准确地传输到指定位置。

这是一个重大突破！许多超级计算机网络使用的是InfiniBand或其他技术，而这里采用的是以太网。

以太网是互联网的骨干，因此它具有极强的扩展性。这些庞大的AI集群已扩展到一些更小众技术未能触及的规模。对于xAI团队而言，这确实是一个大胆的举措。

除了GPU的RDMA网络外，CPU也配备了400GbE连接，但使用完全不同的交换结构。xAI为其GPU和集群的其余部分分别配置了独立的网络，这在高性能计算集群中是非常常见的设计。

除了高速集群网络外，还有低速网络用于管理接口和环境设备，这些都是此类集群的重要组成部分。

参考资料：

https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/3/

点个“在看”，再走吧

http://mp.weixin.qq.com/s?__biz=MzkyNjU2ODM2NQ==&mid=2247600472&idx=3&sn=f08d2c0d4dedf3b800173fe9bf3e3582

硅（Si）是创造未来的基础，欢迎来到这个星球。

最新文章

人本智能时代：谁在为AI“立规矩”？

硅谷活动｜与Ray-Ban Meta产品经理、K Scale联创深入交流，讨论AI与硬件的一切

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

AI编程在硅谷杀疯了，但国内还长得出自己的Cursor么

奔驰的智驾，怎么突然“端味儿”十足？

Nature：谷歌学术正在被AI工具颠覆

喊着干掉网站和app的AI公司们，却在豪掷数亿疯抢网址域名

大众汽车：更聪明的燃油车不死

对话Kick：OpenAI领投900万美元，要做AI时代的Salesforce？

2024年，谁在制造新爆款？

金丝银锦，华为Mate 70系列何以编织出旖旎河山？

马云当年怎么期待吴泳铭，吴泳铭今天就如何期待蒋凡

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

一家中国公司，凭什么敢说自己是真正的“物理世界模拟器”？

对话清华章明星、月之暗面许欣然：Mooncake架构背后，如何用“炒菜”的思路实现推理的极致优化

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

京东的逆势增长，其实没什么秘密

硅谷活动｜与Ray-Ban Meta产品经理、K Scale联创深入交流，讨论AI与硬件的一切

Mistral放大招！124B多模态巨无霸登场，免费版ChatGPT震撼突袭

Sora到底发布不发布，这事可能并不重要了

硅谷活动预告：来硅星人线下Meet up！探讨AI机器人与可穿戴设备未来

Grok 3证明黎曼猜想，训练遭灾难性事件？数学家称不夸张，两年内AI将解出千禧年难题

所有AI应用的尽头，是MBTI？

看着这个 AI 奶奶把骗子耍得团团转，可把我高兴坏了

Apple Silicon 才是苹果在AI上的“一盘大棋”

对话Hugging Face王铁震和零一林旅强：中国开源如何更好地被“看见”

杨植麟：最关心Kimi用户留存，无它

AI的风早已吹到小红书

大模型公司们创业未半，技术主心骨们却先弃船回大厂了？

B站盈利了，但市场最愿看到新方式

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

钉钉就是想做AI时代的那个“超级有用”

AI Agent：从学术概念到增长驱动工具

OpenAI总裁出走3月终于归来！Greg结束「最长假期」专注重大技术挑战，每周狂肝100小时代码

对话李彦宏：大模型进化变慢是好事，百度从来没对标过OpenAI

稳坐新势力前三后，朱江明却说现在做增程已经没有太大必要了

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

自动漂移、用LLM和扩散模型“折腾”机器人…顶会CoRL上最佳论文都在研究啥

Vast 创始人&CEO宋亚宸：让每个人都能生成独一无二的3D模型

天工开万物：大模型时代的具身智能新纪元

品牌解不了的流量困局，中小商家怎么解？

荣耀Magic7 Pro上手AI：它能完成自动驾驶，你也可随时接管

从C.ai出走的用户，在Kindroid AI开启“第二春”

李开复为什么这么忙

中国电动车刷赛道往事

曾经不可一世的星巴克，已经成了国产品牌们的垫脚石

AI产品榜·网站榜 10 月｜全球前 20 都在狂飙增长，增长破万“卷”！

当微软无法靠OpenAI猛拉云业务，Google Cloud“趁虚而入”了

百度智能云黄锋：从企业视角如何运用大模型应用开发平台

OpenAI o1太贵？那就自己做一个！纯提示方法让普通LLM进化出复杂推理能力

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉