10万块芯片，马斯克用最大超算挑战GPT

科技 2024-07-25 10:30 北京

7月23日凌晨4点20，马斯克发推文宣称，自己刚刚启动了世界上最强的AI训练集群。

这个超算中心位于美国田纳西州，孟菲斯，使用了100,000个（不用数了！是10万个！）英伟达H100液冷GPU，通过单一RDMA网络连接。

RDMA（Remote Direct Memory Access）即远程直接内存访问，它可以把数据直接从一台计算机传输到另一台计算机，无需双方操作系统的介入。单一RDMA打造了高吞吐、低延迟的网络通信，尤其适合在大规模并行计算机集群中使用。

感谢xAI，X团队，英伟达以及其他厂商的支持｜X@elonmusk

单从规模来看，xAI孟菲斯超算中心已经在算力上跻身世界第一，不仅远远超过了OpenAI用来训练GPT-4的2.5万块A100 GPU，也超越了Aurora（60,000 个 Intel GPU）和Microsoft Eagle（14,400 个 Nvidia H100 GPU），甚至超过了此前的世界第一超算Frontier（37,888 个 AMD GPU）。

H100是英伟达专为处理大型语言模型数据而开发的芯片，每块芯片价格大概在3万美元左右，也就是说xAI这次建的超算中心仅是芯片的价值就高达30亿美元。

此前，马斯克的xAI一直不温不火，xAI推出的人工智能Grok也经常被大家吐槽不好用，但以目前的状况来看，大模型训练就是一场算力游戏，再往下深究是能源游戏，而马斯克不愿意再等了，直接把料堆满。

他表示，改进后的大模型（不出意外的话是Grok3）会在今年年底完成，届时它将会是世界上最强大的AI。

2014年的马斯克：我们正在召唤AI恶魔；2024年的马斯克：我要自己召唤AI恶魔！！｜X@JoshWhiton

其实，英伟达已经推出了新一代的H200芯片和基于Blackwell新架构的B100和B200 GPU，但是更先进的芯片要在今年年底才能出货，而且也不能一下变出几万张来，也许是为了抢在ChatGPT5之前成为世界最强，马斯克这次比平时更加大干快上。

据福布斯称，今年3月马斯克才在孟菲斯敲定这项协议，之后这座超算基地几乎立即开工。为了加快速度，马斯克从甲骨文借了2.4万块H100。

然而如前文所说，目前的大模型训练归根结底是能源游戏，而美国的电网系统相当陈旧，已经有几十年没有见证过大规模增长，尤其是AI训练的用电结构和民用商用电很不一样，经常会突然出现超高的用电波峰，极大地挑战电网的最大负荷。在这种情况下能挤出电力水力资源支持超算中心的地方所剩无几。

据孟菲斯电力、天然气和水务公司的首席执行官估计，xAI孟菲斯超算集群每小时使用的电力最高会达到150兆瓦，相当于10万户家庭的用电量。

目前孟菲斯工厂有3.2万块GPU在线，预计今年第四季度供电建设将会完成，工厂将会全速运行。

也难怪会有人质疑马斯克在撒谎，因为这个电力要求和这个建设速度实在是太不可思议了。

后来质疑马斯克的人道歉了，他发现马斯克真的办到了｜DylanPatel@X

除了用电之外，xAI超算集群预计每天至少需要100万加仑（约379万升）的水来散热。

据福布斯报道，孟菲斯市议会议员Pearl Walker上周表示：“民众很害怕。他们担心水资源可能出现问题，也担心能源供应出现问题。”她说，目前数据中心预计每天需要从孟菲斯的地下蓄水层，也就是该市的主要水源中抽取492万升（该市每天总共消耗大约5.68亿升水）。虽然他们说这只是暂时的，但新的灰水工厂的建造计划还没定，孟菲斯的公用事业部门也证实，在处理厂建成运行之前，马斯克的超级计算机将被允许使用地下蓄水层的水。

除了马斯克，OpenAI和微软也在部署更大规模的超算，这台名叫“星际之门”的超算芯片数量会达到百万级，成本预计高达1150亿美元，计划在2028年推出。

今年四月，OpenAI把微软电网搞崩溃了，据微软工程师说，他们当时正在为GPT-6部署10万个H100训练集群，不知道马斯克会不会成为第一个让10万个H100一起工作的人呢？

作者：翻翻

编辑：odette

封面图来源：datacenterdynamics

本文来自果壳，未经授权不得转载.

如有需要请联系sns@guokr.com

http://mp.weixin.qq.com/s?__biz=MzIyNDA1MjExMQ==&mid=2650160997&idx=1&sn=73030d495e8a682a396e952a543c0a7d

果壳硬科技

果壳旗下硬科技服务品牌，致力于连接科学家与投资人、创业者，解读科技，剖析产业，高效推动科研与产业融合。

最新文章

会不会有一天，我们能把XR焊死在脑袋上？

过去这个周末，所有创客都在深圳了

闪极科技获数千万元A轮融资，将推国内首款量产AI拍摄眼镜，未来光锥跟投

美国总统大选开始“开奖”，我们做了一份观赛指南

谁给XR指了历史上最大一段弯路？

今年Kickstarter前二十的众筹项目，有几个立刻就想要

是时候转型了！AI加持下的新硬件才是未来 | RTE大会招募中

就像马斯克附身在他机器人身上一样

看特斯拉发布会前你需要知道的六件事

我们不能对AI硬件的隐私问题视而不见

Meta画的大饼，是科技界最本格的理想

扎克伯格的“二次创业”：卖眼镜，卖世界最强眼镜

果壳创造者宇宙，外骨骼穿了、智能钢琴弹了、墨水喝了……这一夜，每个人都在创造

“编程作为一个职业在今日终结”，OpenAI新模型o1的可怕之处

一边喝酒一边数字永生，姬十三学术酒吧分享，魔都限定

果壳约了100位创造者聚集上海，加起来也就 5 亿粉丝，极稀缺名额放出，谢绝空降

目视、染色体、睾酮，奥运会的“性别”，到底怎么分？

两个小时，特朗普犯了20多个事实错误

新原理发动机！自然光即可实现持续飞行：北航研制的静电飞行器登上Nature

柔性+磁性皮肤，浙大团队通过神经网络算法，实现磁性皮肤的多点、多尺度感知

合肥逆袭“风投之城”，靠的是人傻胆大钱多？

受爆米花启发，清华深大合作组研发柔性薄膜，用于强电磁干扰屏蔽和吸收

400+全产业链行业伙伴，等你来聊绿色复合材料产业

10万块芯片，马斯克用最大超算挑战GPT

透气可拉伸的金属电子，兼顾长期生物相容性，为可穿戴电子提供发展新思路

果壳CEO姬十三：AI硬件团队必须懂硬件，也要敬畏软件

浙大团队造“超级橡皮筋”，直径1毫米，能提起10公斤大米

制备高效稳定有机发光二极管，东莞理工学院团队利用柔性高导电聚合物电极替代传统刚性ITO电极

多校合作组提出协同双分子界面调控新策略，已于钙钛矿光伏器件中验证

为什么我劝你在特朗普遇刺后买点比特币

下半年，一百个智能眼镜全都复活

“所有抖音美女，都值得用AI眼镜重看一遍”

水凝胶作为脑机接口硬件，南国清华团队综述水凝胶在下一代神经界面中的应用

一份美国对华半导体、AI、量子计算投资限制新规的速成指南

受剪纸工艺启发，港大深职大合作组实现高效海水淡化和三维太阳能蒸发器光追踪

所有硬件，都值得用 AI 重做一遍 | 未来光锥闭门会·深圳

类人眼多通道超分辨成像，中国科学家利用铁电人工畴助力突破衍射极限

萝卜快跑无人车，要抢走武汉司机饭碗了吗？

超灵敏+可拉伸+小尺寸，天科大南开合作组提出新型裂纹调控机制实现高分辨率应变传感器

合肥7月，科创路演项目火热招募中

实现高效稳定的钙钛矿电池，重大华科合作组提出银配位效应诱导PCBM的n型掺杂方法

中国科大教授张捷：为AI感知安上“耳朵”，“非语音智能听觉”正成为新的产业化赛道

厦大团队揭示限域催化剂合成机理，为限域催化剂机理研究和合成运用提供新途径

特斯拉自动驾驶演化史

杨亚研究员团队研发新型摩擦纳米发电机用于风能收集，突破传统风力发电旋转结构的限制　| Nat Rev Electr Eng.

AI硬件大潮来袭，深圳的创客们在哪里？

活体能源材料新应用！深圳先进院科学家研发共形贴附导电生物被膜，实现半人工光催化全解水

新一代手表能监测血糖？这谣言已经重复了10年

可穿戴可拉伸，科学家研发非侵入式固态生物标志物传感器

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉