特斯拉用Megapack 解决 xAI 超算集群电耗波动

文摘 2024-11-01 21:53 上海

Elon often told us to not be constrained by rules. I like chess, so I really like his example: (paraphrase) it doesn't matter you are mate in 3. If there's a laser beam from space that shoots down your opponent's king, you win.^[2]
翻译：马斯克经常对我们说，不要被条条框框局限了你的思维。我喜欢国际象棋，所以我非常喜欢马斯克举的例子：不用担心理会你在三步之内被对手将军至死，因为如果有一发激光从太空中轰射下来把对手的国王烧死，你就赢了。

马斯克的人工智能公司 xAI 在短短 120 天内，在田纳西州孟菲斯市，完成了目前世界第一大人工智能训练超算集群的数据中心施工，然后在更匪夷所思的 19 天内，从零开始，把整整 10 万块英伟达 H100 GPU 安装调试完成，上线工作^[3]。只有业内或熟悉超算集群的人才知道，这个速度是如何的疯狂，令人目瞪口呆。

英伟达 H100 GPU 每块满功率耗电约 700 瓦（W）^[4]，整个集群有 10 万块，全功率运行，光芯片耗电就是 70 兆瓦（MW）！真个数据中心目前的最大电耗是 150 兆瓦^[5]，包括液体冷却循环系统，CPU 集群，网络设备，大规模存储设备，等等。而整个孟菲斯市，目前只有两个发电厂：Allen Combined Cycle Plant（天然气），总功率 600 兆瓦，和 Allen Combustion Turbine Plant（天然气），总功率 456 兆瓦^[6]，其实还有第三个光伏电厂，但功率太低，忽略不计。光这个数据中心耗电量就占了总发电量的 15%，而且要知道，发电厂一般从不满功率运行，普遍运行指标在 60% 左右，这样一来，数据中心耗电量就占了近四分之一。

等集群上线开始进行大规模模型训练的时候，一个更严重的问题跳了出来：训练中，整个集群的用电消耗波动过大、过频繁，以至于给当地电力供应造成很严重的影响。了解电网运维的都知道，大幅度用电波动对电网的冲击和影响非常大。而人工智能模型训练时的耗电波动，恰恰非常剧烈，而且快速：

（图片来源^[7]）

从 2024 年加拿大研究人员发表的论文^[7]中看到，人工智能模型训练时，GPU 功率的波动可以达到下行 80% 或上行 3500%！而瞬时（指小于 500 毫秒）的变化也能够达到下行 50% 或上行 2000%！这种海啸般的波动简直疯狂，对于电网来说是不可承受之重。当然，一块 GPU 功率波动不等于整个集群波动，很多时候模型训练的系统构架会考虑到如何进行不同 GPU 之间的运算平衡。这篇论文里也记录和分析了一个大语言模型训练的集群综合耗电情况：

可以看出，主要问题集中在瞬时耗电功率大幅下降。

为此，一位周五才入职 xAI 的工程师，周六早上就被拉到数据中心，委以重任，解决这个电耗瞬时跳崖的问题^[2]。此人履历对于我们这些普通人来说，就是神一样的人物：国际高中信息学竞赛获奖者，ACM 大学编程竞赛获奖者，斯坦福大学毕业，谷歌人工智能研究部门资深工程师。他的想法也很直接，你不是说瞬时耗电功率大幅下降不好吗，那我就在下降的时候，搞点无用计算 ^_^，这样功率不就稳定了吗？不得不说，这种看似高级，其实本质上就是一个死循环的做法，在程序猿中很流行。但是最后，他的方案没有被采纳，不知道具体原因，但我的估计是：1）故意浪费电是可耻的，2）更重要的一点，这种做法我觉得不见得非常有效：每个 GPU 的工作量波动是比较容易监测并且（用死循环）补偿的，但这种做法对于整个集群来说就非常困难，太多（10 万块！）微小波动（perturbation）累积出来的集群行为，很难用同样的微小补偿在每一块 GPU 上来精准平衡。不觉得我们人类现在的编程和控制水平能够达到这个级别。

最后，马老板和他的特工队决定，从特斯拉调集一批 Megapack 到 xAI 的孟菲斯数据中心来^[8]：

每个 Megapack 可以想象成一个超大号充电宝：4000 度电，130 万美元。它已经被很多国家和地区的电网采用，用于平衡电网波动，因为它的一个主要特性是，反应速度惊人。以前，平衡电网波动，要么靠发电机空转，要么靠飞轮，或其他类似设备，主要问题就是反应速度慢，因为都是机械装置。自从特斯拉的 Megapack 问世以来，大家发现，原来用纯电子无机械的硅芯片加锂电池，可以做到毫秒/兆瓦级的响应！例如：2024 年 2 月，安装有大量特斯拉 Megapack 集群的夏威夷电网，成功的在一次事故中，在 250 毫秒内，提供了 50 兆瓦功率的补偿，保证了电网的稳定^[9]。

安装了许多（没有具体数字，大约估计是十几台）Megapack 的 xAI 超算数据中心，解决了瞬时电耗功率下降对电网的影响：你可以把这些 Megapack 构成的储能集群看做是一个大号缓冲池，这个缓冲池把电网和超算集群隔离开来，使得超算一边的瞬时剧烈大浪，被时间延缓为不太剧烈的波浪，再传递到电网这一边。这种弹性缓冲，给接下来 xAI 超算集群继续扩大（2024 年底达到 20 万块 H100 GPU！^[10]）铺平了道路。

同时，因为 Megapack 的储能能力，xAI 也可以通过不同时段电力价格差而采取不同的充放电策略，以达到更好的成本控制。

参考

^封面图片 https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/2/
^^a^bhttps://x.com/hyhieu226/status/1851845942783463719
^“The supercomputing site in Memphis is being designed by Nvidia with the help of Dell and Supermicro. The facility was built in just 122 days in total, with 19 days between the first rack rolling onto the floor until training began.” https://www.capacitymedia.com/article/musk-to-double-xais-colossus-cluster-to-200k-gpus-for-grok-3-training
^https://www.kaggle.com/discussions/general/494791
^https://www.power-grid.com/customer-service/city-council-squabbles-with-utility-over-elon-musks-data-center-plan/
^https://en.wikipedia.org/wiki/List_of_power_stations_in_Tennessee
^^a^bhttps://arxiv.org/html/2409.11416v1
^https://nextbigfuture.substack.com/p/inside-the-xai-ai-data-center
^https://x.com/Tesla_Megapack/status/1834712332154683600
^https://x.com/elonmusk/status/1850991323010261230

http://mp.weixin.qq.com/s?__biz=MzkwMjYwMDgyMQ==&mid=2247489018&idx=1&sn=d2153a9db29f92ebfa8157cc467b0b30

AskMusk

了解马斯克，关注我们就对了

最新文章

问马周报 No.46｜星舰执行第六次飞行测试任务，马斯克再次登上时代周刊

那些曾经被马斯克“威胁”买下来的媒体

你知道星链路由器上的图案是什么含义吗

马斯克超爱这张世界火箭大全海报

SpaceX星舰第六次试飞的官方总结

马斯克亲自推荐过的17本书和12本有声读物（附链接）

不实！特斯拉称并未与上汽讨论FSD授权

星舰6飞在即，问马给你准备好了直播看点

天呐，马斯克是有多爱这款飞行夹克

问马周报 No.45｜马斯克走马上任效率部星舰6飞即将进行

SpaceX星舰发射控制室里 Who-Is-Who

马斯克的高效之道

问马周报 No.44｜老马助力成功竞选，马斯克身家暴涨

特朗普如果当选，马斯克会不会成为中美关系的新变数？

特斯拉上海超级工厂10月交付超6.8万辆，Model Y仍领跑今年国内车用车销量

一只松鼠正在改变美国大选的命运……

问马周报 No.43｜特马组合为竞选奋力冲刺，星链总发射次数达到200

特斯拉用Megapack 解决 xAI 超算集群电耗波动

任正非最新公开讲话：开放创新，才有出路

问马周报 No.42｜首富助选狂“撒钱”；星链加速商业化进程

特斯拉三季报发布，狠狠打了华尔街的老脸。盘后应声大涨12%

骑驴的骑驴，坐象的坐象。拼夕夕模式渗透进美国大选

问马周报 No.41｜马斯克为助选拼了；星舰发射后一周内又四连发

问马周报 No.40｜筷子夹火箭一举成功，特斯拉上海超级工厂第300万辆整车下线

星舰五飞，就在今晚，将首次尝试用“筷子”夹住火箭，任务详情和直播入口赶紧收藏

不仅仅是无人驾驶出租车，特斯拉今天秀的是未来主义的生活科技

特斯拉上海超级工厂第300万辆整车下线，交付全球近半产能，1/3出口海外市场

图穷匕见！Robotaxi将定义特斯拉是汽车还是AI公司，前者10倍估值，后者100倍估值

马斯克逼宫，星舰架在发射塔上，打火机都准备好了，单方面称13日点火

马斯克站台特朗普：真正考验一个人品格的，是他在战火硝烟中的表现

特斯拉无人驾驶出租车或与麦当劳合作送餐

问马周报 No.39｜非正式统领马斯克连轴见各国总统龙飞船载着营救队到达国际空间站

特斯拉上海超级工厂海外出口达到了100万辆

SpaceX拟在越南投资15亿美金建设星链工厂

不能用繁文缛节阻碍那些不断突破极限的私营企业

一晚上分别见了三国统领，马斯克感觉比总统还要忙一点

波音挥泪斩马谡，科尔伯特被拿来“祭天”

问马周报 No.38｜星舰五飞合体待命，梅耶为儿子粗鲁言论致歉

特斯拉能继续使用单踏板模式了。不走过场“征求意见”，善莫大焉

马斯克：向坚韧不拔、机智勇敢的上海人民送上最诚挚的祝福

马斯克：受够了！SpaceX正式向国会控诉FAA乱作为，状纸全文

男人至死是少年，马斯克母亲为儿子的粗俗评论道歉

飞机上的免费WIFI服务感觉要成标配，星链倒逼航空公司和竞争对手重新抉择

他们在开辟一条新的道路，北极星黎明号乘组返回地球

盘一盘SpaceX 现在使用的 5 个发射场

马不停蹄，完成首次商业太空行走后，北极星黎明今天测试星链通信，猎鹰9又发射了一批手机直连卫星……

见证历史！人类实现首个由民营公司和私人团队主导的太空行走

星舰5飞被拖延到11月，SpaceX怒了！公开抗议FAA龟速审批。马斯克：造火箭竟然比审批的速度还要快

Day1｜北极星黎明号已抵达1400公里远地点，成为飞得最高的龙飞船

北极星黎明号发射升空，人类首次私人太空行走，挑战最高轨道出舱纪录

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉