音乐，小说，与计算题 - 4： NVL72要出X86版本？！

文摘科技 2024-07-18 08:00 美国

引言 — 夜跑酣畅淋漓，依然有周董作伴，再继续一篇这个系列的文章。比起关于NVL72的计算题，今天和行业，好友相关的音乐和小说，更希望得到大家的关注，敬请帮忙分享。

NVL72的信息来源于Semi Analysis，透露了接下来NVL也会有X86这样浓眉大眼的版本：米兰达！

原文已上传至知识星球。

最近的文章

Transformer架构详解文章与视频

H20跨入百万片俱乐部？

大模型的聚光灯照向以太网: ETH-X的scale up网络

如题，这篇小文包括三个部分，即

音乐
小说
计算题

I. 音乐

冰火两重天。在我的工作经历中，这个感觉在这两年特别突出。

一边是如火如荼的芯片，和人工智能，依旧是社会媒体的关注焦点，最近还有一部讲芯片行业的电视剧播映。晓明哥的形象差点意思，主演我还是推荐郭达·斯坦森。

一边是行业环境和就业情况，陆续有好友，同事受到影响。当想敲成文字时，却不知如何表达。分享一首《稻香》来感受一下生活中，其他的闪光点。

II. 小说

推荐好友的一个小说。

这位好友也是IT奶爸一枚，做过芯片，写过Android，调过内存。

第一次认识还是在大学食堂，二十年过去了，眼神依然清澈，许多讨论和选择也都很有个人的见解，不像我的随波逐流。

他的学习和工作能力自不必多说，

写小说也是多年的功底

大学时，一起组过乐队，弹一手好吉他。

两年前，他提议我们再到公司年会上玩一次，十几年过去了，我当然也很心动。

可惜我想了一下还是没有答应，理由也无非是碌碌之工作，繁琐之生活。我一如既往地随波逐流，也留下了一个复习青春的遗憾。

小说链接如下，请大家帮忙分享。

毕竟，不想当小说家的IT民工，不是一个好吉他手。

III. 计算题

NVL72 一个柜子120KW。

NVL36 每个柜子66KW，两个加起来132KW。

多了这十多KW，主要是翻倍的NVSwitch。

尽管总体功率增加了 10kW，但是单个机架功耗要求比较低，因此将会成为主流机型。

最后一种外形是采用定制的 "Ariel "板而不是标准的 Bianca 板的特殊机架。

SemiAnalysis认为，Meta 公司将主要使用这种型号。由于 Meta 的推荐系统需要进行训练和推理工作，他们需要更高的 CPU 内核和更大的内存/GPU 比例，以便存储大量嵌入表并在 CPU 上执行前/后处理。

外观与标准的 GB200 NVL72 类似：但将 Bianca 板换成了 Ariel 板，后者拥有 1 个 Grace CPU 和 1 个 Blackwell GPU。与 NVL36x2 类似，每个 NVSwitch 托盘有 18 个 1.6T 双端口 OSFP 机架，可水平连接到一对 NVL36 机架。

SemiAnalysis认为，Meta 的大部分配置将是普通的 NVL36x2，因为它更面向 GenAI 工作负载，而 Ariel 版本将仅用于其最大的推荐系统工作负载。

最后，在 2025 年第二季度，将推出 B200 NVL72 和 NVL36x2 外形，它将使用 x86 CPU，而不是 Nvidia 内部的 grace CPU。这种外形被称为"米兰达"（Miranda）。

每个计算托盘的 CPU 与 GPU 之间的比例将保持不变，即每个计算托盘 2CPU 和 4 GPU。

X86版本与Grace CPU 版本相比，NVL72/NVL36x2 的前期资本成本更低，不过 Nvidia 的收入也更少。由于 NVL72/NVL36x2 使用的是 x86 CPU，因此 CPU 与 GPU 之间的带宽要比 Grace C2C 低得多，后者与 GPU 之间的双向传输速率高达 900GB/s（450GB/s）。此外，由于 x86 CPU 无法在 CPU 和 GPU 之间共享功耗以优化工作负载，因此所需的总峰值功率要高得多。

功耗计算：

在NVL576的连接和成本计算上，Semi Analysis的判断也和我之前的计算一致，认为在TCO上是一个不切实际的落地产品：NVL576 的额外 BOM 成本是一个天文数字，Nvidia 需要在光纤连接上支付 560 多万美元（每个 GPU 9700美元）。

参考文献：

Semi Analysis：GB200 Hardware Architecture - Component Supply Chain & BOM

为感谢支持，已点赞/分享/赞赏10篇/次以上的朋友，请加微信，进入微信群。我将发放免费加入知识星球的链接。

IT奶爸-知识星球

高阅读量文章

IT奶爸

实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。

最新文章

聊一聊DDR（12）-DRAM的CS Training Mode(CSTM)

从Mooncake分离式大模型推理架构谈谈RDMA at Scale

聊一聊DDR（11）-DDR频率

液冷，网络，与整机柜 -- Intel IPDC 2024见闻

他山之石，集思广益 | IT奶爸文章奖励计划

英伟达，过热了么？

一文读懂 SFP家族

喜迎双11之月亮湖 -- 热辣薯条(Hot Chips 2024)

谷歌、康宁大超预期

Cerebras处理器架构细节

光计算互连（OCI）

AI 网络背景下 RDMA 的 Why， What & How 以及 Next

“E人”外卖小哥的“I人化”：Gaudi的RoCE优化实现

ETH-X项目及交换/计算节点结构散热设计介绍

近文小结与感谢 - 寄小读者

NVL机架的“中杯，大杯和特大杯”

热辣薯条(Hot Chips 2024)- 英特尔的至强D

RDMA与外卖小哥

英伟达在OCP，对于MGX机架的介绍

Load/Store over ETH乎？

先从一个基础的性能指标说起——CPU频率

CPU架构 -- Power

热辣薯条(Hot Chips 2024) - OpenAI的Scaling

热辣薯条(Hot Chips 2024) - 特斯拉的TTPoE

热辣薯条(Hot Chips 2024) - 博通的CPO

热辣薯条(Hot Chips 2024) - 英特尔的Gaudi

热辣薯条(Hot Chips 2024) - 英伟达的Blackwell

40+AI芯片/Chiplet/RISC-V企业已确认演讲！生成式AI时代最火AI芯片峰会9月举办

向左走，向右走 — 聊聊50亿美元的ZT收购

CPU架构 - CPU的各级缓存

NVL的硬件架构分析-（1）

Aurora Exascale Architecture（PPT）2024

暴力美学背后的细腻布局

Llama 3技术报告解读(1)- AI基础设施和并行策略

LLM推理需要什么样的硬件平台？（2）

LLM推理需要什么样的硬件平台？（1）

音乐，小说，与计算题 - 4： NVL72要出X86版本？！

再来谈谈大模型的分离式推理架构

Transformer架构详解文章与视频

H20跨入百万片俱乐部？

大模型的聚光灯照向以太网: ETH-X的scale up网络

大模型的聚光灯照向网络——当超节点遇上超节点

再谈谈三万亿的破绽

烈日下的绿色森林 —— 英特尔的能效核

暴力美学的show time —— 皮衣教主的Computex 2024 keynote

AI/ML中使用的集体操作（collectives），以太网卸载以及硬件实现

音乐，视频，与计算题 - 3

生成式AI的GPU网络 - 2

音乐，视频，与计算题 - 2

生成式AI的GPU网络

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉