英伟达年终大礼，最强AI GPU曝光！全新B300让o1/o3推理性能上天算力爆表

科技 2024-12-27 12:19 北京

新智元报道

编辑：编辑部 HYZ

【新智元导读】英伟达的圣诞大礼包曝光，最强B300、GB300算力和显存直接提高50%，模型推理训练性能史诗级提升，同时还打破了利润率下降的魔咒。

多亏了老黄，圣诞节如期而至。

尽管Blackwell GPU多次因硅片、封装和底板问题而推迟发布，但这并不能阻挡他们前进的脚步。

距离GB200和B200的发布才刚刚过去几个月，英伟达便推出了全新一代的AI GPU——GB300和B300。

更为有趣的是，这次看似普通的更新背后，实则内含玄机。其中最为突出的，便是模型的推理和训练性能得到了大幅增强。

而随着B300的推出，整个供应链正在进行重组和转型，赢家将从中获益（获得礼物），而输家则处境不妙（收到煤炭）。

这正是英伟达送给所有超大规模云计算供应商、特定供应链合作伙伴、内存供应商以及投资者的特别「圣诞礼物」

不过就在上周，天风国际分析师郭明錤却在研报中曝出，B300/GB300的DrMOS存在严重的过热问题！

而这，很可能会影响B300/GB300的量产进度。

具体分析如下——

这已经不是Blackwell第一次被曝出存在设计问题了

B300和GB300：绝不仅是一次小升级

根据SemiAnalysis的最新爆料，B300 GPU对计算芯片的设计进行了优化，并采用了全新的TSMC 4NP工艺节点进行流片。

相比于B200，其性能的提升主要在以下两个方面：

1. 算力

FLOPS性能提升50%
功耗增加200W（GB300和B300 HGX的TDP分别达到1.4KW和1.2KW；前代则为1.2KW和1KW）
架构改进和系统级增强，例如CPU和GPU之间的动态功率分配（power sloshing）

2. 内存

HBM容量增加50%，从192GB提升至288GB
堆叠方案从8层HBM3E升级为12层
针脚速率保持不变，带宽仍为8TB/s

专为「推理模型」优化

序列长度的增加，导致KV Cache也随之扩大，从而限制了关键批处理大小和延迟。

因此，显存的改进对于OpenAI o3这类大模型的训练和推理至关重要。

下图展示了英伟达H100和H200在处理1,000个输入token和19,000个输出token时的效能提升，这与OpenAI的o1和o3模型中的思维链（CoT）模式相似。

H100和H200的Roofline模拟，通过FP8精度的Llama 405B模型完成

H100到H200的升级，主要在于更大、更快的显存：

更高的带宽使交互性能普遍提升了43%（H200为4.8TB/s，而H100为3.35TB/s）
更大的批处理规模，使每秒token生成量提升了3倍，进而使成本也降低了约3倍

而对运营商而言，这H100和H200之间的性能与经济差异，远远超过技术参数的数字那么简单。

首先，此前的推理模型时常因请求响应时间长而影响体验，而现在有了更快的推理速度后，用户的使用意愿和付费倾向都将显著提高。

其次，成本降低3倍的效益，可是极为可观的。仅通过中期显存升级，硬件就能实现3倍性能提升，这种突破性进展远远超过了摩尔定律、黄氏定律或任何已知的硬件进步速度。

最后，性能最顶尖、具有显著差异化优势的模型，能因此获得更高溢价。

SOTA模型的毛利率已经超过70%，而面临开源竞争的次级模型利润率仅有20%以下。推理模型可突破单一思维链限制，通过扩展搜索功能提升性能（如o1 Pro和o3），从而使模型更智能地解决问题，提高GPU收益。

当然，英伟达并非唯一能提供大容量显存的厂商。

ASIC和AMD都具备这样的能力。而AMD更是凭借更大的显存容量（MI300X：192GB、MI325X：256GB、MI350X：288GB）占据了优势地位。

不过，老黄手里还有一张「绝对王牌」——NVLink。

NVL72在推理领域的核心优势在于，它能让72个GPU以超低延迟协同工作、共享显存。

而这也是全球唯一具备全连接交换（all-to-all switched connectivity）和全规约运算（all reduce）能力的加速器系统。

英伟达的GB200 NVL72和GB300 NVL72，对以下这些关键能力的实现极其重要——

更高交互性，实现更低思维链延迟
72个GPU分散KV Cache，支持更长思维链，提升智能水平
相比传统8 GPU服务器，具备更优批处理扩展性
支持更多样本并行搜索，提升准确性和模型性能

总体而言，NVL72可以在经济效益上实现10倍以上提升，尤其是在长推理链场景中。

而且，NVL72还是目前唯一能在高批处理下，将推理长度扩展至10万以上token的解决方案。

供应链重构

此前GB200时期，英伟达提供完整的Bianca主板（包含Blackwell GPU、Grace CPU、512GB LPDDR5X内存以及集成在同一PCB上的电压调节模块VRM），同时还提供交换机托盘和铜质背板。

但随着GB300的推出，供应链的结构和产品内容，将发生重大调整。

在新方案GB300中行，英伟达只提供三个核心组件的供应：

搭载在「SXM Puck」模块上的B300
BGA封装的Grace CPU
由美国初创企业Axiado提供的基板管理控制器（HMC），取代了原有的Aspeed方案

终端客户将需要直接采购计算板上的其他组件。同时，第二级内存方案，从焊接式LPDDR5X改为可更换的LPCAMM模块，主要由美光供应。交换机托盘和铜质背板仍由英伟达全权负责。

相比此前仅有纬创和富士康工业互联网（FII）能够制造Bianca计算板的局面，SXM Puck方案打破了原有的市场格局。

它的采用为更多OEM和ODM厂商参与计算托盘制造创造了机会：

纬创在ODM领域受影响最大，Bianca主板份额显著下降
富士康工业互联网通过独家生产SXM Puck及其插座，抵消了Bianca主板业务的损失
英伟达正在寻求Puck和插座的其他供应商，但目前尚未确定新订单

其次，是VRM供应链。

尽管SXM Puck上仍保留部分VRM组件，但主要的板载VRM将由超大规模数据中心运营商和OEM直接从供应商采购：

Monolithic Power Systems的市场份额将因商业模式转变而下降
市场格局重塑为新供应商创造了更多的机会

第三，英伟达在互联技术也取得了突破。

GB300平台搭载了800G ConnectX-8网络接口卡，可在InfiniBand和以太网上提供双倍的扩展带宽。

相较于上一代ConnectX-7，ConnectX-8具有多项显著优势：

带宽提升100%
PCIe通道数从32增至48，支持空冷MGX B300A等创新性架构设计
原生支持SpectrumX，无需借助效率较低的Bluefield 3 DPU（此前400G产品的方案）

对超算中心的影响

在2024年第三季度，受GB200和GB300发布延迟影响，大量订单转向了英伟达价格更高的新一代GPU。

截至上周，所有超算中心均已决定采用GB300方案。这一决策基于两个因素：

GB300提供更高的FLOPS算力和更大的显存容量
客户拥有更多系统定制自主权

此前，由于上市时间压力以及机架、散热和供电密度的重大调整，超算中心此前难以对GB200服务器进行深度定制。

这迫使Meta完全放弃了同时向博通和英伟达采购网络接口卡的计划，转而完全依赖英伟达。类似地，谷歌也放弃了自研网络接口卡方案，转而采用英伟达的解决方案。

对于那些一向精于优化从处理器到网络设备，甚至到螺丝和钣金等各个环节成本的超算中心数千人研发团队来说，为其带去了极大的困扰。

另外，亚马逊的案例最具代表性。他们选择了一个次优配置，导致总拥有成本（TCO）超过了参考设计。

由于使用PCIe交换机和需要风冷的低效200G弹性网络适配器，亚马逊无法像Meta、谷歌、微软、甲骨文、xAI和Coreweave那样部署NVL72机架。

受限于其内部网卡方案，亚马逊被迫采用NVL36架构，却因更高的背板和交换机成本推高了每个GPU的支出。

总体而言，因定制化受限，导致亚马逊的配置方案并不理想。

GB300的推出，为超算中提供了更大自主权，比如可以自主定制主板、散热系统等。

这使得亚马逊能够开发自己的定制主板，将此前需要风冷的组件（如Astera Labs PCIe交换机）整合进水冷系统。

随着更多组件采用水冷设计，加上K2V6 400G网卡将在2025年第三季度实现规模化量产，亚马逊有望重返NVL72架构，显著提升TCO效率。

然而这也带来了一个显著挑战：超算中心需要投入更多资源进行设计、验证和确认工作。

这无疑是超算中心面临的最复杂系统设计项目（除谷歌TPU外）。部分超算中心能够快速完成设计，但设计团队较慢的机构则明显落后。

尽管市场传闻有公司取消订单，但SemiAnalysis观察到由于设计进度较慢，微软可能是最晚部署GB300的机构之一，他们在第四季度仍在采购GB200。

随着部分组件从英伟达转移到原始设计制造商（ODM），客户的总采购成本出现较大差异。

这不仅影响了ODM的收入，更重要的是导致英伟达全年的毛利率产生波动。下面将更详细分析这些变动对英伟达利润产生的影响。

值得一提的是，三星在未来至少9个月内，都无法进入GB200或GB300的供应链。

对英伟达利润的影响

怀着「圣诞精神」的英伟达，在新的定价策略上也颇有看点——这将直接影响Blackwell系列的利润。

随着显存方案从SK海力士和美光的8层HBM3E堆栈升级至12层HBM3E堆栈，显存容量获得了显著提升。

这一升级，直接导致英伟达芯片级物料清单（BOM）成本增加约2,500美元。

成本的增加主要来自——

更高的容量
堆栈层数增加带来的每GB显存溢价
封装良率下降带来的额外成本

第三点也反映出高带宽显存（HBM）在物料成本中的主导地位（随着推理模型对显存容量和带宽需求增加，这一趋势将持续加强）。

总体而言，GB300的平均售价较GB200提高约4,000美元，其中HBM成本增加约2,500美元，而增量利润率不足40%，而GB200整体的利润率维持在70%的中低水平。

然而，由于前述内容变化，英伟达减少了整体供应内容，转由超算中心自行采购，由此，英伟达实现了成本平衡。

首先，英伟达不再提供每个Grace CPU配套的512GB LPDDR5X内存，这抵消了大部分额外的HBM成本支出。

其次，PCB的成本节省最为显著。

综合各项因素，在平均销售价格提升4,000美元的同时，英伟达的物料成本仅增加略超1,000美元。

GB300相对于GB200的增量毛利率达到73%，这意味着在良率保持稳定的情况下，该产品的利润水平基本持平。

这一结果虽然看似平常，但值得注意的是，HBM升级周期通常会导致利润率下降（例如H200、MI325X的情况），而这次这一惯例被打破了。

此外，随着各项工程技术问题的逐步解决，良率将会提升，在度过Blackwell初期的产能爬升期后，利润率预计会在年内逐步改善。

参考资料：

https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/#hyperscaler-impacts-with-gb300

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

2025智能世界50震撼预测！AI海啸来袭，5维度看清AGI与潜在可能

DeepMind天才科学家疑抑郁自杀！41岁SuperGLUE之父英年早逝，AI圈悲痛不已

斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手

复旦等提出「中国版GPT-Zero」！毕业论文AI率自查神器｜AAAI 2025

动物版谷歌翻译来了？Nature：用AI解码野性的呼唤！

招人！新智元邀你勇闯ASI之巅

史上最激烈H-1B骂战引爆美国！马斯克开炮：进口劳动力断供，美国科技要崩

微软论文意外「走光」，OpenAI参数全泄密！GPT-4o仅200B，o1 300B

比人类神经元快10亿倍！港中文、中科院「超级大脑」：1秒识图3479万张

大规模3D场景2分钟生成，效率提升30倍！中科院发布空间智能新框架 | AAAI 2025

田渊栋：2024年年终总结

招人！新智元邀你勇闯ASI之巅

奇点临近！美国47%工作岗位将被ASI卷走，大佬急发「逃生攻略」

o3拿下25%高分震惊数学教授，2025 IMO金牌或被AI收入囊中！

OpenAI o1「作弊」修改系统，强行击败专业象棋AI！全程无需提示

招人！新智元邀你勇闯ASI之巅

Ilya布局末日倒计时？奥特曼与谷歌大佬揭秘2025年ASI降临时间表！

反手就是开源！英伟达豪掷7亿美元收购专攻GPU初创Run:ai

2024年AI编程有多强？谷歌工程主管揭秘残酷真相

招人！新智元邀你勇闯ASI之巅

惊人反转！OpenAI吹哨人死于谋杀？公寓被洗劫有打斗痕迹，马斯克发声

Hinton发2024末日预警：10年内人类灭绝！奥特曼预言18个月ASI降临

英伟达2025祭出「迷你大脑」，雷神「Thor」剑指千亿机器人市场！

9大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

2024年人工智能年终总结报告｜Artificial Analysis

招人！新智元邀你勇闯ASI之巅

谷歌劈柴立军令状：必斩OpenAI，夺回第一！

雷军千万年薪挖角95后天才少女，AI女神逆风翻盘！

o1 pro深评博士医学论文，震惊顶尖免疫学家！2分破解神秘作家身份

招人！新智元邀你勇闯ASI之巅

OpenAI大地震一分为二，全力冲刺AGI！一半向钱看，一半装理想

AI掌控编码人类狂按Tab，软件工程自主时代来临！OpenAI董事长Taylor重磅长文

OpenAI研究员首次提出「AGI时间」进化论！o1数学已达「分钟级AGI」

招人！新智元邀你勇闯ASI之巅

OpenAI微软「秘密协议」首次曝光：盈利超过1000亿美元就是AGI！

吹哨人之死：26岁OpenAI举报人离奇自杀，母亲心碎曝出惊人内幕！

英伟达年终大礼，最强AI GPU曝光！全新B300让o1/o3推理性能上天算力爆表

首篇「角色扮演AI」综述！复旦等提出大模型三层人格分类框架：群体、角色、个性化 | TMLR

招人！新智元邀你勇闯ASI之巅

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

15大机构十年研究证明：无约束AI必然超越人类，创造能力也更强！

英特尔至强6独享MRDIMM，内存带宽飙升，加速推理达2.4倍！

Anthropic联创：Scaling Law没崩，但推理成天价！有了TTT，25年AI更加速

CMU等提出超实用「模型泛化性」指标，分布外准确率提升6% | ICML 2024 Oral

「数字孪生」东京上线！Jim Fan：具身智能零样本迁移现实世界，共享「蜂群思维」

招人！新智元邀你勇闯ASI之巅

蚂蚁群组团最强AGI，破解几何难题完爆人类！群体智能登顶PNAS

美国CS女硕士放弃读博，当主播狂赚100万美金！自曝学术界真相全网唏嘘

MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

具身元年压轴，智源线虫登Nature子刊封面！具身智能迎新纪元

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉